Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Машинное обучение, Natural Language Processing, Исследования и прогнозы в IT

Всем привет! Делюсь итогом двухмесячной работы - релизом рейтинга юридического рассуждения больших языковых моделей Lexometrica Ground Truth.

Изначально цель была сугубо практической: требовалось выбрать лучшие модели для LegalTech-проекта "неШемяка!". Но в процессе пришлось столкнуться с фундаментальной проблемой индустрии оценки ИИ - открытые тесты дают сильно искаженную картину. Финальные результаты спроектированного стресс-теста оказались сколь ожидаемыми, столь же и неожиданными.

В этой статье описал, как архитектурно выстроен бенчмарк, как велась борьба с test-set leakage, почему написан кастомный пайплайн и какие глобальные и локальные нейросети на самом деле умеют legal reasoning.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro