Lexometrica Ground Truth: бенчмарк LLM по российскому праву

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Lexometrica Ground Truth: бенчмарк LLM по российскому праву

09.03.2026 21:15:27 | Хабр

Хабы: Искусственный интеллект, Машинное обучение, Natural Language Processing, Исследования и прогнозы в IT

Всем привет! Делюсь итогом двухмесячной работы - релизом рейтинга юридического рассуждения больших языковых моделей Lexometrica Ground Truth.

Изначально цель была сугубо практической: требовалось выбрать лучшие модели для LegalTech-проекта "неШемяка!". Но в процессе пришлось столкнуться с фундаментальной проблемой индустрии оценки ИИ - открытые тесты дают сильно искаженную картину. Финальные результаты спроектированного стресс-теста оказались сколь ожидаемыми, столь же и неожиданными.

В этой статье описал, как архитектурно выстроен бенчмарк, как велась борьба с test-set leakage, почему написан кастомный пайплайн и какие глобальные и локальные нейросети на самом деле умеют legal reasoning.

Читать далее

Подробнее

Читайте также

Lenovo показала концепт портативной консоли со складным экраном
09.03.2026 21:01:48 | ferra.ru

Смена парадигм в нейрофизиологии: от рефлекторной машины к самоорганизующейся системе
09.03.2026 20:51:16 | Хабр

Наблюдаемость LLM-агентов: Часть 1. Трассировка LangGraph и версионирование промптов с LangFuse
09.03.2026 20:41:58 | Хабр

Системная инженерия в бизнесе: архитектурный подход к построению компании, который корпорации применяют уже 50 лет
09.03.2026 19:16:17 | Хабр

IDE понимает ваш код. AI-агент — нет. Это можно исправить
09.03.2026 19:08:06 | Хабр

СМИ: Nvidia вернет в продажу видеокарты RTX 3060 с помощью Samsung
09.03.2026 19:01:49 | ferra.ru

Дорога к звездам начинается на Земле
09.03.2026 18:30:20 | Хабр

Лучшие виртуальные карты для оплаты зарубежных сервисов и расчётов за границей
09.03.2026 18:18:27 | Хабр

Обратная сторона лаконичности знаков в языках программирования
09.03.2026 18:16:11 | Хабр

Американский гиперзвук: догоняют Россию и Китай, или выходят вперёд?
09.03.2026 17:50:44 | ferra.ru

Между tail и ELK: пытаюсь собрать логи с нескольких серверов одной командой
09.03.2026 17:41:07 | Хабр

MikroTik, MultiVPN и все такое
09.03.2026 17:24:33 | Хабр

Эволюция Telegram-бота на локальной LLM от болтуна до мини-игр, генерации фото, возможности выбора модели
09.03.2026 17:16:03 | Хабр

Nano Banana 2: Обзор возможностей Gemini 3.1 Flash
09.03.2026 17:04:10 | Хабр

Чат-боты с ИИ начали направлять пользователей на нелегальные сайты казино
09.03.2026 17:01:51 | ferra.ru

Кто такой продакт‑менеджер? И почему ответ на этот вопрос почти всегда неправильный
09.03.2026 16:36:03 | Хабр

DEVLOG 6: Диалоговая система встречает счётчик стиля из Devil May Cry
09.03.2026 16:32:07 | Хабр

Как в Unreal Engine генерируется Hierarchical Z Buffer
09.03.2026 16:15:58 | Хабр

Чтение и запись переменных из ПЛК по Modbus в C#-приложении
09.03.2026 16:12:00 | Хабр

Автобусы в Петербурге или GTFS по-русски: успеть за 15 минут
09.03.2026 15:46:54 | Хабр

Как Red Teaming и человеческий креатив позволяют оценить риски внедрения LLM в бизнес-процессы
09.03.2026 15:43:58 | Хабр

Бумага и одежда из борщевика: можно ли создавать продукцию из опасного растения?
09.03.2026 15:24:26 | Хабр

Бот из бытовой боли
09.03.2026 15:24:20 | Хабр

Голографическая обработка как способ повышения скорости передачи информации
09.03.2026 15:19:38 | Хабр

Почему DevOps-инженеров ищут месяцами
09.03.2026 15:15:51 | Хабр

Как веб-студии грамотно оформить отношения с командой, чтобы избежать юридических споров?
09.03.2026 15:15:49 | Хабр

Импорт текстовых банковских выписок в SAP через FEB_FILE_HANDLING
09.03.2026 15:07:58 | Хабр

Международные перспективы Цифрового рубля и других CBDC
09.03.2026 15:07:23 | Хабр

Похоже, и у Huawei появится ноутбук с припиской Neo — дешевле MacBook Neo
09.03.2026 15:01:43 | ferra.ru

Виды моделирования данных. Полный гайд
09.03.2026 14:49:37 | Хабр

Гит в Телеграм?
09.03.2026 14:46:44 | Хабр

В MAX есть доступ к фото по ссылке: Уязвимость или нет? По ФСТЭК и CVSS
09.03.2026 14:37:44 | Хабр

[Перевод] Как один разработчик с телефона создал ИИ-агента, который напугал Anthropic, Google и Microsoft одновременно
09.03.2026 14:23:38 | Хабр

Как с помощью газопоршневых установок получают дешевую энергию для майнинга криптовалют
09.03.2026 14:15:40 | Хабр

Недельный геймдев: #268 — 8 марта, 2026
09.03.2026 14:04:25 | Хабр

Смотреть все

НОВОСТИ

В Диксоне завели дело после нападения собак на ребенка
13.04.2026 08:17:32 | ТАСС

Два человека пострадали при ударе дронов в Белгородской области
13.04.2026 08:17:24 | Коммерсантъ

Стало известно о переброске резервов ВСУ из-за массовых потерь в зоне СВО
13.04.2026 08:17:14 | Lenta.ru

Александр Румак: В чем секрет белорусской толерантности
13.04.2026 08:17:00 | Российская Газета

В Томской области число находящихся в ПВР сократилось до семи
13.04.2026 08:15:37 | ТАСС

Ozon открыл фулфилмент-центр в Новой Москве
13.04.2026 08:14:55 | ТАСС

Боец «Орлана» ранен при отражении атаки вражеского дрона в Грайвороне
13.04.2026 08:14:23 | Life.ru

Эксперт Щукина: дауншифтеры стали жить в России, а не за границей
13.04.2026 08:14:21 | ТАСС

Власти Кировограда сообщили о пожаре на объекте инфраструктуры
13.04.2026 08:12:40 | Life.ru

Оренбургская область отправит в Дагестан четыре фуры стройматериалов
13.04.2026 08:12:11 | ТАСС

Российский военкор объяснил смысл пасхального перемирия
13.04.2026 08:10:12 | Lenta.ru

Оценена возможность возвращения Моргенштерна в Россию
13.04.2026 08:10:03 | Lenta.ru

Эксперимент по вылову медуз в Азовском море пройдет в 2026 году
13.04.2026 08:09:53 | ТАСС

В Малайзии заявили о задержании двух танкеров с россиянами при перегрузке нефти
13.04.2026 08:09:34 | Life.ru

В подземных водах Западной Сибири нашли новый род бактерии
13.04.2026 08:09:29 | ТАСС

Трое детей пострадали в ДТП на трассе Хабаровск — Владивосток
13.04.2026 08:09:05 | Life.ru

ВАРПЭ: продажи красной икры на Масленицу, 23 февраля и 8 марта выросли на 11%
13.04.2026 08:08:31 | ТАСС

«Точная копия»: Фанаты поразились сходству дочери Пугачёвой с матерью на фото с Галкиным*
13.04.2026 08:08:23 | Life.ru

На журналистку Марианну Беленькую завели уголовное дело
13.04.2026 08:08:20 | ТАСС

Новая Call of Duty может выйти уже в октябре
13.04.2026 08:07:41 | PlayGround.ru

Ростех поставил в войска партию носимых комплексов управления огнем "Планшет-А"
13.04.2026 08:06:09 | ТАСС

Марочко: силы РФ за неделю взяли под контроль обширный участок у Купянска
13.04.2026 08:05:43 | ТАСС

Роспатент представил наиболее перспективные патенты на "зеленые" технологии
13.04.2026 08:05:08 | ТАСС

Марочко: Киев за неделю потерял в боях более 8,4 тыс. солдат и наемников
13.04.2026 08:03:27 | ТАСС

Лидер турецких националистов предложил создать "Всемирный совет мира" с РФ
13.04.2026 08:00:38 | ТАСС

Назван лучший способ избавления от жира на боках
13.04.2026 08:00:33 | Lenta.ru

30-летнюю женщину обвинили в сексе с 15-летним подростком
13.04.2026 08:00:31 | Lenta.ru

Сергаева призвала не делать выводы после победы Борисовой над чемпионкой ОИ
13.04.2026 08:00:08 | ТАСС

Тест: Кто вы из сериала «Клон»: Жади, Лукас, Зейн, Иветти или Саид?
13.04.2026 08:00:00 | Life.ru

Взятка началась с зарплаты // Экс-советник главы крупного застройщика считает себя жертвой оговора
13.04.2026 08:00:00 | Коммерсантъ

Посольство России в Турции усиливает меры безопасности
13.04.2026 07:59:28 | Life.ru

Популярный стример назвал актуальную версию ARC Raiders "неиграбельной"
13.04.2026 07:59:06 | PlayGround.ru

Tesla получила многомиллионный заказ на поставку Megapack
13.04.2026 07:59:00 | iXBT.com

Фицо поблагодарил Орбана за сотрудничество и поздравил оппозицию Венгрии
13.04.2026 07:58:33 | РБК

Даже навес в зоне риска: Адвокат Жорин напомнил, за какие дачные постройки россиян ждут штрафы до 20 тысяч
13.04.2026 07:56:54 | Life.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro