Как оценивать LLM на практике, если времени на «идеальный бенчмарк» нет

30.06.2026 06:32:12 | Хабр

Хабы: Блог компании Сбер, Машинное обучение, Искусственный интеллект

Меня зовут Алёна, и я более пяти лет занимаюсь оценкой языковых моделей: участвовала в создании таких русскоязычных бенчмарков как Russian SuperGLUE, ruMTEB, куратор проекта Альянса в сфере искусственного интеллекта «MERA» (бенчмарка для оценки русскоязычных LLM), и создатель множества других проектов в области тестирования генеративных моделей. На конференциях, встречах с командами и обсуждениях LLM-продуктов я часто слышу один и тот же вопрос: «А как вообще правильно оценивать LLM на практике?», и почти всегда за этим вопросом стоит один и тот же разрыв.

С одной стороны, есть академический мир. В нём бенчмарк — это методология, датасеты, метрики, контроль качества, проверка утечек, воспроизводимость, анализ ошибок и месяцы работы. Хороший академический тест должен быть достаточно строгим, чтобы его результатам можно было доверять.

С другой стороны, есть индустриальная практика. Команде нужно выбрать модель, проверить новую версию промпта, сравнить два пайплайна, выкатить RAG-систему, оценить агентную систему или понять, не стало ли хуже после очередного изменения. И всё это не через полгода, а, желательно, к следующему релизу.

На этом месте и возникает типовая развилка. Часть команд не оценивает почти ничего: несколько ручных примеров перед демо, быстрый просмотр ответов глазами — и решение «вроде, работает». Другая часть пытается сделать «минимально нормальную» оценку: 10–20 запросов, LLM-судья, средний балл, табличка для отчёта. Проблема в том, что второй вариант часто выглядит как контроль качества, но им не является. Более того, он может быть опасен, потому что создаёт уверенность там, где на самом деле есть только очень слабый сигнал. При этом я хорошо понимаю, почему так происходит. Дело не в том, что команды ленятся или не понимают важности оценки. Скорее, наоборот: они работают в темпе, для которого классический академический подход часто является слишком тяжеловесным.

Подробнее

Читайте также

Видео и презентации со второго митапа Devhands AI Club
30.06.2026 06:08:09 | Хабр

Как SOC в ритейле связывает кибербезопасность и антифрод
30.06.2026 06:00:14 | Хабр

Настройка мониторинга Zabbix и Datareon Platform через API Центра мониторинга
30.06.2026 06:00:12 | Хабр

[Перевод] Как Reddit без потерь перенес петабайтную Kafka с EC2 на Kubernetes
30.06.2026 05:57:10 | Хабр

Подбирайте одежду и обувь свайпами, знакомьтесь через видеокружки – и ещё 8 российских стартапов
30.06.2026 05:45:08 | Хабр

Apache Paimon: steamhouse как логическое продолжение современных КХД
30.06.2026 03:50:53 | Хабр

Серверы Minecraft как ботнет для DDoS атак
30.06.2026 02:39:40 | Хабр

Теплые и влажные Плитки для документов на C#: не проводник
30.06.2026 02:34:52 | Хабр

Производителя памяти Micron назвали «следующей Nvidia». Почему
29.06.2026 23:15:02 | ferra.ru

Анатомия SQLite-провайдера: уходим от EF Core — типизированное хранилище для десктопа, мобайла и Blazor WASM
29.06.2026 21:38:13 | Хабр

Google Cloud предложит специализированные ИИ-модели для научных исследований
29.06.2026 21:34:33 | it-world

Погружение в Kafka c KRaft
29.06.2026 21:33:31 | Хабр

База прямо на спутнике, дома на колёсах и новые скафандры: NASA и его планы закрепиться на Луне
29.06.2026 21:30:18 | vc.ru

Первый MacBook с сенсорным экраном выйдет раньше, чем ожидалось
29.06.2026 21:15:01 | ferra.ru

5 движков, 1 resnet: битва inference-рантаймов 2026
29.06.2026 21:04:44 | Хабр

Рунет без Google Login: что теперь делать с авторизацией
29.06.2026 21:02:27 | Хабр

OS Personium. Часть 4: Биопрограммы. Всё что вы не знали о своём призвании и Цели в жизни
29.06.2026 20:58:24 | Хабр

Facts — прохождение простой машины от HackTheBox
29.06.2026 20:48:31 | Хабр

Российский микроконтроллерный блок управления судовыми преобразователями частоты. Часть 3
29.06.2026 20:24:15 | Хабр

[Перевод] Что делает роботов экономически жизнеспособным бизнесом
29.06.2026 20:15:23 | Хабр

6 ошибок в метриках дефектов, из-за которых QA теряет контроль над качеством
29.06.2026 20:11:24 | Хабр

WhatsApp* представил юзернеймы и открыл их бронирование
29.06.2026 20:00:08 | vc.ru

Как создать видео из фото нейросетью — Сравниваем ТОП-7 ИИ для генерации видео из промпта
29.06.2026 19:37:02 | Хабр

Как ИИ повлиял на SEO? И как теперь обходить конкурентов в поиске?
29.06.2026 19:33:29 | Хабр

Китай собрал самый быстрый суперкомпьютер по версии TOP500
29.06.2026 19:15:01 | ferra.ru

7 метрик SaaS вместо стоимости заявки: карта от показа до повторных продаж
29.06.2026 18:47:18 | Хабр

Как «ужать» мегаполис до размеров iPhone 4
29.06.2026 18:13:58 | Хабр

Дело на вечер: собираем домашний ИИ-сервер
29.06.2026 18:06:48 | Хабр

Аэрокосмическая Rocket Lab купит спутникового оператора Iridium в сделке на $8 млрд для конкуренции со SpaceX
29.06.2026 17:57:16 | vc.ru

Direct2D #13. Command Lists. Запись графических команд
29.06.2026 17:26:20 | Хабр

Dell выпустила в Европе монитор Alienware AW3426DW с QD-OLED и 280 Гц
29.06.2026 17:14:56 | ferra.ru

[Перевод] Что на самом деле означают теоремы Гёделя о неполноте?
29.06.2026 17:14:18 | Хабр

Почему в отпуске зубы могут заболеть. Советы стоматолога
29.06.2026 17:03:37 | ferra.ru

ИИ в опросах: как AI survey tools меняют NPS, аналитику и обратную связь
29.06.2026 16:53:35 | Хабр

Аудио-токенизатор KVAE-Audio от Сбера
29.06.2026 16:26:59 | Хабр

Смотреть все

НОВОСТИ

Верховный суд США снял еще один лимит на финансирование избирательных кампаний
30.06.2026 19:52:01 | ТАСС

Теннисистка Блинкова обыграла украинку Стародубцеву на старте Уимблдона
30.06.2026 19:51:53 | ТАСС

Прожившая с мужем 20 лет известная российская ведущая раскрыла секрет крепкого брака
30.06.2026 19:47:31 | Lenta.ru

TikTok оштрафовали в России на миллионы рублей
30.06.2026 19:47:28 | Lenta.ru

Figaro: следователи склоняются к версии о причастности СБУ ко взрыву в Монако
30.06.2026 19:47:18 | ТАСС

Зеленский сделал заявление о подготовке к зиме
30.06.2026 19:46:56 | Lenta.ru

54-летняя Виктория Толстоганова снялась крупным планом без фильтров
30.06.2026 19:46:51 | Lenta.ru

Какие праздники отмечают в июле 2026: полный календарь по всем датам второго месяца лета
30.06.2026 19:45:00 | Life.ru

Нетаньяху и министр обороны Израиля посетили "зону безопасности" на юге Ливана
30.06.2026 19:44:29 | ТАСС

Франция изменила правила подачи документов на шенген
30.06.2026 19:44:00 | Российская Газета

В США модернизированный «Адмирал Нахимов» сочли совершенно новым кораблем
30.06.2026 19:43:30 | Lenta.ru

Главком ВСУ рассказал о позоре украинской армии
30.06.2026 19:42:56 | Lenta.ru

Родственница матери погибшего под Москвой при атаке ВСУ младенца опровергла ее смерть
30.06.2026 19:42:25 | Lenta.ru

Теннисист Хачанов с победы стартовал на Уимблдоне
30.06.2026 19:40:49 | ТАСС

В РФ появятся 52 проектных офиса для тиражирования муниципальных практик
30.06.2026 19:40:33 | ТАСС

Гавана попросит у ГА ООН помощи от удушающей блокады США
30.06.2026 19:40:22 | Life.ru

В Петербурге суд обязал бывшего мужа «выселить» корги из-за аллергии экс-супруги
30.06.2026 19:39:41 | Life.ru

Россияне с детьми массово устремились на отдых в Арктику
30.06.2026 19:39:21 | Lenta.ru

NYT: Оман передал США предложение о сборе за проход через Ормузский пролив
30.06.2026 19:37:56 | ТАСС

Видео с «киборгом» Холандом из сборной Норвегии оказалось фейком, созданным ИИ
30.06.2026 19:37:22 | Life.ru

Мобилизованного в ВСУ отца-одиночку из Кривого Рога отправили в воинскую часть
30.06.2026 19:37:00 | Российская Газета

Волочкова жестко ответила на отказ SHAMAN записать песню
30.06.2026 19:36:14 | Lenta.ru

Психолог назвала способы быстрее забыть бывшего партнера
30.06.2026 19:35:42 | Lenta.ru

"Страна": на Украине мобилизованного отца-одиночку отправили в воинскую часть
30.06.2026 19:35:25 | ТАСС

Миша раскрыл карты: Морж из Приморья показал, как принимает бьюти-процедуры
30.06.2026 19:35:12 | Life.ru

Футболист ЦСКА Кармо назвал Неймара примером для бразильских игроков
30.06.2026 19:33:24 | ТАСС

В Перми приостановили движение поездов
30.06.2026 19:33:03 | ТАСС

США ожидают от союзников по НАТО отчета о наращивании военных расходов 7-8 июля
30.06.2026 19:31:18 | ТАСС

Тамбовские аграрии завершили перенесенную из-за непогоды посевную кампанию
30.06.2026 19:30:03 | ТАСС

Когда астероид подлетит к Земле, вы даже не поймёте! Какие ещё космические объекты опасны и кто нас спасёт
30.06.2026 19:30:00 | Life.ru

Труп туриста увидели в бассейне отеля на популярном курорте Европы
30.06.2026 19:29:46 | Lenta.ru

Лантратова выпустила заявление после гибели младенца от удара ВСУ в Подмосковье
30.06.2026 19:28:50 | Lenta.ru

Кенийские розовые фламинго бледнеют и вымирают из-за обильных дождей над Великой рифтовой долиной
30.06.2026 19:26:46 | Life.ru

Суд в Берлине подтвердил запрет на вещание RT DE в Германии
30.06.2026 19:25:00 | ТАСС

Суд в Берлине подтвердил запрет на вещание канала RT DE в Германии
30.06.2026 19:25:00 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro