POLLUX: оценка генеративных способностей моделей для русского языка

info@vsetut.pro

Стать автором

Вернуться

30.06.2025 13:04:39 | Хабр

Хабы: Блог компании Сбер, Natural Language Processing, Машинное обучение

Обычно мы оцениваем способности больших языковых моделей через бенчмарки вроде MMLU, RussianSuperGlue или первых версий MERA, которые напоминают экзаменационные тесты с выбором правильного варианта ответа. Однако на практике пользователи задействуют модели для принципиально иных целей — создания текстов, генерации идей, переводов, составления резюме и прочих задач. Как оценивать результат в этом случае? В этой статье мы расскажем, как решали проблему оценки открытой генерации и что у нас получилось.

Подробнее

Читайте также

[Перевод] Радость создания хобби-программ
30.06.2025 13:01:06 | Хабр

Кейс: панельные ПК Qbic TD-1060 как терминал Digital Signage в культурно-развлекательном комплексе в Казани
30.06.2025 12:55:00 | Хабр

SSH для дата сайентиста: обзор для начинающих
30.06.2025 12:49:43 | Хабр

Финтех сегодня и завтра: на что ориентироваться?
30.06.2025 12:48:47 | it-world

Манго поможет вам контролировать уровень сахара в крови
30.06.2025 12:45:58 | ferra.ru

GPU Server and AI Infrastructure: тренды архитектуры 2030
30.06.2025 12:42:05 | Хабр

Переоценка API-стратегий: почему компании мигрируют с GraphQL на REST
30.06.2025 12:27:54 | Хабр

(BRS) — CLI-набор для сетевой разведки и аудита безопасности
30.06.2025 12:10:27 | Хабр

«Щит» или «дуршлаг»? ML упрощает жизнь разработчиков, но способен проделать новые дыры в безопасности
30.06.2025 12:09:46 | Хабр

Недельный геймдев: #232 — 29 июня, 2025
30.06.2025 12:06:30 | Хабр

Из чата в TMS: Как Telegram-бот с GPT ускоряет создание и выполнение тестов
30.06.2025 12:05:23 | Хабр

Lisuan G100: первый игровой графический чип из Китая. Возможности новинки
30.06.2025 12:00:58 | Хабр

CB2FA — двухфакторная аутентификация через сообщество
30.06.2025 12:00:38 | Хабр

Рикотта и другие сыры, которые помогут вам сжечь жир на животе
30.06.2025 12:00:19 | ferra.ru

Налог на дизайн и его невидимые слоны
30.06.2025 11:55:10 | Хабр

Paranoia: админ-панель для Matrix Synapse на PHP
30.06.2025 11:54:41 | Хабр

Интерактивный киоск в Astra Linux: откройте дверь в мир интерактивных возможностей
30.06.2025 11:46:34 | Хабр

Эволюция JSON в Go: от v1 к v2
30.06.2025 11:41:46 | Хабр

Замесы с охранниками, анализ в 4 странах — как мы проводили исследования, чтобы сделать UX касс самообслуживания
30.06.2025 11:36:24 | Хабр

Как выйти из загруженности текучкой в удовлетворенность от управления собственным бизнесом
30.06.2025 11:34:38 | Хабр

Герман Греф: «2026 год будет не самым простым. Первая его половина уже сейчас видна»
30.06.2025 11:34:36 | vc.ru

Об управлении планами PREPARED-запросов в PostgreSQL
30.06.2025 11:34:12 | Хабр

Вакансий больше, чем выпускников: как TAPP Group преодолевает кадровый кризис
30.06.2025 11:30:54 | Хабр

В Китае прошёл футбольный турнир среди автономных роботов
30.06.2025 11:25:57 | vc.ru

Фитнес-тест “Сядь-встань” покажет, насколько долго вы проживёте
30.06.2025 11:15:49 | ferra.ru

[Перевод] Кто, как и зачем внедряет Gen AI в 2025: опыт 100 CIO
30.06.2025 11:00:47 | Хабр

Контактные линзы, которые «пожирают» глаза: когда «экран глаза» ловит критический баг и почему это касается всех
30.06.2025 10:42:35 | Хабр

Брокколи назвали лучшим овощем при боли при артрите
30.06.2025 10:30:52 | ferra.ru

Мошенники вместо карт дропперов начали использовать для вывода денег электронные кошельки у букмекеров
30.06.2025 10:25:29 | vc.ru

Влияет ли «слепая печать» на вашу орфографию?
30.06.2025 10:23:26 | Хабр

Лучшие игры для изучения программирования в 2025 году
30.06.2025 10:10:05 | Хабр

Как создавать контент, который ИИ будет воспринимать как источник
30.06.2025 10:05:40 | Хабр

Как в Django реализовать заполнение профиля пользователя через Google
30.06.2025 10:03:28 | Хабр

Польза от «качалок» — любительского бодибилдинга
30.06.2025 10:00:22 | Хабр

О чем новый роман Стивена Кинга «Never Flinch»? Мир, в котором никто никому не уступает
30.06.2025 09:51:48 | Хабр

Смотреть все

НОВОСТИ

«Южная» группировка войск за сутки уничтожила 60 блиндажей с военными ВСУ
31.03.2026 06:32:02 | Life.ru

Президент Мексики пожертвовала более тысячи долларов на помощь Кубе
31.03.2026 06:31:00 | Российская Газета

В порту Усть-Луга после атаки БПЛА ВСУ есть повреждения, пострадали три человека
31.03.2026 06:28:19 | Life.ru

Эксперт Цзинь: Трамп вряд ли сможет посетить КНР в мае из-за Ирана
31.03.2026 06:25:31 | ТАСС

Депутат Оглоблина сообщила, когда нормализуются цены на яйца
31.03.2026 06:24:38 | ТАСС

Роснедра: поисковые лицензии на золотые россыпи сохранят
31.03.2026 06:23:57 | ТАСС

Три человека, в том числе двое детей, пострадали из-за атак БПЛА в Ленобласти
31.03.2026 06:23:31 | ТАСС

В Ленобласти из-за падения обломков БПЛА повреждены дома, школа и здание соцзащиты
31.03.2026 06:23:18 | ТАСС

Эксперт Федутинов: СВО кратно ускоряет интенсивность модернизации "Гераней"
31.03.2026 06:22:44 | ТАСС

Эксперт Рожин: военные стран НАТО несут потери при ударах РФ по аэродромам ВСУ
31.03.2026 06:21:59 | ТАСС

В порту Усть-Луга после атаки БПЛА есть повреждения
31.03.2026 06:21:54 | ТАСС

Гигантский танкер из Кувейта подвергся атаке в порту Дубая
31.03.2026 06:21:00 | Российская Газета

Раскол элит в Тегеране мешает урегулированию конфликта на Ближнем Востоке
31.03.2026 06:20:32 | Life.ru

Руденко: дат следующих переговоров по Украине нет
31.03.2026 06:20:13 | ТАСС

Украинский военный пожаловался на власти словами «воюй, дурачок, получишь золотой значок»
31.03.2026 06:19:57 | Lenta.ru

Над Ленобластью уничтожили 38 БПЛА
31.03.2026 06:19:54 | ТАСС

Фонд развития промышленности ДНР наращивает поддержку бизнеса
31.03.2026 06:19:28 | ТАСС

В Пулкове задержали или отменили около 50 рейсов
31.03.2026 06:16:55 | ТАСС

ВСУ начали использовать новую тактику при атаках БПЛА в ДНР
31.03.2026 06:15:50 | Life.ru

Минпросвещения планирует сделать второй иностранный язык обязательным в школах
31.03.2026 06:12:15 | ТАСС

Brasil 247: у Лулы да Силвы и Болсонару появился конкурент на выборах президента
31.03.2026 06:10:39 | ТАСС

ПВО «Запада» сбила 78 квадрокоптеров и десятки БПЛА ВСУ за сутки
31.03.2026 06:10:16 | Life.ru

BZ: Визит Зеленского в Иорданию состоялся в момент, когда Киев терпит неудачи
31.03.2026 06:10:00 | Российская Газета

Руденко: число приезжающих в Россию рабочих из Индии растет
31.03.2026 06:09:41 | ТАСС

Эксперт Степанов: Украина может открыть подводный фронт
31.03.2026 06:07:07 | ТАСС

Российский ретейлер Desport продолжает сокращать число торговых точек
31.03.2026 06:06:39 | ТАСС

ID Collect: должники МФО по итогам 2025 года стали зарабатывать на 26% больше
31.03.2026 06:06:29 | ТАСС

Tasnim: электричество пропало на востоке Тегерана после ударов США и Израиля
31.03.2026 06:06:26 | ТАСС

Tasnim: на востоке Тегерана пропало электричество после ударов США и Израиля
31.03.2026 06:06:26 | ТАСС

УФСБ: более 50 тыс. дронов подавили над ДНР за время работы "Купола Донбасса"
31.03.2026 06:05:50 | ТАСС

МИД Ирана призвал Саудовскую Аравию выдворить войска США из страны
31.03.2026 06:05:35 | Life.ru

МИД РФ допустил продление США приостановки действия санкций на нефть из России
31.03.2026 06:04:52 | ТАСС

В РФ утвердили изменения в ГОСТ на органическую продукцию
31.03.2026 06:04:08 | ТАСС

В ЛНР заявили, что ВСУ атакуют машины с продовольствием для 252 жителей Попасной
31.03.2026 06:03:58 | ТАСС

На Камчатке осудили водителя, по вине которого в ДТП погибли медики
31.03.2026 06:03:48 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro