Бенчмарки больших языковых моделей. Мультиязычный MT-Bench

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Бенчмарки больших языковых моделей. Мультиязычный MT-Bench

06.08.2024 11:16:05 | Хабр

Хабы: Искусственный интеллект

В последнее время я занимался файнтюнингом Llama 3 на открытых датасетах, а сейчас планирую собрать собственный датасет для новых экспериментов. Встает вопрос, как оценивать эффективность обучения.

Для оценки моделей используются специальные наборы текстовых запросов, промптов, которые проверяют, например, насколько хорошо модель следует инструкциям. Для разных типов задач будут разные критерии оценки.

Например, есть GLUE (General Language Understanding Evaluation), оценка общего понимания естественного языка. Оценивает в том числе способность модели отвечать на вопросы, логическую связность и sentiment analysis - умение распознавать эмоциональную окраску. Это обширная область задач, и одного GLUE-бенчмарка явно мало, чтобы как следует оценить общее понимание моделью естественного языка, поэтому существуют другие тестовые наборы, например, SuperGLUE и MMLU (Massive Multitask Language Understanding). Последний бенчмарк оценивает, насколько хорошо в среднем модель понимает сложные вопросы из разных категорий - гуманитарной, социальной, STEM - то есть точные науки и естествознание.

Есть HellaSwag - это интересный бенчмарк, составленный из непростых вопросов, которые проверяют модель на здравый смысл, common sense. HellaSwag датасет содержит текстовое описание события, записанного на видео, и несколько вариантов завершения этого события, только один из которых правильный.

Читать далее

Подробнее

Читайте также

[Перевод] Краткая история ИИ от журнала The Economist
06.08.2024 11:11:52 | Хабр

Новое поколение домашнего ПО от МойОфис — рассказываем, как мы переизобрели наши редакторы
06.08.2024 10:49:17 | Хабр

Поднимаем динамические окружения для stateless- и stateful-сервисов
06.08.2024 10:45:43 | Хабр

Как внедрить в командную работу правила игры, которые все будут выполнять
06.08.2024 10:38:04 | Хабр

Сколько раз в неделю – норма? О производственных совещаниях
06.08.2024 10:24:03 | Хабр

Поисковик Google признали монополистом. Чем такое решение угрожает корпорации?
06.08.2024 10:22:09 | it-world

Как объединить кластеры Kubernetes без даунтайма: пошаговая инструкция
06.08.2024 10:20:13 | Хабр

Избавляемся от непрошеных звонков и рассылок — внимательно читаем закон о персональных данных
06.08.2024 10:16:56 | Хабр

[Перевод] Compose Desktop ShadowJar
06.08.2024 10:15:45 | Хабр

Как мы выбираем задания на отбор Route 256: подход и разбор задач
06.08.2024 10:12:19 | Хабр

Мост между централизованным и децентрализованным мирами: разбираемся, что такое оракулы
06.08.2024 10:04:12 | Хабр

Как увидеть три важнейших софт-скилла, чтобы нанять лучшего инженера
06.08.2024 10:01:54 | Хабр

Знакомьтесь, элемент будущего: для чего открыли зелёный водород
06.08.2024 09:59:22 | Хабр

О чём не молчит Windows. Forensic сетевых артефактов на хосте
06.08.2024 09:52:53 | Хабр

Инженерия устойчивости — основной инструмент выживания вашей организации
06.08.2024 09:52:31 | Хабр

Технологии Олимпиады
06.08.2024 09:51:25 | Хабр

Многократные переплаты в ИТ и где они возникают. Ч.1
06.08.2024 09:46:06 | Хабр

Хранимые процедуры рудимент или еще актуальны?
06.08.2024 09:45:43 | Хабр

Чем накопители промышленного уровня отличаются от бытовых
06.08.2024 09:40:42 | Хабр

Оптимизация метрик веба через аудит в Google Tag Manager: реальность или вымысел?
06.08.2024 09:39:01 | Хабр

Суд в США признал Google монополистом на рынке поисковиков
06.08.2024 09:32:27 | vc.ru

Ряды OpenAI тают: основатели Шульман и Брокман покидают компанию
06.08.2024 09:29:48 | it-world

JSON База данных на Python
06.08.2024 09:16:39 | Хабр

Ликбез по компьютерному зрению в банках. Как технологии ИИ защищают ваши деньги
06.08.2024 09:06:16 | Хабр

Go: жарим общие данные. Атомно, быстро и без мьютексов
06.08.2024 09:00:35 | Хабр

И бесплатную проходку на OFFZONE 2024, и работу мечты за день. Чудеса? One Day Offer
06.08.2024 08:55:33 | Хабр

Вот они, слева направо: три популярные ошибки при установке 1С-клиента на РЕД ОС
06.08.2024 08:52:09 | Хабр

Как я выбирал модель для прогнозирования потребности в транспортной инфраструктуре
06.08.2024 08:38:29 | Хабр

Шахматные задачи
06.08.2024 08:36:43 | Хабр

Алгоритм Чена — новая квантовая угроза? Разбираем риски раскрытия данных с криптографами компании «Криптонит»
06.08.2024 08:36:34 | Хабр

В сети нашли упоминание новой игры Valve. И это, скорее всего, новая Half-Life
06.08.2024 08:34:40 | ferra.ru

Apple выпустит специальную пластиковую версию Apple Watch для детей
06.08.2024 08:27:39 | ferra.ru

Что не так с расчётом биологического возраста?
06.08.2024 08:24:27 | Хабр

День 895: «Сбер» вслед за ВТБ объявил о повышении ставок по ипотеке
06.08.2024 08:18:20 | vc.ru

В России оштрафовали пиратские сайты на 2.7 млн рублей за сериал «Реальные пацаны»
06.08.2024 08:16:37 | ferra.ru

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Япония не может присоединиться к войне с Ираном из-за конституции страны
20.03.2026 03:23:00 | Российская Газета

В РФ проработают включение в ОМС профессиональной гигиены полости рта детям
20.03.2026 03:17:17 | ТАСС

Самолеты Alaska Airlines и FedEx едва не столкнулись во время посадки в США
20.03.2026 03:17:00 | Российская Газета

В ОАЭ заявили о ликвидации группы, связанной с «Хезболлах» и Ираном
20.03.2026 03:15:09 | Life.ru

Нотариальная палата: россияне отдавали в марте под залог альпак и страусов
20.03.2026 03:14:02 | ТАСС

ВСУ мобилизовали человека с удаленной селезенкой
20.03.2026 03:10:38 | ТАСС

США заявили о блокировке доменов, якобы применявшихся для "психологических операций" Ирана
20.03.2026 03:10:04 | ТАСС

В России назвали причину оставить Зеленского в живых
20.03.2026 03:09:41 | Lenta.ru

Завещаю свои скины и персонажей: Юрист рассказал, можно ли передать по наследству игровой аккаунт
20.03.2026 03:09:41 | Life.ru

Макрон: Франция хочет обсудить в Совбезе ООН защиту кораблей в Ормузском проливе
20.03.2026 03:07:17 | ТАСС

Мерц пригрозил последствиями за решение Венгрии о вето по кредиту для Киева
20.03.2026 03:04:10 | ТАСС

Кошта: лидеры ЕС "не жалели времени" на критику Орбана на саммите ЕС
20.03.2026 03:02:54 | ТАСС

Боец Боцман: ВС РФ уничтожили пункт запуска БПЛА ВСУ, с которого били по мирным
20.03.2026 03:02:29 | ТАСС

Al Hadath: сотрудников посольства США в Багдаде эвакуировали
20.03.2026 03:02:26 | ТАСС

Хозяйку похоронного бюро приговорили к 18 годам тюрьмы за хранение трупов вместо кремации
20.03.2026 03:02:11 | Lenta.ru

Немецкий доброволец ВС РФ заявил о желании получить российское гражданство
20.03.2026 03:01:59 | ТАСС

Минздрав: репродуктивные болезни встречаются часто, тенденции к снижению нет
20.03.2026 03:01:52 | ТАСС

Женщинам с аллергией на сперму подсказали способы наслаждаться сексом
20.03.2026 03:00:34 | Lenta.ru

На Западе задали неудобный вопрос о Зеленском после провала кредита ЕС
20.03.2026 02:59:55 | Lenta.ru

Иран заявил о пяти ракетных залпах по Израилю за час
20.03.2026 02:58:23 | РБК

Премьер Японии заявила, что хочет встретиться с лидером КНДР
20.03.2026 02:58:06 | ТАСС

Госдеп: более 70 тыс. американцев покинули Ближний Восток после ударов по Ирану
20.03.2026 02:56:28 | ТАСС

NBC: США ускоряют переброску более двух тысяч морпехов на Ближний Восток
20.03.2026 02:55:00 | Российская Газета

Fars: КСИР отправил предупреждения подозреваемым в связях с оппозицией гражданам
20.03.2026 02:54:42 | ТАСС

В России впервые утверждён ГОСТ на обувь для врачей
20.03.2026 02:54:30 | Life.ru

В МАМТ состоится премьера оперы Шостаковича "Леди Макбет Мценского уезда"
20.03.2026 02:54:26 | ТАСС

ЕС решил усилить свои морские миссии из-за блокировки Ормузского пролива
20.03.2026 02:50:20 | РБК

Власти США предупреждали о провале операции в Иране
20.03.2026 02:49:22 | Lenta.ru

Названы все четвертьфиналисты Лиги Европы и Лиги конференций
20.03.2026 02:48:46 | Life.ru

В США решили увековечить Трампа
20.03.2026 02:45:58 | Lenta.ru

Офис Мелони отрицает, что она выразила понимание Венгрии по кредиту для Украины
20.03.2026 02:45:02 | Life.ru

SuperJob: почти 60% работающих по специальности получают более 200 тыс. рублей
20.03.2026 02:44:00 | ТАСС

DR: Дания готовилась к нападению США в январе, в Гренландию завезли взрывчатку
20.03.2026 02:42:00 | Российская Газета

Фон дер Ляйен исключила разрешение странам ЕС закупать российский газ
20.03.2026 02:40:02 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro