[Перевод] Краткий обзор LLM бенчмарков

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

[Перевод] Краткий обзор LLM бенчмарков

17.10.2024 07:15:57 | Хабр

Хабы: Big Data, Data Engineering, Data Mining, Искусственный интеллект, Машинное обучение

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.
Читать дальше →

Подробнее

Читайте также

Создание простой CRM на Next.js и Prisma для B2B
17.10.2024 07:15:50 | Хабр

Qualcomm займется вопросом покупки Intel после выборов президента США — в ноябре
17.10.2024 07:15:01 | ferra.ru

Чтобы занимать руководящие посты нужен высокий EQ, а не IQ
17.10.2024 07:14:06 | Хабр

Инженер внедрения в IT: куда и как развиваться
17.10.2024 07:10:47 | Хабр

Intel и AMD объединились для совместной работы над «устаревшей» x86-архитектурой
17.10.2024 07:08:04 | ferra.ru

Получить второе медицинское мнение — это нормально
17.10.2024 07:01:05 | Хабр

Новинки автоматизации на выставке «Energy Expo 2024» в Минске
17.10.2024 07:00:38 | Хабр

Этот парень был из тех, кто просто любит связь
17.10.2024 07:00:37 | Хабр

Шины данных для очень больших инсталляций, или Почему большим компаниям сложно с опенсорсом
17.10.2024 07:00:36 | Хабр

Как нарисовать завод на мнемосхеме
17.10.2024 07:00:32 | Хабр

Динамические модули в приложениях на Android: опыт использования Dynamic Feature Delivery
17.10.2024 07:00:12 | Хабр

Плюс в резюме: оркестрация масштабных приложений для Python-разработчиков
17.10.2024 06:58:58 | Хабр

Глаза кошек вдохновили на создание системы зрения для автономных роботов
17.10.2024 06:45:54 | ferra.ru

Ответы на вопросы к дню программиста. Комментарии открыты ;-)
17.10.2024 06:30:25 | Хабр

Могут ли гибкие чипы отследить настроение твоей девушки? Спойлер: уже скоро
17.10.2024 06:26:22 | Хабр

[Перевод] Как работает Mesh R-CNN
17.10.2024 06:16:17 | Хабр

Названы страны, где можно дешевле всего купить новый iPad mini 7
17.10.2024 06:00:52 | ferra.ru

Тестирование redux store
17.10.2024 06:00:13 | Хабр

Обновление Кибер Бэкапа — обзор новинок версии 17.1
17.10.2024 06:00:03 | Хабр

Коротко про слоты в Vue.js
17.10.2024 05:19:06 | Хабр

Обнаружение мотыльком запахов улучшит передовых роботов
17.10.2024 05:15:50 | ferra.ru

Приложения ИИ в здравоохранении
17.10.2024 05:00:59 | Хабр

AMD и Intel объединились ради расширения архитектуры x86
17.10.2024 04:30:49 | ferra.ru

Сравнение систем распознавания русского языка 2024
17.10.2024 04:00:52 | Хабр

Анализ на пищевую аллергию никогда не был таким эффективным: создан новый тест
17.10.2024 03:45:47 | ferra.ru

Врач назвал ускоряющие старение продукты питания
17.10.2024 03:26:33 | ferra.ru

Диетолог посоветовал не исключать хлеб из повседневного рациона
17.10.2024 03:18:03 | ferra.ru

Что будет со здоровьем, если постоянно есть много соли
17.10.2024 03:13:31 | ferra.ru

У Cisco украли огромный объем данных: клиенты, корпоративные документы
17.10.2024 03:00:46 | ferra.ru

Как скопировать все пакеты с nuget.org
17.10.2024 02:51:54 | Хабр

Названы фитнес-привычки, которые разрушают тело после 50 лет
17.10.2024 01:30:00 | ferra.ru

Перечислены лучшие низкокалорийные продукты для похудения
17.10.2024 00:45:00 | ferra.ru

Раскрыто, как музыка помогает людям деменцией
17.10.2024 00:00:00 | ferra.ru

Жизненный цикл смартфонов удлиннился в Индии с 24 месяцев до 36-ти. Почему?
16.10.2024 23:56:01 | it-world

Подборка Бесплатных Telegram Ботов с ChatGPT на русском в 2024 году
16.10.2024 23:33:10 | Хабр

Смотреть все

НОВОСТИ

Нетаньяху заявил, что Израиль продолжит бить по "Хезболле"
09.04.2026 14:03:00 | Российская Газета

Опубликованы кадры с места обмена телами погибших военных между РФ и Украиной
09.04.2026 14:03:00 | Российская Газета

Экс-солист «На-На» Соколов раскрыл, почему не ходит на свидания с фанатками один на один
09.04.2026 14:02:08 | Life.ru

Театры не ставят на премьеры // При этом спрос на представления растет вместе с ценой на билеты
09.04.2026 14:01:01 | Коммерсантъ

19FortyFive сообщило о способном стрелять каждые пять секунд российском НРТК
09.04.2026 14:01:00 | Российская Газета

Семь человек ранены при атаке дронов на Белгородскую область
09.04.2026 13:59:06 | Life.ru

«Союзмультфильм» пообещал не заменять представителей креативных профессий ИИ
09.04.2026 13:58:52 | Коммерсантъ

Названы внезапные последствия войны в Иране
09.04.2026 13:58:41 | Lenta.ru

Укачивает в машине: 10 шагов, которые помогут этого избежать
09.04.2026 13:58:36 | За рулем

Павел Губарев: Административное дело о дискредитации армии — что известно
09.04.2026 13:58:33 | Life.ru

В Кремле раскрыли статус решения Путина по пасхальному перемирию. Зеленский говорил, что готов ко всему
09.04.2026 13:58:29 | Lenta.ru

«Наркомановая ломка»: В СФ ответили на предложение Зеленского о встрече с Путиным в США
09.04.2026 13:58:27 | Life.ru

Актёр «Игры престолов» Майкл Патрик умер в хосписе в 35 лет
09.04.2026 13:57:06 | Life.ru

Опрос: Европейцы собираются экономить на расходах на фоне топливного кризиса
09.04.2026 13:57:00 | Российская Газета

В Петербурге выдали разрешение на реставрацию Конюшенного ведомства
09.04.2026 13:56:39 | ТАСС

RMF24: курсы добровольного военного обучения закончили свыше 11 тыс. поляков
09.04.2026 13:55:56 | ТАСС

От атак дронов ВСУ в Белгородской области пострадали семь человек
09.04.2026 13:55:54 | Коммерсантъ

Экспедиция случайно открыла новый остров в красной зоне в Антарктике
09.04.2026 13:55:37 | Life.ru

Samsung выпустила важное обновление для Galaxy S25, Galaxy S24 и Galaxy S23 — смартфоны стали безопаснее
09.04.2026 13:55:00 | iXBT.com

В Марий Эл паводок подтопил 221 домовладение
09.04.2026 13:54:36 | ТАСС

МИД Пакистана: атаки Израиля на Ливан подрывают установление мира в регионе
09.04.2026 13:54:12 | ТАСС

Матвиенко: Россия не позволит НАТО посягнуть на безопасность Калининграда
09.04.2026 13:54:04 | ТАСС

Экс-посол США: операция в Иране сильно навредила отношениям Вашингтона с союзниками
09.04.2026 13:54:00 | ТАСС

Пасечник приостановил комендантский час в ЛНР в Пасхальную ночь
09.04.2026 13:53:36 | ТАСС

В Пермском крае простились с убитой школьником учительницей
09.04.2026 13:52:17 | Коммерсантъ

Крушивший машины голый мужчина попал на видео в российском регионе
09.04.2026 13:52:03 | Lenta.ru

Лукашенко заявил, что на идеологическом фронте идет война
09.04.2026 13:51:30 | ТАСС

В Красноярском крае пообещали уволить чиновницу, если докажут ее вину в кражах
09.04.2026 13:51:23 | ТАСС

Эксперт Поволоцкая назвала частные фонды драйвером венчурных инвестиций России
09.04.2026 13:51:22 | ТАСС

При атаках дронов в Белгородской области ранены семь человек
09.04.2026 13:51:09 | РБК

Мосбиржа начала маркировку бумаг эмитентов с недостаточным раскрытием информации
09.04.2026 13:51:03 | Коммерсантъ

В Петербурге закончились 40 дней рекордного «вечного тепла»
09.04.2026 13:50:51 | Life.ru

ЦАХАЛ сообщила об убийстве секретаря и племянника лидера «Хезболлы»
09.04.2026 13:50:19 | РБК

Москалькова передала гуманитарную помощь больницам Орловской области
09.04.2026 13:50:05 | ТАСС

Верховный суд признал «Мемориал» экстремистской организацией
09.04.2026 13:49:38 | РБК

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro