DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

25.07.2025 09:18:55 | Хабр

Хабы: Блог компании Сбер, Блог компании Open Data Science, Машинное обучение, Open source, Natural Language Processing

С появлением больших языковых моделей (LLM) стало казаться, что они умеют всё: от генерации кода до написания статей в научные журналы. Но, как только дело доходит до фактов, особенно актуальных и узкоспециализированных, начинаются проблемы. LLM — это не поисковики и не базы данных, знания у них статичны: что было в обучающей выборке, то модель и «знает» (да и то не всегда твёрдо). Постоянно дообучать её на актуальных данных — уже вызов. Тут на сцену выходят RAG-системы (Retrieval-Augmented Generation).

Если коротко, RAG — это способ «подкормить» LLM свежими данными: перед генерацией ответа модель получает не только сам вопрос, но и релевантные тексты, найденные внешней поисковой системе или во внутренней базе знаний. Идея звучит просто, но как понять, насколько хорошо это работает? Какие документы действительно помогли модели, а какие запутали её ещё больше? А главное — как сравнить разные RAG-системы между собой по-честному?

Оценка таких систем — нетривиальная задача. С одной стороны, нужно учитывать и качество извлечённых документов, и финальный ответ модели. С другой — важно избегать контаминации: когда модель «угадывает» правильный ответ просто потому, что уже видела его в процессе обучения. Это особенно актуально при использовании статических наборов данных вроде Natural Questions или HotpotQA: они давно «протекли» в открытые датасеты, в том числе для обучения популярных LLM.

Читать далее

Подробнее

Читайте также

Почтовая корова? Как поднять свой почтовый сервер Mailcow
25.07.2025 09:17:22 | Хабр

Оптимизация производительности серверов на базе Epyc
25.07.2025 09:01:20 | Хабр

Трамп хотел распустить Nvidia, но Хуанг был убедительным
25.07.2025 09:00:24 | ferra.ru

Как внедрить сквозную аналитику и перестать гадать на кофейной гуще
25.07.2025 09:00:17 | Хабр

Быстрый планшет с большим 12.1″ дисплеем HONOR Pad 10 уже можно купить в РФ
25.07.2025 09:00:10 | ferra.ru

[Перевод] Невидимые загрузки или о пользе свободно стоящих функций
25.07.2025 08:56:07 | Хабр

У нас был план: внедрить автоматизацию тестирования мобильного приложения
25.07.2025 08:52:25 | Хабр

Управление изменениями в проекте с помощью service desk
25.07.2025 08:47:42 | Хабр

По итогам первой половины 2025 года общий спрос на рекламу у блогеров упал на 15-25%, но спрос на размещение у микроблогеров вырос
25.07.2025 08:45:49 | vc.ru

Microsoft окончательно избавилась от синего экрана смерти в новом обновлении для Windows 11
25.07.2025 08:28:44 | ferra.ru

Сверхдоступный смартфон Redmi 15 5G получит 6,9" экран 144 Гц и батарею на 7000 мАч
25.07.2025 08:21:43 | ferra.ru

Эксперт: Турция только начинает разрабатывать гиперзвуковое оружие
25.07.2025 08:15:22 | ferra.ru

Xiaomi 16 Ultra впечатлит батареей на 7500 мАч и новым 1" сенсором камеры
25.07.2025 08:14:43 | ferra.ru

Как мы делали персонализированные баннеры с помощью ИИ
25.07.2025 08:08:25 | Хабр

Оживляем дисплей из кабины лифта
25.07.2025 08:05:09 | Хабр

Xiaomi выпустила беспроводную мойку полов с 4 режимами защиты от волос и 3 способами чистки
25.07.2025 08:04:43 | ferra.ru

День 1248: в аэропортах Владикавказа, Грозного, Магаса, Минвод, Нальчика, Сочи, Ставрополя и Тамбова сняли временные ограничения
25.07.2025 08:01:04 | vc.ru

Впечатлит вас камерами, даже если вас давно ничего не впечатляет: Huawei Pura 80 Ultra
25.07.2025 08:00:42 | ferra.ru

Galaxy S26 Edge будет тоньше предшественника, но получит больший аккумулятор
25.07.2025 07:57:42 | ferra.ru

Расширение аудитории — краткий обзор инструмента и результат теста
25.07.2025 07:57:12 | Хабр

Всё о стриминге музыки на Яндекс Станции и не только
25.07.2025 07:53:06 | Хабр

Method Handles быстрее рефлексии (иногда)
25.07.2025 07:52:16 | Хабр

Чип AMD Threadripper PRO 9995WX разогнали до рекордных 5950 МГц и 227 818 баллов в Cinebench
25.07.2025 07:50:41 | ferra.ru

[Перевод] SonarQube: базовая настройка и анализ качества кода с помощью FastAPI
25.07.2025 07:46:13 | Хабр

Китайская видеокарта Lisuan G100 набрала 112 290 баллов в OpenCL — почти как RTX 2080
25.07.2025 07:43:40 | ferra.ru

Инженер добавил USB-C в iPhone 13 и 14 с помощью специального чехла
25.07.2025 07:36:38 | ferra.ru

В сети зафиксировали сгорание кабеля питания на RTX 5090 — проблема 12V-2×6 добралась и до серии RTX 50XX
25.07.2025 07:29:38 | ferra.ru

GPD представила WIN 5 — первую портативную консоль на базе AMD Strix Halo с Radeon 8060S
25.07.2025 07:22:38 | ferra.ru

JavaScript для детей: изучение разработки сайтов
25.07.2025 07:22:03 | Хабр

SK hynix выпустит GDDR7 с 3 ГБ на кристалл — объемы VRAM в видеокартах вырастут
25.07.2025 07:15:37 | ferra.ru

Почему ваш продукт не продаётся: 7 неочевидных ошибок, которые убивают продажи (и как их исправить)
25.07.2025 07:10:38 | Хабр

Трамп отменил практически все ограничения в разработке и использовании ИИ
25.07.2025 07:08:37 | ferra.ru

Применение nanoCAD Механика PRO для разработки библиотек компонентов отечественных ТИМ-решений
25.07.2025 07:02:59 | Хабр

Pebble возвращается: как культовые часы оживают благодаря новым приложениям и энтузиастам
25.07.2025 07:00:59 | Хабр

Внутри лидеров TOP500 суперкомпьютеров планеты: El Capitan, Frontier и Aurora
25.07.2025 06:48:55 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

КСИР обещает проход через Ормузский пролив за высылку послов США и Израиля
10.03.2026 01:34:11 | Life.ru

Массовая драка с участием около 100 вооруженных человек произошла в российском городе
10.03.2026 01:32:00 | Lenta.ru

Трамп рассказал, почему США топят иранские корабли, а не захватывают
10.03.2026 01:26:00 | Российская Газета

Венгрия может заморозить конфискованные у украинцев валюту и золото
10.03.2026 01:24:00 | Life.ru

Трамп анонсировал планы отменить часть санкций против нефтяной отрасли других стран
10.03.2026 01:22:54 | Lenta.ru

Трамп оценил телефонный разговор с Путиным
10.03.2026 01:22:01 | Lenta.ru

На Украине критикуют Зеленского, который хочет отправить ВСУ на Ближний Восток
10.03.2026 01:18:00 | Российская Газета

Трамп заявил, что Иран готовился атаковать США в течение недели
10.03.2026 01:17:38 | Life.ru

В Белгородской области из-за детонации дрона ВСУ пострадал житель
10.03.2026 01:17:06 | ТАСС

Степашин уверен, что твиттер-дипломатия не заменит реальную
10.03.2026 01:15:55 | ТАСС

Европейской экономике предрекли разрушение и голод к осени из-за действий США
10.03.2026 01:15:42 | Lenta.ru

«Есть только миг», а Зацепину уже 100 лет: Как композитор потерял детей, похоронил жён и проклял Пугачёву
10.03.2026 01:15:00 | Life.ru

Трамп: Иран пытался восстановить программу создания ЯО на новом объекте
10.03.2026 01:12:56 | ТАСС

Трамп: операция против Ирана будет завершена в течение дней, но едва ли на этой неделе
10.03.2026 01:11:35 | ТАСС

Трамп обозначил сроки завершения операции против Ирана
10.03.2026 01:11:35 | ТАСС

Трамп: РФ стремится сыграть очень конструктивную роль в ситуации вокруг Ирана
10.03.2026 01:10:22 | ТАСС

Трамп заявил, что у него состоялся хороший разговор с Путиным
10.03.2026 01:10:22 | ТАСС

Трамп назвал очень хорошей новую беседу с Путиным
10.03.2026 01:09:08 | ТАСС

Трамп: США отменят часть санкций против нефтяной отрасли других стран
10.03.2026 01:07:50 | ТАСС

Трамп: сопровождение танкеров через Ормузский пролив не потребуется
10.03.2026 01:07:01 | ТАСС

Трамп: США намерены обеспечить безопасность судоходства в Ормузском проливе
10.03.2026 01:07:01 | ТАСС

Трамп: США оставили несколько наиболее важных целей в Иране "на потом"
10.03.2026 01:07:00 | ТАСС

Трамп заявил, что военные цели операции в Иране можно считать достигнутыми
10.03.2026 01:03:04 | ТАСС

Россия, Китай и Франция предложили Ирану установить перемирие
10.03.2026 01:03:00 | Life.ru

Бахрейн заявил, что с начала конфликта сбил более 100 иранских ракет
10.03.2026 01:01:36 | ТАСС

Трамп назвал страну с самыми коррумпированными выборами
10.03.2026 01:01:17 | Lenta.ru

Врач объяснил чувство падения при засыпании
10.03.2026 01:01:03 | Lenta.ru

55-летняя телеведущая сделала интимное признание о своих украшениях
10.03.2026 01:00:57 | Lenta.ru

Армия Израиля заявила, что зафиксировала очередной обстрел со стороны Ирана
10.03.2026 00:57:54 | ТАСС

WSJ: Трамп допускает ликвидацию нового лидера Ирана Хаменеи
10.03.2026 00:56:40 | Life.ru

Умер один из основателей «Эха Москвы»
10.03.2026 00:51:00 | Lenta.ru

На Ставрополье автомобиль насмерть сбил двух подростков
10.03.2026 00:47:28 | ТАСС

Вильнюс выступил против концерта исполнителей «Дым сигарет с ментолом»
10.03.2026 00:47:07 | РБК

Прибывший из Катара в Москву самолет отправился обратно
10.03.2026 00:46:18 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro