BABILong — бенчмарк для оценки LLM на больших контекстах

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

BABILong — бенчмарк для оценки LLM на больших контекстах

16.12.2024 07:24:29 | Хабр

Хабы: Блог компании AIRI, Алгоритмы, Машинное обучение, Искусственный интеллект, Natural Language Processing

Привет, Хабр! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.

Разработчики современных языковых моделей соревнуются в длине контекста и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?

Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который мы привезли на NeurIPS в этом году. Он оценивает то, насколько успешно современные модели умеют искать информацию в собственных гигантских контекстах. Оказалось, что зачастую главное — это не размер, а умение пользоваться.

В этой статье расскажем подробнее о наших экспериментах, а также о том, как эффективно использовать длинный контекст.

Читать далее

Подробнее

Читайте также

Создатель Uncharted и The Last of Us рассказал об источниках вдохновения для своей новой игры
16.12.2024 07:23:53 | ferra.ru

В сеть утекли характеристики 4G-версии Xiaomi Redmi Note 14
16.12.2024 07:16:53 | ferra.ru

Внезапно достойная видеокарта Intel Arc B580 плохо справляется с играми на Unreal Engine
16.12.2024 07:08:52 | ferra.ru

Как пройти капчу неважно где (в стиме или на обычном сайте) как Профи — разбираемся в сложностях автоматизации
16.12.2024 07:03:46 | Хабр

Microsoft отказалась от Xbox-эксклюзивов — все новые игры компании будут выходить и на PS5
16.12.2024 07:01:51 | ferra.ru

Нагрузочное тестирование в Школе Тестирования КОТ Блока качества РСХБ-Интех
16.12.2024 07:00:58 | Хабр

Фигма удаляет российские аккаунты: разбираемся в причинах и учимся работать с информацией
16.12.2024 06:58:03 | Хабр

ChromeOS научили сбрасывать настройки без удаления всех данных с ноутбука
16.12.2024 06:45:18 | ferra.ru

Недельный геймдев: #204 — 15 декабря, 2024
16.12.2024 06:17:30 | Хабр

Пример простейшей распределенной опорной сети
16.12.2024 06:05:48 | Хабр

Процессы Discovery & Delivery в Аврора Центре
16.12.2024 06:01:45 | Хабр

Интернет Контроль Сервер ( ICS ) – NGFW и не только
16.12.2024 06:00:43 | Хабр

Как мы используем GPT для поиска формулы результативной команды
16.12.2024 06:00:41 | Хабр

Тим Кук отужинал с Трампом на фоне давления на App Store со стороны Европы
16.12.2024 06:00:17 | ferra.ru

Уроки от единорогов. Часть 2. Главные выводы после изучения сотни бизнес-моделей успешных компаний
16.12.2024 05:37:07 | Хабр

[Перевод] Как сократить время выполнения ресурсоемких задач в Python
16.12.2024 05:30:33 | Хабр

Неукротимая инфляция рвется в космос, а также новый реестр российских геймеров
16.12.2024 05:18:18 | Хабр

В Сеть утекли рендеры Poco X7 и X7 Pro со знакомым дизайном
16.12.2024 05:15:15 | ferra.ru

Всё дело в памяти: психолог рассказала, почему мы плохо запоминаем сны
16.12.2024 04:30:00 | ferra.ru

Что спрашивают у проджектов на собесах в Циане, Авито, Яндексе и Сбере: 250 вопросов чтобы подготовиться к интервью
16.12.2024 04:15:25 | Хабр

Периодическое голодание оказалось вредно для волос
16.12.2024 03:45:00 | ferra.ru

Дрейф из Китая: Apple начинает производство AirPods в Индии
16.12.2024 03:28:05 | it-world

Сиракузская проблема, идея для решения(часть 1)
16.12.2024 03:00:18 | Хабр

Экономят энергию: раскрыта причина, по которой стаи птиц летают в форме буквы V
16.12.2024 03:00:00 | ferra.ru

Смартфоны среднего класса HONOR 200 и Tecno Camon 30 Pro 5G сравнили
16.12.2024 02:15:00 | ferra.ru

Почти Сатурн, но очень теплый: обнаружена новая экзопланета
16.12.2024 01:35:18 | it-world

Обзорщики из западных стран назвали смартфоны, которыми сами пользуются
16.12.2024 01:30:00 | ferra.ru

Realme Note 60 и 60x признали отличными бюджетными смартфонами по итогу теста
16.12.2024 00:45:00 | ferra.ru

ИИ Apple обвинили в фабрикации заголовков и рассказах о несуществующих событиях
16.12.2024 00:00:00 | ferra.ru

С момента запуска «Госуслуг» более 112 млн россиян зарегистрировались в сервисе
15.12.2024 23:48:50 | ferra.ru

На Яндекс Карты добавили информацию о катках и ёлочных базарах по всей России
15.12.2024 23:40:59 | ferra.ru

Китайские электромобили «захватили» Мексику, Европу, Азию и даже Африку
15.12.2024 23:36:14 | ferra.ru

Биткойн вернулся к $100 000, а Найджел Грин прогнозирует $150 000 к середине 2025 года
15.12.2024 23:30:27 | it-world

Эксперт «Мегафона» назвал главные признаки телефонных мошенников
15.12.2024 23:29:31 | ferra.ru

Эксперт: PIN-код является одним из лучших способов защиты SIM-карт от киберпреступников
15.12.2024 23:19:50 | ferra.ru

Смотреть все

СТАТЬ АВТОРОМ

НОВОСТИ

В США женщину придавило оторвавшейся солнечной панелью, пострадавшая погибла
14.10.2025 22:09:00 | Российская Газета

Бессент: Вашингтон готов наращивать давление на Москву
14.10.2025 22:08:31 | ТАСС

"Детский бюджет" Нижегородской области увеличат на 40%
14.10.2025 22:07:42 | ТАСС

Сборная России по футболу впервые победила команду из Южной Америки
14.10.2025 22:07:35 | ТАСС

Индия обсуждает с РФ доставку угля из Монголии через порт Владивостока
14.10.2025 22:06:17 | ТАСС

Лидер российских протестантов призвал к созданию стратегии госполитики в религии
14.10.2025 22:06:17 | ТАСС

Telegraph: ВСУ готовят операторов беспилотников для мексиканских картелей
14.10.2025 22:06:14 | ТАСС

Алексея Бартошевича похоронят на Миусском кладбище
14.10.2025 22:04:47 | ТАСС

Сборная России обыграла Боливию в товарищеском матче
14.10.2025 22:04:30 | Lenta.ru

"Послал в отставку": губернатор Федорищев уволил главу района Самарской области
14.10.2025 22:03:41 | РЕН ТВ

ТАСС: командиры ВСУ избивают бойцов, чьи родственники жалуются на горячую линию
14.10.2025 22:02:35 | ТАСС

ТАСС: ВСУ переводят поваров и операторов БПЛА в пехоту
14.10.2025 22:02:07 | ТАСС

В Нижнем Новгороде открылся театральный фестиваль им. М. Горького
14.10.2025 22:02:06 | ТАСС

Футболисты сборной России продлили беспроигрышную серию до 21 матча
14.10.2025 22:01:58 | ТАСС

Трамп заявил, что Зеленский 17 октября намерен попросить у него Tomahawk
14.10.2025 22:01:12 | ТАСС

Сборная России по футболу разгромила команду Боливии в товарищеском матче
14.10.2025 22:00:52 | ТАСС

Трамп оценил отношения с Путиным
14.10.2025 22:00:16 | Lenta.ru

Российский губернатор обматерил и уволил подчиненного
14.10.2025 22:00:08 | Lenta.ru

ТАСС: ВСУ на рубцовском направлении потеряли до 100 военных из-за комбрига
14.10.2025 21:59:25 | ТАСС

Захарова отреагировала на шутку Рютте про автомобиль Lada и холодильник
14.10.2025 21:59:23 | РБК

Экс-нардеп Олейник раскрыл, зачем Зеленский на самом деле лишил гражданства мэра Одессы
14.10.2025 21:58:22 | Life.ru

Ученые РАН предупредили о рекордном количестве вспышек на Солнце
14.10.2025 21:58:11 | РЕН ТВ

Аэропорт Якутска временно прекратил прием и выпуск самолетов
14.10.2025 21:57:21 | ТАСС

«Я хотела родить»: Боня сделала неожиданное признание о бывшем парне Гасанове
14.10.2025 21:56:58 | Life.ru

Стоимость криптовалюты Ethereum снижалась почти на 3%
14.10.2025 21:56:34 | ТАСС

В Самаре вынесли приговор по делу о загрязнении нефтепровода "Дружба"
14.10.2025 21:55:18 | ТАСС

Минтранс разрабатывает меры по ограничению выбросов углекислого газа при авиарейсах
14.10.2025 21:54:51 | ТАСС

Умер популярный R&B-исполнитель
14.10.2025 21:54:00 | Lenta.ru

Дуров: Власти Франции добиваются полного доступа к данным пользователей Telegram
14.10.2025 21:53:00 | Российская Газета

Зеленский анонсировал «серьезную новость» на следующей неделе
14.10.2025 21:51:51 | Lenta.ru

Воронежского преподавателя оштрафовали за взятки
14.10.2025 21:51:13 | ТАСС

Мэр Киева Кличко призвал горожан запастись едой и теплыми вещами перед зимой
14.10.2025 21:51:00 | Российская Газета

В двух областях Украины начались аварийные отключения света
14.10.2025 21:50:41 | Life.ru

Google Pixel 10 Pro Fold отомстил блогеру JerryRigEverything за мучения. Смартфон сначала сломался, а потом у него загорелся аккумулятор
14.10.2025 21:50:00 | iXBT.com

"Шанхай Дрэгонс" обыграл "Динамо" и возглавил Западную конференцию КХЛ
14.10.2025 21:48:18 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2025 - vsetut.pro