Насколько хороши LLM?

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Насколько хороши LLM?

28.10.2024 18:16:21 | Хабр

Хабы: Машинное обучение, Natural Language Processing

Основной целью данного бенчмарка является всесторонняя оценка возможностей русскоязычных LLM в контексте российской действительности по темам истории, географии, обществознания и политологии. В разработке бенчмарка ИОН РАНХиГС и ИСП РАН были заложены следующие принципы:

Формирование базы вопросов из официальных источников, близких к позиции РФ. К данным источникам относятся базы вопросов по ЕГЭ по соответствующим дисциплинам, открытых экзаменационных вопросов ведущих российских вузов, а также вопросов, сформулированных специалистами РАНХиГС и ИСП РАН.

Ежеквартальный пересмотр содержания бенчмарка, заключающийся в добавлении новых вопросов по актуальным темам, удалении или обновление устаревших вопросов.

Пересмотр оценок провокационности с учетом изменений в общественном контексте.

Читать далее

Подробнее

Читайте также

Сергей Куприянов: «Заказчики понимают: как раньше – уже не будет»
28.10.2024 18:07:51 | it-world

Миллионы американцев ежедневно пьют загрязненную «вечными химикатами» воду
28.10.2024 18:00:00 | ferra.ru

Омские ученые разработали новый способ добычи металлов из отходов
28.10.2024 17:56:03 | ferra.ru

Google улучшила беспроводную передачу с Android на Windows
28.10.2024 17:15:58 | ferra.ru

Если вы хотите «почти максимальный» смартфон. Но не в камере, а во всём остальном
28.10.2024 17:11:46 | ferra.ru

IVA Technologies объявляет о выходе IVA One — новой платформы для бизнес-коммуникаций
28.10.2024 16:55:46 | it-world

Nintendo покажет долгожданную консоль Switch 2 до конца октября
28.10.2024 16:48:39 | ferra.ru

Ученые вернули мозг свиньи к жизни через час после смерти
28.10.2024 16:30:54 | ferra.ru

Новый способ добычи «неизвлекаемого» лития
28.10.2024 16:27:48 | it-world

Security Week 2444: браузерный zero-day на сайте криптовалютной игры
28.10.2024 16:18:16 | Хабр

Прозрачное туннелирование трафика с маршрутизацией на основе геолокации IP-адресов
28.10.2024 16:15:09 | Хабр

[Перевод] Асинхронный Rust в трех частях. Часть вторая: Tasks
28.10.2024 16:01:04 | Хабр

Установка Wine на Kubuntu 22.02 (ubuntu с плазмой KDE)
28.10.2024 15:54:52 | Хабр

Volkswagen запланировал закрыть три завода в Германии и сократить зарплаты на 10%
28.10.2024 15:51:03 | vc.ru

Забудьте про лосей: названы самые «канадские» животные
28.10.2024 15:45:49 | ferra.ru

В Китае началось строительство завода по производству летающих автомобилей
28.10.2024 15:32:57 | ferra.ru

5 результатов обучения в IT и не только
28.10.2024 15:15:58 | Хабр

Backend-митап от red_mad_robot: прокачиваем GenAI
28.10.2024 15:15:15 | Хабр

В Москве введут электронные документы для мигрантов
28.10.2024 15:13:24 | it-world

[Перевод] Расширенная шпаргалка по корутинам Kotlin
28.10.2024 15:02:41 | Хабр

Представлены Lenovo Watch: недорогие смарт-часы с функциями звонков и фитнеса
28.10.2024 15:00:12 | ferra.ru

Карты на стол: зачем нам понадобился собственный картографический сервис
28.10.2024 14:50:50 | Хабр

Русский след в Warhammer 40k
28.10.2024 14:47:08 | ferra.ru

Как в России зарабатывают на утилизации мусора
28.10.2024 14:45:54 | ferra.ru

Wildberries начал тестировать сервис торговли между продавцами маркетплейса
28.10.2024 14:41:05 | vc.ru

BRICS Pay в России: что это такое, зачем и как пользоваться новой платёжной системой
28.10.2024 14:37:57 | vc.ru

Кастомный Date and Time picker как в Telegram на Kotlin Jetpack Compose
28.10.2024 14:27:35 | Хабр

Как осмысленно подходить к работе и делать крутой результат, а не рисовать прототипы «по-чуйке»
28.10.2024 14:24:08 | Хабр

Как ускорить сборку Docker-образов в GitLab: стратегии кэширования с Docker Buildx
28.10.2024 14:19:45 | Хабр

Кому нужны CAT-инструменты и как с ними работать
28.10.2024 14:16:52 | Хабр

Приключение на 20 минут. Часть 2: разбираемся со структурой проектов в SoapUI
28.10.2024 14:16:11 | Хабр

Сижу на 2-х стульях, чтобы делать 96 млн в год на маркетплейсах
28.10.2024 14:15:49 | Хабр

Астронавта NASA забрала скорая помощь после приземления. Сейчас с ним всё хорошо
28.10.2024 14:15:45 | ferra.ru

Как жить без IntelliJ IDEA. Часть №2. Поддержка Spring
28.10.2024 14:14:41 | Хабр

MLOps со всех сторон: что расскажут на конференции I'ML 2024
28.10.2024 14:09:47 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

В правительство внесли проект о спасении «Почты России»
25.03.2026 10:53:49 | Lenta.ru

Алаудинов привел подробности об установлении причастных к ракетной атаке на Брянск
25.03.2026 10:53:05 | Lenta.ru

Николай Расторгуев назвал свои самые любимые места для отдыха в России
25.03.2026 10:52:09 | Life.ru

В Одессе прошла проверка телефонов учителей на соблюдение языкового закона
25.03.2026 10:52:00 | Lenta.ru

Новая Зеландия выплатит малоимущим семьям пособия на топливо
25.03.2026 10:52:00 | Российская Газета

В России захотели изменить требования к нагрузке школьников
25.03.2026 10:51:58 | Lenta.ru

В сети восхитились 58-летней Ольгой Кабо в купальнике
25.03.2026 10:51:52 | Lenta.ru

Иран отказался вести переговоры с двумя представителями администрации Трампа
25.03.2026 10:51:48 | Lenta.ru

Аэропорт Москвы частично прекратил работу
25.03.2026 10:49:17 | Lenta.ru

Киев проигрывает Тегерану в битве за внимание США: новые ракеты для ПВО уйдут на отражение атак Ирана
25.03.2026 10:48:46 | Life.ru

Депутат Рады предрек провокацию Зеленского против Трампа
25.03.2026 10:47:21 | Lenta.ru

Кучеров установил рекорд НХЛ в XXI веке
25.03.2026 10:47:20 | Lenta.ru

США не оплатят билеты американцам, эвакуирующимся из Израиля через Иорданию
25.03.2026 10:46:53 | ТАСС

Пропустившей в российскую гимназию ученика с топором, ножом и пистолетом вынесли приговор
25.03.2026 10:45:33 | Lenta.ru

В Москве продлили желтый уровень погодной опасности еще на трое суток
25.03.2026 10:45:16 | ТАСС

Что известно о мирном плане США по Ирану
25.03.2026 10:45:00 | Российская Газета

Руководителя омского оператора ТКО обвинили в хищении более 157 млн рублей
25.03.2026 10:44:38 | ТАСС

Системы непрерывного мониторинга глюкозы планируется закупать централизованно
25.03.2026 10:44:13 | ТАСС

IBC Real Estate: инвестиции в жилье достигли половину от вложений в недвижимость РФ
25.03.2026 10:43:52 | ТАСС

Иностранные биржи проявляют интерес к российскому рынку криптовалют
25.03.2026 10:43:38 | ТАСС

В ДНР выявили два десятка мигрантов-нелегалов, их выдворят из России
25.03.2026 10:42:56 | Life.ru

В Смоленской области выделят грант на развитие туризма
25.03.2026 10:42:45 | ТАСС

NetBlocks: в Иране отключение интернета длится более 600 часов
25.03.2026 10:42:14 | ТАСС

Путин направил приветствие участникам XXXVII съезда АККОР
25.03.2026 10:41:54 | ТАСС

ТАСС: Ирак продлил запрет полетов над страной еще на трое суток
25.03.2026 10:41:18 | ТАСС

Бывшая девушка сына Кадышевой хочет взыскать с него долг за «Золотое кольцо»
25.03.2026 10:40:37 | Life.ru

Названы регионы России с опасным уровнем воды в реках
25.03.2026 10:40:19 | Lenta.ru

КНР выразила протест Японии из-за вторжения в посольство в Токио
25.03.2026 10:40:15 | Life.ru

Поджоги в Московском регионе. Главное о задержании четверых подростков
25.03.2026 10:40:09 | ТАСС

В Минобрнауки заявили, что Филиал РЭУ в Дубае продолжает работу
25.03.2026 10:40:07 | ТАСС

Житель Кемерово умер после лечения в частной клинике, лицом которой был Гуф
25.03.2026 10:40:00 | Коммерсантъ

Около 450 тыс. белгородцев были без света из-за ракетного удара ВСУ
25.03.2026 10:39:47 | ТАСС

Эксперт Дэвис: цена эскалации конфликта в Иране может стать серьезной для США
25.03.2026 10:39:25 | ТАСС

В зону СВО поставили более 18 тысяч российских «Гортензий»
25.03.2026 10:38:57 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro