[Перевод] HUME — новый метод AB тестирования ИИ моделей в задачах анализа текста

08.05.2026 06:04:37 | Хабр

Хабы: Искусственный интеллект

Исследователи Сбера вместе с зарубежными исследователями создали специальный тест HUME, который оценивает, насколько хорошо люди и современные ИИ-модели справляются с анализом текста: классификацией, кластеризацией, поиском похожих текстов, ранжированием.

Кратко: Ученые создали тест, чтобы сравнить людей и самые современные ИИ-модели (те, которые переводят слова в числа — эмбеддинги) в заданиях на понимание смысла. И выяснили, что люди пока что умнее в "тонких" вещах, особенно с неродным для ИИ языком.

Проблема: Мы часто хвалим ИИ за высокие баллы в бенчмарках (тестах). Но как понять, хорош ли результат 85%? Может, для человека эта задача проще, и он справился бы на 95%? Или, наоборот, задача настолько сложна и запутана, что человек показал бы только 60%? Без "человеческого ориентира" цифры теряют смысл.

Авторы создали новый способ оценки (HUME — Human Evaluation Framework for Text Embeddings), который позволяет напрямую сравнить людей с ИИ-моделями в задачах анализа текста.

Результаты и выводы:

Подробнее

Читайте также

Математический анализ для разработчика: что действительно нужно понимать
08.05.2026 06:04:20 | Хабр

Как устроено взыскание дебиторской задолженности в арбитражном суде: сроки, этапы и узкие места процесса
08.05.2026 06:01:51 | Хабр

Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента
08.05.2026 06:00:50 | Хабр

Тёмные лошадки IT: пять человек, которые определяют индустрию, но о которых мало кто слышал
08.05.2026 06:00:50 | Хабр

Контроль пройден: почему в машиностроении уже недостаточно принципа «влезет / не влезет»
08.05.2026 06:00:41 | Хабр

[Перевод] История развития моделей прогнозирования погоды: полная версия
08.05.2026 05:59:12 | Хабр

Почему почти вся «защита» глаз от дисплеев — чистый маркетинг
08.05.2026 05:30:45 | Хабр

Почему нейросети — это тупик? Новый взгляд на архитектуру искусственного интеллекта
08.05.2026 05:24:01 | Хабр

Как у клиента с восемью продуктовыми командами мы построили AI Kit
08.05.2026 05:22:42 | Хабр

Привет, GT! Я сделал свой луноход и закрыл гештальт
08.05.2026 05:05:39 | Хабр

Как ускорить поиск фраз в Manticore Search
08.05.2026 04:57:57 | Хабр

Скрипач не нужен: Выживут ли музыканты в эпоху нейронок?
08.05.2026 03:30:24 | Хабр

Rust и Docker
08.05.2026 02:54:30 | Хабр

В России создали комплекс для ускоренного обучения ИИ для БПЛА
07.05.2026 23:59:46 | ferra.ru

Как Сетунь обогнала время и проиграла кремнию
07.05.2026 23:36:16 | Хабр

В России разработали зимнее биотопливо для дизельной техники
07.05.2026 23:18:26 | ferra.ru

Невидимый враг многопоточности: False Sharing и кэш-линии процессора
07.05.2026 23:15:58 | Хабр

Я созидатель, а ты ССД #1
07.05.2026 23:11:24 | Хабр

На Character.AI подали в суд за чат-ботов, которые выдают себя за врачей
07.05.2026 23:10:05 | ferra.ru

В России нашли ген, который мешает восстановлению после травм позвоночника
07.05.2026 22:32:26 | ferra.ru

Qualcomm подтвердила: наушники с XPAN (замена Bluetooth) выйдут очень скоро
07.05.2026 22:18:31 | ferra.ru

В России обсудили контроль ИИ при работе с архивами
07.05.2026 22:14:17 | ferra.ru

В Сеченовском университете создали систему доставки лекарств от рака через нос
07.05.2026 22:06:59 | ferra.ru

В Ростовской области расширят доступ к проводному интернету
07.05.2026 21:39:56 | ferra.ru

Apple разрешит людям самим выбирать, какая ИИ-модель будет работать в iOS 27
07.05.2026 21:10:03 | ferra.ru

Технотекст 8: длинные списки превращаются в элегантные шорт-листы
07.05.2026 20:46:58 | Хабр

Психологический фундамент для ИИ-трансформации: как HR-проект стал драйвером новой линейки услуг
07.05.2026 20:38:13 | Хабр

Упор на игры, камеры и экономию энергии: представлены Snapdragon 4 Gen 5 и 6 Gen 5
07.05.2026 20:18:26 | ferra.ru

Гравитационный модем: Как построить 100-гигабитный канал связи сквозь ядро Земли
07.05.2026 20:17:11 | Хабр

«Северсталь» запатентовала тоннель, который строят под дорогой без её перекрытия
07.05.2026 19:45:00 | ferra.ru

Библиотека SNMP на Go, зачем я создал еще одну и чем она может быть интересна
07.05.2026 19:21:01 | Хабр

Вероятно, последняя попытка сохранить интернет — «СтопЧебурнет»
07.05.2026 19:16:30 | Хабр

Один митинг, четыре реальности: почему умные люди на одной встрече слышат разные задачи
07.05.2026 19:15:41 | Хабр

Opus 4.7 vs GPT-5 vs DeepSeek V4-Pro: три агента строят TSS-CLI на Rust
07.05.2026 19:13:48 | Хабр

Как устроен словарь в CPython: compact dict, key sharing и что с ним делает free-threading
07.05.2026 19:10:48 | Хабр

Смотреть все

НОВОСТИ

Что грозит аргентинским футболистам за баннер про Мальвинские острова
16.07.2026 08:32:55 | ТАСС

На Урале уровень реки Ницы за сутки поднялся до 835 см
16.07.2026 08:32:54 | ТАСС

СБ: "евроголуби мира" увязли в обслуживании запросы ВПК
16.07.2026 08:30:41 | ТАСС

В Москве на Бауманской улице произошло задымление на крыше трамвая
16.07.2026 08:30:32 | ТАСС

В Югре площадь лесных пожаров за сутки снизилась до 269 га
16.07.2026 08:30:21 | ТАСС

В Туве пенсионерку подозревают в отстреле собак
16.07.2026 08:27:42 | ТАСС

Вучич подтвердил признание Сербией территориальной целостности Украины
16.07.2026 08:25:55 | Life.ru

В Госдуме призвали ввести альтернативы ипотеке в России
16.07.2026 08:24:33 | Lenta.ru

Борт МЧС со спасателями вылетел на поиски пропавшего в Приморье вертолета
16.07.2026 08:24:16 | ТАСС

«Выживание — чудо»: Бизнесмен Ермолаев рассказал о последствиях покушения в Монако
16.07.2026 08:24:14 | Life.ru

Российские ракеты и БПЛА «обнулили» военную инфраструктуру в Киеве и портах: главное
16.07.2026 08:22:55 | Life.ru

Forbes представил рейтинг крупнейших производителей алкоголя в РФ за 2025 год
16.07.2026 08:21:35 | ТАСС

Россиян призвали помнить про один нюанс при покупке и продаже долларов
16.07.2026 08:20:42 | Lenta.ru

В США предложили переименовать законопроект о санкциях против России
16.07.2026 08:20:35 | Lenta.ru

Очереди на подходах к Крымскому мосту устранили
16.07.2026 08:20:02 | ТАСС

Кононенко: взаимоотношения глав Роскосмоса и NASA говорят о прекрасных перспективах
16.07.2026 08:19:12 | ТАСС

В ДНР при атаке ВСУ пострадали три сотрудника скорой помощи
16.07.2026 08:18:42 | ТАСС

В Сербии раскрыли новый коварный план ЕС в отношении России
16.07.2026 08:17:40 | Lenta.ru

Огненная ночь: Порты Южный и Одесса попали под массированный удар
16.07.2026 08:16:56 | Life.ru

В России создадут сообщество добровольцев-переводчиков русского жестового языка
16.07.2026 08:16:49 | ТАСС

СБ РФ: у некоторых лидеров ЕС начинается "отрезвление сознания" насчет Киева
16.07.2026 08:16:27 | ТАСС

В Свердловской области паводок затопил еще 130 домов
16.07.2026 08:16:15 | Коммерсантъ

Россияне выбрали лучшие целебные источники страны
16.07.2026 08:15:14 | Lenta.ru

В Китае заявили о заставившем Запад коллективно замолчать жестком высказывании Лаврова
16.07.2026 08:14:42 | Lenta.ru

Депутат Заксобрания Запорожья назвал "судилищем" дело против Новиковой в Париже
16.07.2026 08:14:25 | ТАСС

Освобождённую из Мьянмы россиянку заставляли изображать обычную жизнь в соцсетях
16.07.2026 08:12:25 | Life.ru

Две страны Балтии готовы размещать ядерное оружие
16.07.2026 08:11:00 | Российская Газета

Провал операции ВСУ: Морское судно и катер ССО пошли на дно после российского удара
16.07.2026 08:10:19 | Life.ru

В Приамурье стартовал демографический проект по повышению рождаемости
16.07.2026 08:09:00 | ТАСС

Пожар в Киеве произошёл после атаки ВС РФ на ключевых промышленных предприятиях
16.07.2026 08:07:54 | Life.ru

В Кузбассе подростка приговорили к четырем годам за платные реакции в мессенджере
16.07.2026 08:06:28 | Коммерсантъ

Точный прилёт: В Киеве разгромлены заводы, где собирали беспилотники для ВСУ
16.07.2026 08:06:16 | Life.ru

В ЦИК сообщили об отсутствии серьезных жалоб за месяц думской кампании
16.07.2026 08:06:01 | ТАСС

В Приамурье рассчитывают, что урожай в 2026 году будет не меньше прошлогоднего
16.07.2026 08:05:53 | ТАСС

Аленичев считает, что российские клубы в 2027 году будут играть в еврокубках
16.07.2026 08:05:47 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro