Операция выполнена!
Закрыть
Хабы: Искусственный интеллект

Исследователи Сбера вместе с зарубежными исследователями создали специальный тест HUME, который оценивает, насколько хорошо люди и современные ИИ-модели справляются с анализом текста: классификацией, кластеризацией, поиском похожих текстов, ранжированием.

Кратко: Ученые создали тест, чтобы сравнить людей и самые современные ИИ-модели (те, которые переводят слова в числа — эмбеддинги) в заданиях на понимание смысла. И выяснили, что люди пока что умнее в "тонких" вещах, особенно с неродным для ИИ языком.

Проблема: Мы часто хвалим ИИ за высокие баллы в бенчмарках (тестах). Но как понять, хорош ли результат 85%? Может, для человека эта задача проще, и он справился бы на 95%? Или, наоборот, задача настолько сложна и запутана, что человек показал бы только 60%? Без "человеческого ориентира" цифры теряют смысл.

Авторы создали новый способ оценки (HUME — Human Evaluation Framework for Text Embeddings), который позволяет напрямую сравнить людей с ИИ-моделями в задачах анализа текста.

Результаты и выводы:

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro