Операция выполнена!
Закрыть

Несмотря на заявления разработчиков о прогрессе, большие языковые модели (LLM) демонстрируют тревожный рост ошибок. Отчёт OpenAI, опубликованный в апреле, показал, что модели o3 и o4-mini выдавали галлюцинации в 33% и 48% случаев соответственно. Для сравнения: модель o1, выпущенная в конце 2024 года, ошибалась лишь в 16% случаев. Аналогичные данные приводит рейтинговая платформа Vectara — модель DeepSeek-R1 с «улучшенным логическим выводом» продемонстрировала двузначный рост галлюцинаций.

OpenAI отрицает связь между обновлениями логического вывода и ростом ошибок. Представители компании заявили, что работают над снижением галлюцинаций в актуальных версиях. Однако эксперты сомневаются в эффективности текущих методов. Например, рейтинг Vectara, оценивающий согласованность при суммировании текстов, выявил, что модели с логическим выводом и без него имеют почти одинаковый уровень галлюцинаций. При этом, как отметил Форрест Шэн Бао из Vectara, многие ошибки DeepSeek-R1 были «безвредными» — логически верными, но отсутствующими в исходных документах.

Иллюстрация: Leonardo

Эмили Бендер из Вашингтонского университета раскритиковала сам термин «галлюцинации», назвав его антропоморфизацией машин. «LLM не понимают смысл — они предсказывают следующее слово на основе статистики», — подчеркнула она. Арвинд Нараянан из Принстонского университета добавил, что проблема шире: модели используют устаревшие данные и ненадёжные источники. По его словам, увеличение объёма тренировочных данных не решает вопрос достоверности.

Рекомендации исследователей сводятся к осторожности. Нараянан предлагает применять LLM только там, где проверка ответа занимает меньше времени, чем самостоятельный поиск. Бендер советует полностью отказаться от использования чат-ботов для получения фактов. «Эти системы не созданы для генерации знаний — они имитируют речь», — пояснила она.

Ситуация ставит под вопрос будущее LLM. Если раньше считалось, что галлюцинации исчезнут с развитием технологий, то теперь эксперты признают: ошибки останутся неотъемлемой частью работы моделей. Решение — не надеяться на исправление алгоритмов, а изменить подходы к проверке их выводов.

Читайте также
СТАТЬ АВТОРОМ
ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro