
Несмотря на заявления разработчиков о прогрессе, большие языковые модели (LLM) демонстрируют тревожный рост ошибок. Отчёт OpenAI, опубликованный в апреле, показал, что модели o3 и o4-mini выдавали галлюцинации в 33% и 48% случаев соответственно. Для сравнения: модель o1, выпущенная в конце 2024 года, ошибалась лишь в 16% случаев. Аналогичные данные приводит рейтинговая платформа Vectara — модель DeepSeek-R1 с «улучшенным логическим выводом» продемонстрировала двузначный рост галлюцинаций.
OpenAI отрицает связь между обновлениями логического вывода и ростом ошибок. Представители компании заявили, что работают над снижением галлюцинаций в актуальных версиях. Однако эксперты сомневаются в эффективности текущих методов. Например, рейтинг Vectara, оценивающий согласованность при суммировании текстов, выявил, что модели с логическим выводом и без него имеют почти одинаковый уровень галлюцинаций. При этом, как отметил Форрест Шэн Бао из Vectara, многие ошибки DeepSeek-R1 были «безвредными» — логически верными, но отсутствующими в исходных документах.

Эмили Бендер из Вашингтонского университета раскритиковала сам термин «галлюцинации», назвав его антропоморфизацией машин. «LLM не понимают смысл — они предсказывают следующее слово на основе статистики», — подчеркнула она. Арвинд Нараянан из Принстонского университета добавил, что проблема шире: модели используют устаревшие данные и ненадёжные источники. По его словам, увеличение объёма тренировочных данных не решает вопрос достоверности.
Рекомендации исследователей сводятся к осторожности. Нараянан предлагает применять LLM только там, где проверка ответа занимает меньше времени, чем самостоятельный поиск. Бендер советует полностью отказаться от использования чат-ботов для получения фактов. «Эти системы не созданы для генерации знаний — они имитируют речь», — пояснила она.
Ситуация ставит под вопрос будущее LLM. Если раньше считалось, что галлюцинации исчезнут с развитием технологий, то теперь эксперты признают: ошибки останутся неотъемлемой частью работы моделей. Решение — не надеяться на исправление алгоритмов, а изменить подходы к проверке их выводов.
-
12.05.2025 12:54:00 | iXBT.com
12.05.2025 12:44:00 | iXBT.com
12.05.2025 12:36:00 | iXBT.com
12.05.2025 12:32:00 | iXBT.com
12.05.2025 12:31:00 | iXBT.com
12.05.2025 12:24:00 | iXBT.com
12.05.2025 12:22:00 | iXBT.com
12.05.2025 12:17:00 | iXBT.com
12.05.2025 12:13:00 | iXBT.com
12.05.2025 12:02:00 | iXBT.com
12.05.2025 11:57:00 | iXBT.com
12.05.2025 11:52:00 | iXBT.com
12.05.2025 11:52:00 | iXBT.com
12.05.2025 11:43:00 | iXBT.com
12.05.2025 11:22:00 | iXBT.com
12.05.2025 11:20:00 | iXBT.com
12.05.2025 10:55:00 | iXBT.com
12.05.2025 10:51:00 | iXBT.com
12.05.2025 10:46:00 | iXBT.com
12.05.2025 10:45:00 | iXBT.com
12.05.2025 10:41:00 | iXBT.com
12.05.2025 10:39:00 | iXBT.com
12.05.2025 10:35:00 | iXBT.com
12.05.2025 10:21:00 | iXBT.com
12.05.2025 10:18:00 | iXBT.com
12.05.2025 10:08:00 | iXBT.com
12.05.2025 09:51:00 | iXBT.com
12.05.2025 09:22:00 | iXBT.com
12.05.2025 08:55:13 | TechCult.ru
12.05.2025 08:50:00 | iXBT.com
-
12.05.2025 19:30:07 | ferra.ru
12.05.2025 18:47:58 | vc.ru
12.05.2025 18:47:58 | vc.ru
12.05.2025 18:45:36 | it-world
12.05.2025 17:52:44 | vc.ru
12.05.2025 17:40:46 | vc.ru
12.05.2025 17:40:46 | vc.ru
12.05.2025 17:15:14 | ferra.ru
12.05.2025 16:32:51 | Хабр
12.05.2025 16:05:25 | Хабр
12.05.2025 15:00:13 | Хабр
12.05.2025 14:47:17 | vc.ru
12.05.2025 14:46:29 | Хабр
12.05.2025 14:37:58 | vc.ru
12.05.2025 14:37:58 | vc.ru
12.05.2025 14:16:09 | Хабр
12.05.2025 14:15:47 | Хабр
Техническая поддержка проекта ВсеТут