Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды, но пользователи часто жалуются на их ошибки — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, и выявило серьёзные недостатки в многоходовых диалогах. Как оказалось, модели успешно справляются с одиночными запросами, достигая 90% точности, но при последовательных вопросах точность падает примерно до 65%.
Исследователи объясняют, что модели «спешат с ответом», стараясь завершить решение задачи до того, как пользователь закончит пояснение. Это приводит к феномену «ответного зацепления»: ИИ использует предыдущий ответ как основу для следующего, даже если он был неверен.

Кроме того, в длинных диалогах наблюдается «раздутие ответа»: длина ответов увеличивается от 20% до 300%, вводя больше предположений и потенциальных галлюцинаций, которые модель потом закрепляет как контекст. Несмотря на дополнительные механизмы "thinking tokens" в моделях вроде o3 и DeepSeek R1, проблемы остаются нерешёнными.
В целом исследование показало, что способность моделей оставаться «в диалоге» снизилась всего на 15%, но надёжность упала на 112%. Это подчёркивает, что падение производительности при многоходовых взаимодействиях не означает, что модели «стали глупыми», но демонстрирует их ограничение при работе в реальных условиях.
Авторы предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто сопровождается ошибками и необоснованными предположениями.
Исследование подчёркивает, что технология пока что не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах, а модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем.
-
Китайские бренды стремительно наступают. Первой компанией из Поднебесной, которая продала более 1 млн машин в Европе и Великобритании, стала MG
23.02.2026 14:56:00 | iXBT.com
«Приватный экран» в Samsung Galaxy S26 Ultra будет доступен в двух режимах
23.02.2026 14:24:00 | iXBT.com
Настольная коптильня SmoqeX позволит готовить мясо на дровах прямо на кухне
23.02.2026 13:53:19 | TechCult.ru
Новый образец самолета «Байкал» с двигателем ВК-800 совершил первый полет
23.02.2026 13:36:48 | Ведомости
OpenAI осталась без собственных дата-центров: мегапроект Stargate застрял, компания переходит на аренду мощностей
23.02.2026 13:36:00 | iXBT.com
Nothing Phone (4a) с обновлённой панелью Glyph показали на качественном изображении
23.02.2026 13:19:00 | iXBT.com
13-дюймовый экран 21:9, до 64 ГБ ОЗУ и 8 ТБ SSD, механическая клавиатура и Ryzen AI 9 HX 370. Мини-ПК Keebmon собрал 800 000 долларов на Kickstarter и выйдет уже в апреле
23.02.2026 12:51:00 | iXBT.com
Россияне действительно не могут поставить на учет недешевые гибриды Li Auto — официальный дистрибутор подтвердил проблемы
23.02.2026 12:42:00 | iXBT.com
5,2-метровый внедорожник BYD Denza B8 (Leopard 8) получил максимальную оценку в краш-тесте ANCAP
23.02.2026 12:23:00 | iXBT.com
Первый в стране и на целом континенте дизельный гибридный пикап с возможностью подзарядки от сети. Chery готовит новинку для Австралии
23.02.2026 12:12:00 | iXBT.com
Apple представит «как минимум пять продуктов», включая новый iPhone, на следующей неделе
23.02.2026 11:56:00 | iXBT.com
iPhone 18 Pro и iPhone 18 Pro Max тестируют в бордовом цвете, а складной iPhone предложит более скромную гамму
23.02.2026 11:49:00 | iXBT.com
Практичная кровать Roll собирается в компактный шкафчик одним нажатием кнопки
23.02.2026 11:46:55 | TechCult.ru
Уведомления с iPhone на Xiaomi, полная поддержка AirPods и обмен файлами по типу AirDrop. Глобальная версия HyperOS 3.1 будет представлена уже 28 февраля
23.02.2026 11:30:00 | iXBT.com
Первый смартфон с новой камерой Sony LYT-710, экран Smart Water Touch 3.0 144 Гц для работы мокрыми пальцами, 7000 мАч. Смартфон Motorola Edge 70 Fusion рассекречен
23.02.2026 11:14:00 | iXBT.com
«Самый тонкий внешний аккумулятор в отрасли». Xiaomi показала 6-миллиметровый оранжевый гаджет
23.02.2026 11:08:00 | iXBT.com
200 Мп + 50 Мп + 50 Мп, Snapdragon 8 Elite Gen 5, два экрана, внешний аккумулятор в подарок. Раскрыто содержимое подарочного комплекта Oppo Find N6
23.02.2026 10:58:00 | iXBT.com
Стилус Samsung Galaxy S26 Ultra не поддерживает управление затвором камеры по Bluetooth: это показали вживую
23.02.2026 10:41:00 | iXBT.com
Глобальный Xiaomi 17 Ultra показали на фото за несколько дней до анонса
23.02.2026 10:31:00 | iXBT.com
Juno «просветил» Европу: толщина ледяной коры оказалась больше ожиданий
23.02.2026 10:15:00 | iXBT.com
Grok Imagine Илона Маска опережает все остальные модели по генерации видеороликов из картинок
23.02.2026 09:58:00 | iXBT.com
Обновлённый Haval H3 2026 уже появился у российских дилеров, но пока доступны только дорогие версии
23.02.2026 09:45:00 | iXBT.com
Отменённый компактный флагман снова в игре. Инсайдер сообщил о возобновлении разработки OnePlus 15s
23.02.2026 09:31:00 | iXBT.com
Дешевый смартфон с экраном 90 Гц, батареей 5260 мАч, разъёмом 3,5 мм и NFC. Представлен Honor X6d 5G
23.02.2026 09:15:00 | iXBT.com
Флагманский смартфон на Snapdragon 8 Elite Gen 5, с аккумулятором емкостью 7150 мАч и поддержкой быстрой зарядки мощностью 120 Вт. Honor Magic V6 показали вживую
23.02.2026 08:56:00 | iXBT.com
Гибридные автомобили расходуют гораздо больше топлива, чем утверждают производители
23.02.2026 08:49:18 | TechCult.ru
-
В Подмосковье начали выпуск компонентов климатических систем для транспорта
21.06.2026 21:25:51 | ferra.ru
Китайские разработчики ИИ ускорили переход к моделям с триллионом параметров
21.06.2026 19:51:35 | ferra.ru
Аудит алгоритмов: как реализация Boyer-Moore с 190K звёзд на GitHub оказалась brute-force
21.06.2026 19:12:28 | Хабр
Когда лучше публиковаться на Хабре. Статистический анализ связи времени публикации и охвата статей
21.06.2026 18:32:43 | Хабр
Ученые из Омска создали новый подход к поиску лекарственных соединений
21.06.2026 17:46:36 | ferra.ru
11 серия шоу «Сокровища императора-3»: Фуць отчитала Деревянко, Аверины уехали домой
21.06.2026 17:41:34 | Woman.ru
Playwright, Selenium, Cypress, WebdriverIO: что реально известно о скорости в 2026 году (и как намерить свои цифры)
21.06.2026 17:31:19 | Хабр
Как на самом деле работает .await: пишем свой async-рантайм на Rust с нуля
21.06.2026 17:01:53 | Хабр
Обзор бесплатных инструментов для поиска веб-уязвимостей для 1С-Битрикс и Bitrix24
21.06.2026 17:00:14 | Хабр
От философии к монетизации: как медитация постепенно превращалась в ментальный фастфуд
21.06.2026 16:33:10 | Хабр
С донышка постучали: как жила Диана Шурыгина все эти годы и почему снова угодила в секс-скандал?
21.06.2026 15:41:34 | Woman.ru
$2000-3000 в месяц за рекламу фальшивых ставок и выигрышей: Polymarket и торговля мечтой о лёгких деньгах через студентов-инфлюенсеров
21.06.2026 15:31:20 | vc.ru
Resident Evil: Veronica лишилась Code в названии. Разработчики считают её не менее важной, чем номерные части
21.06.2026 15:19:48 | Хабр
На Западе отказываются нанимать джунов в ИТ — что происходит и при чем тут токенмаксинг?
21.06.2026 15:16:37 | Хабр
Техническая поддержка проекта ВсеТут