Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды, но пользователи часто жалуются на их ошибки — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, и выявило серьёзные недостатки в многоходовых диалогах. Как оказалось, модели успешно справляются с одиночными запросами, достигая 90% точности, но при последовательных вопросах точность падает примерно до 65%.
Исследователи объясняют, что модели «спешат с ответом», стараясь завершить решение задачи до того, как пользователь закончит пояснение. Это приводит к феномену «ответного зацепления»: ИИ использует предыдущий ответ как основу для следующего, даже если он был неверен.

Кроме того, в длинных диалогах наблюдается «раздутие ответа»: длина ответов увеличивается от 20% до 300%, вводя больше предположений и потенциальных галлюцинаций, которые модель потом закрепляет как контекст. Несмотря на дополнительные механизмы "thinking tokens" в моделях вроде o3 и DeepSeek R1, проблемы остаются нерешёнными.
В целом исследование показало, что способность моделей оставаться «в диалоге» снизилась всего на 15%, но надёжность упала на 112%. Это подчёркивает, что падение производительности при многоходовых взаимодействиях не означает, что модели «стали глупыми», но демонстрирует их ограничение при работе в реальных условиях.
Авторы предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто сопровождается ошибками и необоснованными предположениями.
Исследование подчёркивает, что технология пока что не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах, а модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем.
-
Китайские бренды стремительно наступают. Первой компанией из Поднебесной, которая продала более 1 млн машин в Европе и Великобритании, стала MG
23.02.2026 14:56:00 | iXBT.com
«Приватный экран» в Samsung Galaxy S26 Ultra будет доступен в двух режимах
23.02.2026 14:24:00 | iXBT.com
Настольная коптильня SmoqeX позволит готовить мясо на дровах прямо на кухне
23.02.2026 13:53:19 | TechCult.ru
Новый образец самолета «Байкал» с двигателем ВК-800 совершил первый полет
23.02.2026 13:36:48 | Ведомости
OpenAI осталась без собственных дата-центров: мегапроект Stargate застрял, компания переходит на аренду мощностей
23.02.2026 13:36:00 | iXBT.com
Nothing Phone (4a) с обновлённой панелью Glyph показали на качественном изображении
23.02.2026 13:19:00 | iXBT.com
13-дюймовый экран 21:9, до 64 ГБ ОЗУ и 8 ТБ SSD, механическая клавиатура и Ryzen AI 9 HX 370. Мини-ПК Keebmon собрал 800 000 долларов на Kickstarter и выйдет уже в апреле
23.02.2026 12:51:00 | iXBT.com
Россияне действительно не могут поставить на учет недешевые гибриды Li Auto — официальный дистрибутор подтвердил проблемы
23.02.2026 12:42:00 | iXBT.com
5,2-метровый внедорожник BYD Denza B8 (Leopard 8) получил максимальную оценку в краш-тесте ANCAP
23.02.2026 12:23:00 | iXBT.com
Первый в стране и на целом континенте дизельный гибридный пикап с возможностью подзарядки от сети. Chery готовит новинку для Австралии
23.02.2026 12:12:00 | iXBT.com
Apple представит «как минимум пять продуктов», включая новый iPhone, на следующей неделе
23.02.2026 11:56:00 | iXBT.com
iPhone 18 Pro и iPhone 18 Pro Max тестируют в бордовом цвете, а складной iPhone предложит более скромную гамму
23.02.2026 11:49:00 | iXBT.com
Практичная кровать Roll собирается в компактный шкафчик одним нажатием кнопки
23.02.2026 11:46:55 | TechCult.ru
Уведомления с iPhone на Xiaomi, полная поддержка AirPods и обмен файлами по типу AirDrop. Глобальная версия HyperOS 3.1 будет представлена уже 28 февраля
23.02.2026 11:30:00 | iXBT.com
Первый смартфон с новой камерой Sony LYT-710, экран Smart Water Touch 3.0 144 Гц для работы мокрыми пальцами, 7000 мАч. Смартфон Motorola Edge 70 Fusion рассекречен
23.02.2026 11:14:00 | iXBT.com
«Самый тонкий внешний аккумулятор в отрасли». Xiaomi показала 6-миллиметровый оранжевый гаджет
23.02.2026 11:08:00 | iXBT.com
200 Мп + 50 Мп + 50 Мп, Snapdragon 8 Elite Gen 5, два экрана, внешний аккумулятор в подарок. Раскрыто содержимое подарочного комплекта Oppo Find N6
23.02.2026 10:58:00 | iXBT.com
Стилус Samsung Galaxy S26 Ultra не поддерживает управление затвором камеры по Bluetooth: это показали вживую
23.02.2026 10:41:00 | iXBT.com
Глобальный Xiaomi 17 Ultra показали на фото за несколько дней до анонса
23.02.2026 10:31:00 | iXBT.com
Juno «просветил» Европу: толщина ледяной коры оказалась больше ожиданий
23.02.2026 10:15:00 | iXBT.com
Grok Imagine Илона Маска опережает все остальные модели по генерации видеороликов из картинок
23.02.2026 09:58:00 | iXBT.com
Обновлённый Haval H3 2026 уже появился у российских дилеров, но пока доступны только дорогие версии
23.02.2026 09:45:00 | iXBT.com
Отменённый компактный флагман снова в игре. Инсайдер сообщил о возобновлении разработки OnePlus 15s
23.02.2026 09:31:00 | iXBT.com
Дешевый смартфон с экраном 90 Гц, батареей 5260 мАч, разъёмом 3,5 мм и NFC. Представлен Honor X6d 5G
23.02.2026 09:15:00 | iXBT.com
Флагманский смартфон на Snapdragon 8 Elite Gen 5, с аккумулятором емкостью 7150 мАч и поддержкой быстрой зарядки мощностью 120 Вт. Honor Magic V6 показали вживую
23.02.2026 08:56:00 | iXBT.com
Гибридные автомобили расходуют гораздо больше топлива, чем утверждают производители
23.02.2026 08:49:18 | TechCult.ru
-
Dell «радикально» решила проблему перегрева разъема 12VHPWR в картах RTX 50xx
23.02.2026 18:41:25 | ferra.ru
Софт на кредитной паузе. ИИ повышает цену долга и усиливает требования банков
23.02.2026 16:49:26 | it-world
Складной Honor Magic V6 с большой батареей показали на новых живых фото
23.02.2026 16:41:27 | ferra.ru
Китайская Zhipu теряет 23% за день, так как рынку не хватает «железа» для ИИ
23.02.2026 15:50:00 | it-world
Реализация прототипов взаимодействующих движков Forth класса тактового генератора
23.02.2026 15:48:54 | Хабр
Курьера уволили за помощь собаке в мороз: скандал с «Додо Пиццей» обернулся бойкотом
23.02.2026 15:19:53 | Woman.ru
Мы устали делать вид. Почему пора перестать «внедрять и мигрировать» и начать создавать
23.02.2026 15:15:32 | Хабр
Тест на грамотность: как вы напишете — «на носу» или «на носе»? Проверьте себя!
23.02.2026 15:15:00 | Woman.ru
Nothing показала дизайн Phone (4a) в преддверии презентации, которая пройдёт 5 марта 2026 года
23.02.2026 14:59:58 | vc.ru
В OpenAI оправдали «аппетит» ИИ словами «человечество тоже потребляло много ресурсов»
23.02.2026 14:50:34 | ferra.ru
Цифровой суверенитет в кармане: почему пора поднять свой Matrix-сервер, пока мессенджеры лихорадит
23.02.2026 14:39:47 | Хабр
Айза раскрыла неожиданные детали третьей свадьбы: «Мы были как два напуганных щенка»
23.02.2026 14:30:15 | Woman.ru
Пример оптимизации интерфейса динамического списка в мобильном приложении, сделанном на 1С при помощи HTML + CSS
23.02.2026 14:26:11 | Хабр
Как приготовить корн-дог: 6 лучших рецептов популярной уличной закуски — читать на Gastronom.ru
23.02.2026 14:00:00 | ГАСТРОНОМЪ
Крабовый салат с рисом любимому мужу, пошаговый рецепт с фото от автора Зиля Шарафиева на 431 ккал
23.02.2026 14:00:00 | ГАСТРОНОМЪ
В России утвердили ГОСТ на чак-чак: каким теперь должен быть популярный десерт? — читать на Gastronom.ru
23.02.2026 14:00:00 | ГАСТРОНОМЪ
Боготворил только одну: женщины, которые проиграли любовную битву за Олега Янковского
23.02.2026 13:47:10 | Woman.ru
Звезды отмечают 23 февраля: архивы Лепса, носки для младшего сына Погребняк и Нельсон в форме
23.02.2026 13:27:26 | Woman.ru
Хватит покупать курсы. Соберите портфолио на реальных кейсах. 3 разбора + чек-лист
23.02.2026 13:16:15 | Хабр
Отвечаю на популярные вопросы по HTML и CSS с собеседований джунов-фронтендеров
23.02.2026 13:01:12 | Хабр
Что нужно знать о Django миграциях, чтобы не превратить в тыкву свой продакшен во время обновлений
23.02.2026 12:47:55 | Хабр
Решение конфликтов зависимости в .NET 4.8 — Cross Domain Interaction на примере плагина Autodesk Revit
23.02.2026 12:16:02 | Хабр
Техническая поддержка проекта ВсеТут