Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды, но пользователи часто жалуются на их ошибки — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, и выявило серьёзные недостатки в многоходовых диалогах. Как оказалось, модели успешно справляются с одиночными запросами, достигая 90% точности, но при последовательных вопросах точность падает примерно до 65%.
Исследователи объясняют, что модели «спешат с ответом», стараясь завершить решение задачи до того, как пользователь закончит пояснение. Это приводит к феномену «ответного зацепления»: ИИ использует предыдущий ответ как основу для следующего, даже если он был неверен.

Кроме того, в длинных диалогах наблюдается «раздутие ответа»: длина ответов увеличивается от 20% до 300%, вводя больше предположений и потенциальных галлюцинаций, которые модель потом закрепляет как контекст. Несмотря на дополнительные механизмы "thinking tokens" в моделях вроде o3 и DeepSeek R1, проблемы остаются нерешёнными.
В целом исследование показало, что способность моделей оставаться «в диалоге» снизилась всего на 15%, но надёжность упала на 112%. Это подчёркивает, что падение производительности при многоходовых взаимодействиях не означает, что модели «стали глупыми», но демонстрирует их ограничение при работе в реальных условиях.
Авторы предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто сопровождается ошибками и необоснованными предположениями.
Исследование подчёркивает, что технология пока что не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах, а модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем.
-
Китайские бренды стремительно наступают. Первой компанией из Поднебесной, которая продала более 1 млн машин в Европе и Великобритании, стала MG
23.02.2026 14:56:00 | iXBT.com
«Приватный экран» в Samsung Galaxy S26 Ultra будет доступен в двух режимах
23.02.2026 14:24:00 | iXBT.com
Настольная коптильня SmoqeX позволит готовить мясо на дровах прямо на кухне
23.02.2026 13:53:19 | TechCult.ru
Новый образец самолета «Байкал» с двигателем ВК-800 совершил первый полет
23.02.2026 13:36:48 | Ведомости
OpenAI осталась без собственных дата-центров: мегапроект Stargate застрял, компания переходит на аренду мощностей
23.02.2026 13:36:00 | iXBT.com
Nothing Phone (4a) с обновлённой панелью Glyph показали на качественном изображении
23.02.2026 13:19:00 | iXBT.com
13-дюймовый экран 21:9, до 64 ГБ ОЗУ и 8 ТБ SSD, механическая клавиатура и Ryzen AI 9 HX 370. Мини-ПК Keebmon собрал 800 000 долларов на Kickstarter и выйдет уже в апреле
23.02.2026 12:51:00 | iXBT.com
Россияне действительно не могут поставить на учет недешевые гибриды Li Auto — официальный дистрибутор подтвердил проблемы
23.02.2026 12:42:00 | iXBT.com
5,2-метровый внедорожник BYD Denza B8 (Leopard 8) получил максимальную оценку в краш-тесте ANCAP
23.02.2026 12:23:00 | iXBT.com
Первый в стране и на целом континенте дизельный гибридный пикап с возможностью подзарядки от сети. Chery готовит новинку для Австралии
23.02.2026 12:12:00 | iXBT.com
Apple представит «как минимум пять продуктов», включая новый iPhone, на следующей неделе
23.02.2026 11:56:00 | iXBT.com
iPhone 18 Pro и iPhone 18 Pro Max тестируют в бордовом цвете, а складной iPhone предложит более скромную гамму
23.02.2026 11:49:00 | iXBT.com
Практичная кровать Roll собирается в компактный шкафчик одним нажатием кнопки
23.02.2026 11:46:55 | TechCult.ru
Уведомления с iPhone на Xiaomi, полная поддержка AirPods и обмен файлами по типу AirDrop. Глобальная версия HyperOS 3.1 будет представлена уже 28 февраля
23.02.2026 11:30:00 | iXBT.com
Первый смартфон с новой камерой Sony LYT-710, экран Smart Water Touch 3.0 144 Гц для работы мокрыми пальцами, 7000 мАч. Смартфон Motorola Edge 70 Fusion рассекречен
23.02.2026 11:14:00 | iXBT.com
«Самый тонкий внешний аккумулятор в отрасли». Xiaomi показала 6-миллиметровый оранжевый гаджет
23.02.2026 11:08:00 | iXBT.com
200 Мп + 50 Мп + 50 Мп, Snapdragon 8 Elite Gen 5, два экрана, внешний аккумулятор в подарок. Раскрыто содержимое подарочного комплекта Oppo Find N6
23.02.2026 10:58:00 | iXBT.com
Стилус Samsung Galaxy S26 Ultra не поддерживает управление затвором камеры по Bluetooth: это показали вживую
23.02.2026 10:41:00 | iXBT.com
Глобальный Xiaomi 17 Ultra показали на фото за несколько дней до анонса
23.02.2026 10:31:00 | iXBT.com
Juno «просветил» Европу: толщина ледяной коры оказалась больше ожиданий
23.02.2026 10:15:00 | iXBT.com
Grok Imagine Илона Маска опережает все остальные модели по генерации видеороликов из картинок
23.02.2026 09:58:00 | iXBT.com
Обновлённый Haval H3 2026 уже появился у российских дилеров, но пока доступны только дорогие версии
23.02.2026 09:45:00 | iXBT.com
Отменённый компактный флагман снова в игре. Инсайдер сообщил о возобновлении разработки OnePlus 15s
23.02.2026 09:31:00 | iXBT.com
Дешевый смартфон с экраном 90 Гц, батареей 5260 мАч, разъёмом 3,5 мм и NFC. Представлен Honor X6d 5G
23.02.2026 09:15:00 | iXBT.com
Флагманский смартфон на Snapdragon 8 Elite Gen 5, с аккумулятором емкостью 7150 мАч и поддержкой быстрой зарядки мощностью 120 Вт. Honor Magic V6 показали вживую
23.02.2026 08:56:00 | iXBT.com
Гибридные автомобили расходуют гораздо больше топлива, чем утверждают производители
23.02.2026 08:49:18 | TechCult.ru
-
OKX выпустила карту для оплаты зарубежных сервисов с кешбэком и процентом на остаток
27.04.2026 13:35:08 | it-world
СМИ: OpenAI работает с Qualcomm и MediaTek над чипами для «ИИ-смартфонов»
27.04.2026 12:55:43 | vc.ru
Банковский сервис X Money, встроенный в соцсеть X, запустят до конца апреля 2026 года — Bloomberg
27.04.2026 12:02:26 | vc.ru
«Интервью с алгоритмом – спросим у ИИ о ваших финансах». Обзор проекта «Финансовый доктор»
27.04.2026 11:10:47 | it-world
С чего начинается Родина для ИИ? Мы строим российскую когнитивную архитектуру
27.04.2026 10:52:49 | Хабр
Онбордили, онбордили, да не доонбордили: как не терять людей после адаптации
27.04.2026 10:42:03 | Хабр
Mode collapse в авто-блоге: четыре пятницы подряд LLM приносила нам один и тот же «спорный вопрос про ИИ»
27.04.2026 10:41:44 | Хабр
Как выбирать площадки для GEO-продвижения: источники как основа роста в ответах нейросетей
27.04.2026 10:41:40 | Хабр
Рерайт текстов в 2026: большой разбор сервисов для редакций от SEO-помоек начала 10-х до мультиагентных систем
27.04.2026 10:38:21 | Хабр
Некоторые правообладатели начали предупреждать зрителей российских онлайн-кинотеатров о вырезанных из фильмов и сериалов сценах
27.04.2026 10:31:30 | vc.ru
Организация производства Информационных систем. Часть 9. Современные подходы
27.04.2026 10:29:58 | Хабр
Ольга Погодина у гроба Алексея Пиманова: «Я воспитаю нашу доченьку так, чтобы тебе понравилось»
27.04.2026 10:18:36 | Woman.ru
Я работал по 12 часов в день и через месяц понял, что проблема была не в часах
27.04.2026 10:13:36 | Хабр
Коммуникабельность, адаптивность и навык выступлений: какие софты помогут вырасти в зарплате на 30%
27.04.2026 10:01:06 | Хабр
Олег Виллард — победитель шоу «Титаны. Битва сезонов»: как мачо со стальным прессом оказался сильнее всех
27.04.2026 09:53:29 | Woman.ru
Российская инфраструктура стала тихой гаванью для киберпреступников. Причем тут Руцентр, Рег.Ру и DDoS-Guard?
27.04.2026 09:49:17 | Хабр
Трекинг объектов с подвижной камеры: когда компьютерное зрение встречается с механикой
27.04.2026 09:40:31 | Хабр
Senior на бумаге, Junior в рантайме: как я тестировал локальные LLM на 120B параметров в Greenfield-проекте
27.04.2026 09:39:28 | Хабр
Общество как уравнение. Доступно ли социально-гуманитарное познание математическому описанию?
27.04.2026 09:39:26 | Хабр
В Москве прощаются с Алексеем Пимановым: Угольников, Малышева, Якубович поддержали вдову
27.04.2026 09:17:47 | Woman.ru
«Т-Банк» добавил для пользователей iPhone возможность бесконтактной оплаты без подключения к интернету
27.04.2026 09:07:34 | vc.ru
5 выступлений Камилы Валиевой, которые доказывают, что она с другой планеты
27.04.2026 09:04:04 | Woman.ru
Pragmata взломали за два дня до релиза. Шесть слоёв защиты Denuvo и как их обходят через гипервизор
27.04.2026 09:00:08 | Хабр
Техническая поддержка проекта ВсеТут