Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды, но пользователи часто жалуются на их ошибки — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, и выявило серьёзные недостатки в многоходовых диалогах. Как оказалось, модели успешно справляются с одиночными запросами, достигая 90% точности, но при последовательных вопросах точность падает примерно до 65%.
Исследователи объясняют, что модели «спешат с ответом», стараясь завершить решение задачи до того, как пользователь закончит пояснение. Это приводит к феномену «ответного зацепления»: ИИ использует предыдущий ответ как основу для следующего, даже если он был неверен.

Кроме того, в длинных диалогах наблюдается «раздутие ответа»: длина ответов увеличивается от 20% до 300%, вводя больше предположений и потенциальных галлюцинаций, которые модель потом закрепляет как контекст. Несмотря на дополнительные механизмы "thinking tokens" в моделях вроде o3 и DeepSeek R1, проблемы остаются нерешёнными.
В целом исследование показало, что способность моделей оставаться «в диалоге» снизилась всего на 15%, но надёжность упала на 112%. Это подчёркивает, что падение производительности при многоходовых взаимодействиях не означает, что модели «стали глупыми», но демонстрирует их ограничение при работе в реальных условиях.
Авторы предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто сопровождается ошибками и необоснованными предположениями.
Исследование подчёркивает, что технология пока что не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах, а модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем.
-
Китайские бренды стремительно наступают. Первой компанией из Поднебесной, которая продала более 1 млн машин в Европе и Великобритании, стала MG
23.02.2026 14:56:00 | iXBT.com
«Приватный экран» в Samsung Galaxy S26 Ultra будет доступен в двух режимах
23.02.2026 14:24:00 | iXBT.com
Настольная коптильня SmoqeX позволит готовить мясо на дровах прямо на кухне
23.02.2026 13:53:19 | TechCult.ru
Новый образец самолета «Байкал» с двигателем ВК-800 совершил первый полет
23.02.2026 13:36:48 | Ведомости
OpenAI осталась без собственных дата-центров: мегапроект Stargate застрял, компания переходит на аренду мощностей
23.02.2026 13:36:00 | iXBT.com
Nothing Phone (4a) с обновлённой панелью Glyph показали на качественном изображении
23.02.2026 13:19:00 | iXBT.com
13-дюймовый экран 21:9, до 64 ГБ ОЗУ и 8 ТБ SSD, механическая клавиатура и Ryzen AI 9 HX 370. Мини-ПК Keebmon собрал 800 000 долларов на Kickstarter и выйдет уже в апреле
23.02.2026 12:51:00 | iXBT.com
Россияне действительно не могут поставить на учет недешевые гибриды Li Auto — официальный дистрибутор подтвердил проблемы
23.02.2026 12:42:00 | iXBT.com
5,2-метровый внедорожник BYD Denza B8 (Leopard 8) получил максимальную оценку в краш-тесте ANCAP
23.02.2026 12:23:00 | iXBT.com
Первый в стране и на целом континенте дизельный гибридный пикап с возможностью подзарядки от сети. Chery готовит новинку для Австралии
23.02.2026 12:12:00 | iXBT.com
Apple представит «как минимум пять продуктов», включая новый iPhone, на следующей неделе
23.02.2026 11:56:00 | iXBT.com
iPhone 18 Pro и iPhone 18 Pro Max тестируют в бордовом цвете, а складной iPhone предложит более скромную гамму
23.02.2026 11:49:00 | iXBT.com
Практичная кровать Roll собирается в компактный шкафчик одним нажатием кнопки
23.02.2026 11:46:55 | TechCult.ru
Уведомления с iPhone на Xiaomi, полная поддержка AirPods и обмен файлами по типу AirDrop. Глобальная версия HyperOS 3.1 будет представлена уже 28 февраля
23.02.2026 11:30:00 | iXBT.com
Первый смартфон с новой камерой Sony LYT-710, экран Smart Water Touch 3.0 144 Гц для работы мокрыми пальцами, 7000 мАч. Смартфон Motorola Edge 70 Fusion рассекречен
23.02.2026 11:14:00 | iXBT.com
«Самый тонкий внешний аккумулятор в отрасли». Xiaomi показала 6-миллиметровый оранжевый гаджет
23.02.2026 11:08:00 | iXBT.com
200 Мп + 50 Мп + 50 Мп, Snapdragon 8 Elite Gen 5, два экрана, внешний аккумулятор в подарок. Раскрыто содержимое подарочного комплекта Oppo Find N6
23.02.2026 10:58:00 | iXBT.com
Стилус Samsung Galaxy S26 Ultra не поддерживает управление затвором камеры по Bluetooth: это показали вживую
23.02.2026 10:41:00 | iXBT.com
Глобальный Xiaomi 17 Ultra показали на фото за несколько дней до анонса
23.02.2026 10:31:00 | iXBT.com
Juno «просветил» Европу: толщина ледяной коры оказалась больше ожиданий
23.02.2026 10:15:00 | iXBT.com
Grok Imagine Илона Маска опережает все остальные модели по генерации видеороликов из картинок
23.02.2026 09:58:00 | iXBT.com
Обновлённый Haval H3 2026 уже появился у российских дилеров, но пока доступны только дорогие версии
23.02.2026 09:45:00 | iXBT.com
Отменённый компактный флагман снова в игре. Инсайдер сообщил о возобновлении разработки OnePlus 15s
23.02.2026 09:31:00 | iXBT.com
Дешевый смартфон с экраном 90 Гц, батареей 5260 мАч, разъёмом 3,5 мм и NFC. Представлен Honor X6d 5G
23.02.2026 09:15:00 | iXBT.com
Флагманский смартфон на Snapdragon 8 Elite Gen 5, с аккумулятором емкостью 7150 мАч и поддержкой быстрой зарядки мощностью 120 Вт. Honor Magic V6 показали вживую
23.02.2026 08:56:00 | iXBT.com
Гибридные автомобили расходуют гораздо больше топлива, чем утверждают производители
23.02.2026 08:49:18 | TechCult.ru
-
Литовский онлайн-секонд-хенд Vinted оценили в €8 млрд в ходе вторичной продажи акций на €880 млн
27.04.2026 16:47:32 | vc.ru
«Ozon Банк» исключили из списка компаний, которым нужно разрешение президента на операции с акциями
27.04.2026 15:50:21 | vc.ru
ПРОЕКТЫ В СПОРТЕ И БИЗНЕСЕ: ПЯТЬ УРОКОВ, О КОТОРЫХ ВАМ НЕ РАССКАЖУТ НА MBA
27.04.2026 13:46:11 | Хабр
«Я заработал 500 000 рублей на одном видео»: кейс одного из первых ИИ-специалистов SpeShu.AI
27.04.2026 13:38:41 | Хабр
OKX выпустила карту для оплаты зарубежных сервисов с кешбэком и процентом на остаток
27.04.2026 13:35:08 | it-world
Что внутри ноутбука Maibenben X16F? Разборка игровой модели на базе AMD Ryzen-9 8940HX и RTX 5070 Ti
27.04.2026 13:27:46 | Хабр
Миллион в месяц за блокировки интернета, или чем отличается капитализм от социализма
27.04.2026 13:25:25 | Хабр
oosmetrics.com — когда публикация на строннем сайте может навредить вашему проекту
27.04.2026 13:20:30 | Хабр
[Перевод] Арифметика резкого повышения продуктивности: почему «рост на 40%» — это почти всегда неправда?
27.04.2026 13:20:07 | Хабр
Шашлык из свинины на сковороде, пошаговый рецепт с фото на 447 ккал
27.04.2026 13:00:00 | ГАСТРОНОМЪ
СМИ: OpenAI работает с Qualcomm и MediaTek над чипами для «ИИ-смартфонов»
27.04.2026 12:55:43 | vc.ru
В норковой шубе до пят и темных очках: Ольга Погодина на видео с похорон мужа
27.04.2026 12:40:31 | Woman.ru
Эффективная комбинация ML и ручной разметки при проверке результатов статического анализа кода на C и C++
27.04.2026 12:33:53 | Хабр
Банковский сервис X Money, встроенный в соцсеть X, запустят до конца апреля 2026 года — Bloomberg
27.04.2026 12:02:26 | vc.ru
Android, iOS и немного Python: подходит ли Kivy для реальных кроссплатформенных задач?
27.04.2026 12:00:59 | Хабр
Кейс компании Selecty: как они закрыли вакансию Менеджер по развитию бизнеса за неделю
27.04.2026 11:59:59 | Хабр
Можно ли повторить салонный уход дома? Разбираемся в возможностях бьюти-гаджетов
27.04.2026 11:51:28 | Woman.ru
Agent Loop: почему одного вызова инструментов уже недостаточно для корпоративного AI-агента
27.04.2026 11:49:00 | Хабр
Техническая поддержка проекта ВсеТут