Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды, но пользователи часто жалуются на их ошибки — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4, и выявило серьёзные недостатки в многоходовых диалогах. Как оказалось, модели успешно справляются с одиночными запросами, достигая 90% точности, но при последовательных вопросах точность падает примерно до 65%.
Исследователи объясняют, что модели «спешат с ответом», стараясь завершить решение задачи до того, как пользователь закончит пояснение. Это приводит к феномену «ответного зацепления»: ИИ использует предыдущий ответ как основу для следующего, даже если он был неверен.

Кроме того, в длинных диалогах наблюдается «раздутие ответа»: длина ответов увеличивается от 20% до 300%, вводя больше предположений и потенциальных галлюцинаций, которые модель потом закрепляет как контекст. Несмотря на дополнительные механизмы "thinking tokens" в моделях вроде o3 и DeepSeek R1, проблемы остаются нерешёнными.
В целом исследование показало, что способность моделей оставаться «в диалоге» снизилась всего на 15%, но надёжность упала на 112%. Это подчёркивает, что падение производительности при многоходовых взаимодействиях не означает, что модели «стали глупыми», но демонстрирует их ограничение при работе в реальных условиях.
Авторы предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто сопровождается ошибками и необоснованными предположениями.
Исследование подчёркивает, что технология пока что не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах, а модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем.
-
Китайские бренды стремительно наступают. Первой компанией из Поднебесной, которая продала более 1 млн машин в Европе и Великобритании, стала MG
23.02.2026 14:56:00 | iXBT.com
«Приватный экран» в Samsung Galaxy S26 Ultra будет доступен в двух режимах
23.02.2026 14:24:00 | iXBT.com
Настольная коптильня SmoqeX позволит готовить мясо на дровах прямо на кухне
23.02.2026 13:53:19 | TechCult.ru
Новый образец самолета «Байкал» с двигателем ВК-800 совершил первый полет
23.02.2026 13:36:48 | Ведомости
OpenAI осталась без собственных дата-центров: мегапроект Stargate застрял, компания переходит на аренду мощностей
23.02.2026 13:36:00 | iXBT.com
Nothing Phone (4a) с обновлённой панелью Glyph показали на качественном изображении
23.02.2026 13:19:00 | iXBT.com
13-дюймовый экран 21:9, до 64 ГБ ОЗУ и 8 ТБ SSD, механическая клавиатура и Ryzen AI 9 HX 370. Мини-ПК Keebmon собрал 800 000 долларов на Kickstarter и выйдет уже в апреле
23.02.2026 12:51:00 | iXBT.com
Россияне действительно не могут поставить на учет недешевые гибриды Li Auto — официальный дистрибутор подтвердил проблемы
23.02.2026 12:42:00 | iXBT.com
5,2-метровый внедорожник BYD Denza B8 (Leopard 8) получил максимальную оценку в краш-тесте ANCAP
23.02.2026 12:23:00 | iXBT.com
Первый в стране и на целом континенте дизельный гибридный пикап с возможностью подзарядки от сети. Chery готовит новинку для Австралии
23.02.2026 12:12:00 | iXBT.com
Apple представит «как минимум пять продуктов», включая новый iPhone, на следующей неделе
23.02.2026 11:56:00 | iXBT.com
iPhone 18 Pro и iPhone 18 Pro Max тестируют в бордовом цвете, а складной iPhone предложит более скромную гамму
23.02.2026 11:49:00 | iXBT.com
Практичная кровать Roll собирается в компактный шкафчик одним нажатием кнопки
23.02.2026 11:46:55 | TechCult.ru
Уведомления с iPhone на Xiaomi, полная поддержка AirPods и обмен файлами по типу AirDrop. Глобальная версия HyperOS 3.1 будет представлена уже 28 февраля
23.02.2026 11:30:00 | iXBT.com
Первый смартфон с новой камерой Sony LYT-710, экран Smart Water Touch 3.0 144 Гц для работы мокрыми пальцами, 7000 мАч. Смартфон Motorola Edge 70 Fusion рассекречен
23.02.2026 11:14:00 | iXBT.com
«Самый тонкий внешний аккумулятор в отрасли». Xiaomi показала 6-миллиметровый оранжевый гаджет
23.02.2026 11:08:00 | iXBT.com
200 Мп + 50 Мп + 50 Мп, Snapdragon 8 Elite Gen 5, два экрана, внешний аккумулятор в подарок. Раскрыто содержимое подарочного комплекта Oppo Find N6
23.02.2026 10:58:00 | iXBT.com
Стилус Samsung Galaxy S26 Ultra не поддерживает управление затвором камеры по Bluetooth: это показали вживую
23.02.2026 10:41:00 | iXBT.com
Глобальный Xiaomi 17 Ultra показали на фото за несколько дней до анонса
23.02.2026 10:31:00 | iXBT.com
Juno «просветил» Европу: толщина ледяной коры оказалась больше ожиданий
23.02.2026 10:15:00 | iXBT.com
Grok Imagine Илона Маска опережает все остальные модели по генерации видеороликов из картинок
23.02.2026 09:58:00 | iXBT.com
Обновлённый Haval H3 2026 уже появился у российских дилеров, но пока доступны только дорогие версии
23.02.2026 09:45:00 | iXBT.com
Отменённый компактный флагман снова в игре. Инсайдер сообщил о возобновлении разработки OnePlus 15s
23.02.2026 09:31:00 | iXBT.com
Дешевый смартфон с экраном 90 Гц, батареей 5260 мАч, разъёмом 3,5 мм и NFC. Представлен Honor X6d 5G
23.02.2026 09:15:00 | iXBT.com
Флагманский смартфон на Snapdragon 8 Elite Gen 5, с аккумулятором емкостью 7150 мАч и поддержкой быстрой зарядки мощностью 120 Вт. Honor Magic V6 показали вживую
23.02.2026 08:56:00 | iXBT.com
Гибридные автомобили расходуют гораздо больше топлива, чем утверждают производители
23.02.2026 08:49:18 | TechCult.ru
-
Создана искусственная слюна. Она защищает зубы от кариеса лучше, чем паста
27.04.2026 18:57:19 | ferra.ru
Pinterest против идеала: как тренд на естественность меняет современную стоматологию
27.04.2026 18:30:21 | ferra.ru
Минцифры заявило о доступности российских госсервисов и банков за рубежом — но их могут ограничивать «отдельные страны и провайдеры»
27.04.2026 17:37:57 | vc.ru
Литовский онлайн-секонд-хенд Vinted оценили в €8 млрд в ходе вторичной продажи акций на €880 млн
27.04.2026 16:47:32 | vc.ru
«Ozon Банк» исключили из списка компаний, которым нужно разрешение президента на операции с акциями
27.04.2026 15:50:21 | vc.ru
Бутерброд с курицей и морковным салатом, пошаговый рецепт с фото от автора Марина МАРмеладИНКА
27.04.2026 14:58:00 | ГАСТРОНОМЪ
Скандального сына Шукшиной сегодня не узнать: он пережил смерть невесты и отказ от сына
27.04.2026 14:30:00 | Woman.ru
Няня-испанка и легенда о сиротстве: барская жизнь советских детей Михалкова и Кончаловского
27.04.2026 14:00:00 | Woman.ru
Перемяч: что это и чем он отличается от беляша. Историк русской кухни о различиях, рецепте и секретах приготовления — читать на Gastronom.ru
27.04.2026 14:00:00 | ГАСТРОНОМЪ
Я думал, что государство это идеальный клиент, и теперь отдаю долг 50 млн
27.04.2026 13:56:58 | Хабр
ПРОЕКТЫ В СПОРТЕ И БИЗНЕСЕ: ПЯТЬ УРОКОВ, О КОТОРЫХ ВАМ НЕ РАССКАЖУТ НА MBA
27.04.2026 13:46:11 | Хабр
«Я заработал 500 000 рублей на одном видео»: кейс одного из первых ИИ-специалистов SpeShu.AI
27.04.2026 13:38:41 | Хабр
OKX выпустила карту для оплаты зарубежных сервисов с кешбэком и процентом на остаток
27.04.2026 13:35:08 | it-world
Гречка по-новому: 9 рецептов вкусных котлет, которые заменят привычные ужины — читать на Gastronom.ru
27.04.2026 13:32:00 | ГАСТРОНОМЪ
Эксперты объяснили, как кофе влияет на память и настроение через кишечник — читать на Gastronom.ru
27.04.2026 13:30:00 | ГАСТРОНОМЪ
Что внутри ноутбука Maibenben X16F? Разборка игровой модели на базе AMD Ryzen-9 8940HX и RTX 5070 Ti
27.04.2026 13:27:46 | Хабр
Миллион в месяц за блокировки интернета, или чем отличается капитализм от социализма
27.04.2026 13:25:25 | Хабр
Техническая поддержка проекта ВсеТут