ИИ становится «умнее», когда спорит сам с собой

05.02.2026 14:09:00 | iXBT.com

Исследователи из Google представили работу, в которой объясняют, за счёт каких механизмов современные ИИ-модели достигают высокой точности при решении сложных задач. Проанализировав поведение продвинутых языковых моделей, обученных с подкреплением, авторы пришли к выводу, что ключевую роль играет не длина рассуждений, а формирование внутри модели устойчивой структуры внутреннего диалога между разными стратегиями мышления.

В статье этот механизм называется «society of thought» — «общество мыслей». Под ним понимается ситуация, когда в процессе рассуждения модель параллельно развивает несколько альтернативных линий рассуждений, которые проверяют, критикуют и корректируют друг друга. Такой процесс напоминает коллективное обсуждение, в котором разные точки зрения последовательно сталкиваются и уточняются.

Авторы опираются на идеи когнитивной науки, согласно которым человеческое мышление формировалось как социальный процесс, связанный с аргументацией и разрешением разногласий. Согласно гипотезе, при обучении с подкреплением языковые модели начинают воспроизводить аналогичную структуру внутри собственных вычислений, поскольку это повышает вероятность получения правильного ответа.

Для проверки этой гипотезы исследователи изучили работу моделей DeepSeek-R1 и QwQ-32B. Обе модели были обучены без инструкций вести внутренний диалог. Тем не менее при анализе цепочек рассуждений выяснилось, что они регулярно разделяют процесс решения на несколько «ролей», выполняющих разные функции: генерацию идей, проверку допущений, поиск альтернатив и исправление ошибок.

Так, в задаче по органическому синтезу модель сначала предложила стандартный путь реакции, а затем внутренний механизм проверки поставил под сомнение исходное предположение и указал на противоречие с известными фактами. В результате модель пересобрала решение и выбрала корректный маршрут синтеза. Аналогичная структура наблюдалась и в задачах редактирования текста, где один фрагмент рассуждения отвечал за стилистические улучшения, а другой — за сохранение исходного смысла.

Изображение сгенерировано: Grok

Особенно наглядно этот эффект проявился в математической игре Countdown, где модель должна получить заданное число, используя фиксированный набор операций. На ранних этапах обучения она решала задачу в виде линейного монолога. По мере обучения с подкреплением внутри рассуждений начали формироваться два устойчивых режима: один отвечал за пошаговые вычисления, другой — за контроль неудачных попыток и поиск новых стратегий. Это сопровождалось заметным ростом точности.

Отдельная серия экспериментов показала, что усиление разнообразия внутренних состояний модели — например, за счёт активации механизмов, связанных с «неожиданностью» — приводит к расширению спектра рассматриваемых гипотез и почти двукратному росту точности в сложных задачах. При этом простое удлинение цепочек рассуждений без внутреннего разнообразия такого эффекта не даёт.

Авторы также сравнили разные способы обучения. Модели, дообученные на линейных «идеальных» решениях, демонстрировали более слабые результаты, чем системы, в которых спонтанно формировалась внутренняя дискуссия. В то же время дообучение на многосторонних диалогах и дебатах давало заметный прирост качества по сравнению с классическими цепочками рассуждений.

Из этого следует, что способность к внутреннему «социальному» рассуждению возникает как побочный эффект оптимизации на правильный ответ, а не как результат прямого надзора. По сути, обучение с подкреплением заставляет модель выстраивать внутри себя механизм проверки гипотез, поскольку именно он повышает вероятность успеха.

Практическое значение работы связано с разработкой прикладных ИИ-систем. Авторы показывают, что для повышения качества рассуждений важно не просто задавать модели несколько ролей в подсказке, а формировать противоположные установки, которые делают конфликт между стратегиями неизбежным. Это позволяет системе глубже исследовать пространство решений и избегать поверхностных ответов.

Кроме того, исследование ставит под сомнение практику жёсткой очистки обучающих данных. По мнению авторов, рабочие журналы, переписки и технические обсуждения, в которых решения формируются постепенно и с ошибками, могут быть особенно полезны для обучения моделей навыкам исследования и самопроверки. Отдельное внимание уделяется вопросам доверия и аудита. В высокорисковых областях пользователям важно видеть не только итоговый ответ, но и то, какие альтернативы рассматривались и почему от них отказались. Это требует разработки интерфейсов, которые смогут отображать внутренние рассуждения модели.

Подробнее

Читайте также

Роскачество: лучшие облачные хранилища для iOS и Android
05.02.2026 14:02:00 | iXBT.com

AMD Medusa Halo будут поддерживать память LPDDR6
05.02.2026 13:53:00 | iXBT.com

Когда характеристики продукта ухудшили уже после его выхода на рынок. Tenstorrent уменьшила количество ядер в процессорах Blackhole p150
05.02.2026 13:53:00 | iXBT.com

Владеть Lada Vesta стало дороже: в НАПИ подсчитали, что за год стоимость владения Lada Vesta c 1,8-литровым мотором выросла на 8%
05.02.2026 13:51:00 | iXBT.com

Испания закроет подросткам до 16 лет доступ к соцсетям
05.02.2026 13:49:43 | TechCult.ru

Яндекс открыл программу по ИИ-робототехнике для школьников
05.02.2026 13:44:00 | iXBT.com

Культовое автомобильное шоу The Grand Tour возвращается. Его перезапустят уже в этом году
05.02.2026 13:40:00 | iXBT.com

Компания BMW не собирается отказываться от концепции подписочной модели для различных автомобильных опций
05.02.2026 13:34:00 | iXBT.com

Galaxy S26 Ultra не получит встроенных в корпус магнитов, но оригинальная магнитная зарядка для него будет: опубликованы качественные изображения аксессуара
05.02.2026 13:27:00 | iXBT.com

В России выделили частоты 5G FWA для квартир и офисов, а также для наблюдения Земли из космоса
05.02.2026 13:21:00 | iXBT.com

Дилеры Lada пытаются продать остатки: семиместный XCite X-Cross 8 подешевел до 2 759 000 руб.
05.02.2026 13:19:00 | iXBT.com

В Китае произошла чудовищная утечка данных. Почти 9 млрд записей, включающих имена, номера телефонов и даже пароли
05.02.2026 13:14:00 | iXBT.com

Уже второй мини-ПК за неделю на редком процессоре Intel. Chuwi AuBox X1 получил Core Ultra 5 226V
05.02.2026 12:52:00 | iXBT.com

В январе пользователи Rutube посмотрели 5 млрд роликов
05.02.2026 12:48:00 | iXBT.com

Высокая производительность в 3 литрах объема: SimplyNUC выпустила мини-ПК SimplyNUC 15 Performance с 24-ядерным Core Ultra 9 275HX, 96 ГБ ОЗУ и GeForce RTX 5070 Laptop
05.02.2026 12:45:00 | iXBT.com

Илон Маск объяснил, почему размещение ИИ в космосе станет выгоднее всего
05.02.2026 12:39:00 | iXBT.com

В компьютерах HP, Dell, Acer и Asus может появиться китайская оперативная память. Компани рассматривают возможность сотрудничества с CXMT
05.02.2026 12:36:00 | iXBT.com

«Волгабас» начал сборку новых автобусов
05.02.2026 12:29:00 | iXBT.com

Будущие процессоры Intel Nova Lake получат даже чуть более мощный iGPU, чем Arc B390. Ядер будет столько же, но архитектура чуть новее
05.02.2026 12:23:00 | iXBT.com

В России начнётся производство семиместного кроссовера с усиленной защитой от коррозии и «зимним» пакетом Tenet T9
05.02.2026 12:16:00 | iXBT.com

Российские космонавты совершили 176 выходов в открытый космос, но не все они были в отечественных скафандрах
05.02.2026 12:09:00 | iXBT.com

В России продано более миллиона Mitsubishi, но в 2025 году продажи обвалились втрое
05.02.2026 12:04:00 | iXBT.com

Samsung Galaxy S26 Ultra не будет магнититься как iPhone, хотя поддержка беспроводной зарядки Qi2 будет
05.02.2026 11:53:00 | iXBT.com

Без точных команд и названий устройств: умный дом Яндекса научился понимать указания в свободной форме
05.02.2026 11:47:00 | iXBT.com

Большой адронный коллайдер будет обогревать тысячи французских домохозяйств
05.02.2026 11:46:43 | TechCult.ru

Яндекс открыл доступ к ИИ-технологии для виртуального тестирования авто-беспилотников
05.02.2026 11:27:00 | iXBT.com

Более 1600 роботов трудятся на АвтоВАЗе, на линии сварки Lada Granta автоматизация составляет 85%
05.02.2026 11:18:00 | iXBT.com

Стабильная работа до -70 °C. Новые автомобили Changan переводят на натриевые батареи CATL
05.02.2026 11:06:00 | iXBT.com

Changan готовит три новинки для России в 2026 году
05.02.2026 11:04:00 | iXBT.com

Новые Geely Coolray уже тестируют в Белоруссии
05.02.2026 10:57:00 | iXBT.com

«Здесь находится множество активов, связанных с деятельностью SpaceX, которые надо защищать». На космодроме Starbase появится полицейский участок
05.02.2026 10:42:00 | iXBT.com

Обновление ColorOS 16 на Android 16 вышло для десятков устройств Oppo
05.02.2026 10:33:00 | iXBT.com

Портативный аккумулятор с двумя кабелями USB-C. Представлен Anker Zolo
05.02.2026 10:29:00 | iXBT.com

Valve подтвердила: сроки выпуска и цены на Steam Machine пересматриваются из-за дефицита оперативной памяти и комплектующих
05.02.2026 10:14:00 | iXBT.com

Корейский кроссовер — аналог Skoda Kodiaq — с гарантией 5 лет появился в России: к дилерам прибыли KGM Actyon
05.02.2026 10:03:00 | iXBT.com

Все новости

ЛЕНТА

В Сибири создали установку для безопасной утилизации ядерных отходов
05.03.2026 21:38:30 | ferra.ru

В Тольятти модернизировал линию контроля двигателей для Lada Niva
05.03.2026 21:05:24 | ferra.ru

WhatsApp* работает над запуском подписки с опциями кастомизации приложения — WABetaInfo
05.03.2026 20:26:34 | vc.ru

Тачмак
05.03.2026 19:46:45 | ПОВАРЁНОК.РУ

Обещания Apple и новый MacBook Neo
05.03.2026 18:52:24 | it-world

Шесть предметов, которые в СССР считались роскошью, а сейчас даром никому не нужны
05.03.2026 18:45:00 | Woman.ru

Сравнения ИИ-моделей для генерации изображений: Nano Banana Pro vs GPT Image 1.5
05.03.2026 18:36:04 | Хабр

Инсайдеры уточнили дату выхода Xiaomi 17 Max с аккумулятором на 8000 мА·ч
05.03.2026 18:30:42 | ferra.ru

Китайцы захватывают российский e-commerce
05.03.2026 18:29:54 | it-world

Единый реестр банковских карт россиян будет создан в 2027 году
05.03.2026 18:29:25 | ferra.ru

Гармония нейроэтики
05.03.2026 18:27:25 | Хабр

В Пензе создали «мозговой центр» для беспилотников, определяющий метеоусловия
05.03.2026 18:23:37 | ferra.ru

Роскосмос начал сборку спутника «Ямал» по заказу «Газпрома»
05.03.2026 18:19:12 | ferra.ru

Как вернуть нормальную скорость интернета: большой гайд по борьбе с замедлением
05.03.2026 18:16:45 | Хабр

Что значит «отвечать за качество»?
05.03.2026 18:16:22 | Хабр

В Санкт-Петербурге создадут аварийные дизель-генераторы для ледокола «Лидер»
05.03.2026 18:10:26 | ferra.ru

В Max отвергли информацию, что отслеживают использование VPN
05.03.2026 18:06:08 | vc.ru

Семь игр на «ведроид», которые не захочется удалять
05.03.2026 18:05:19 | Хабр

Финтех-сервис Revolut подал заявку на банковскую лицензию в США
05.03.2026 18:05:03 | vc.ru

В России создали инструмент для удешевления вычислений при разработке ИИ
05.03.2026 18:02:27 | ferra.ru

delegatecall в Solidity
05.03.2026 18:01:18 | Хабр

В РФ упростили и обезопасили производство сырья для парфюмерии
05.03.2026 17:57:30 | ferra.ru

Claude Code + NotebookLM: собираем бесплатную RAG-систему для глубокого ресерча
05.03.2026 17:56:17 | Хабр

Новое поколение русских моделей: Даниленко стала звездой Balmain, Миллер — кумиром Хадид
05.03.2026 17:45:00 | Woman.ru

Подглядеть за незнакомцами и заблокировать чужой пояс верности: глупые уязвимости «умных» секс-игрушек
05.03.2026 17:13:11 | vc.ru

Nothing представила полноразмерные наушники Headphone (a) с заявленным временем работы до 135 часов на одном заряде
05.03.2026 17:12:38 | vc.ru

Как проверить качество трафика в Telegram Ads ещё до продаж
05.03.2026 17:00:11 | Хабр

Обязательно ли охлаждать тесто для печенья — пекарь все объяснила — читать на Gastronom.ru
05.03.2026 17:00:00 | ГАСТРОНОМЪ

Plantower vs Sensirion — вскрываем лазерные датчики пыли
05.03.2026 16:49:09 | Хабр

[Перевод] ИИ, который запретил сам себя: как нейросеть Claude стала тайным оружием Пентагона
05.03.2026 16:25:45 | Хабр

Обзор HUAWEI FreeBuds Pro 5: мощнее шумодав, богаче звук
05.03.2026 16:18:39 | ferra.ru

Как я искал замену MinIO S3 и написал свой S4 на Rust
05.03.2026 16:16:03 | Хабр

Установка Java за 5 минут: JDK 21 или 25 — что выбрать новичку в 2026 году
05.03.2026 16:12:01 | Хабр

[Перевод] Введение в модели согласованности
05.03.2026 16:07:12 | Хабр

Nothing представила смартфоны Phone (4a) и Phone (4a) Pro
05.03.2026 16:01:49 | vc.ru

Смотреть все

ВСЯ ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro