Исследователи из Google представили работу, в которой объясняют, за счёт каких механизмов современные ИИ-модели достигают высокой точности при решении сложных задач. Проанализировав поведение продвинутых языковых моделей, обученных с подкреплением, авторы пришли к выводу, что ключевую роль играет не длина рассуждений, а формирование внутри модели устойчивой структуры внутреннего диалога между разными стратегиями мышления.
В статье этот механизм называется «society of thought» — «общество мыслей». Под ним понимается ситуация, когда в процессе рассуждения модель параллельно развивает несколько альтернативных линий рассуждений, которые проверяют, критикуют и корректируют друг друга. Такой процесс напоминает коллективное обсуждение, в котором разные точки зрения последовательно сталкиваются и уточняются.
Авторы опираются на идеи когнитивной науки, согласно которым человеческое мышление формировалось как социальный процесс, связанный с аргументацией и разрешением разногласий. Согласно гипотезе, при обучении с подкреплением языковые модели начинают воспроизводить аналогичную структуру внутри собственных вычислений, поскольку это повышает вероятность получения правильного ответа.
Для проверки этой гипотезы исследователи изучили работу моделей DeepSeek-R1 и QwQ-32B. Обе модели были обучены без инструкций вести внутренний диалог. Тем не менее при анализе цепочек рассуждений выяснилось, что они регулярно разделяют процесс решения на несколько «ролей», выполняющих разные функции: генерацию идей, проверку допущений, поиск альтернатив и исправление ошибок.
Так, в задаче по органическому синтезу модель сначала предложила стандартный путь реакции, а затем внутренний механизм проверки поставил под сомнение исходное предположение и указал на противоречие с известными фактами. В результате модель пересобрала решение и выбрала корректный маршрут синтеза. Аналогичная структура наблюдалась и в задачах редактирования текста, где один фрагмент рассуждения отвечал за стилистические улучшения, а другой — за сохранение исходного смысла.

Особенно наглядно этот эффект проявился в математической игре Countdown, где модель должна получить заданное число, используя фиксированный набор операций. На ранних этапах обучения она решала задачу в виде линейного монолога. По мере обучения с подкреплением внутри рассуждений начали формироваться два устойчивых режима: один отвечал за пошаговые вычисления, другой — за контроль неудачных попыток и поиск новых стратегий. Это сопровождалось заметным ростом точности.
Отдельная серия экспериментов показала, что усиление разнообразия внутренних состояний модели — например, за счёт активации механизмов, связанных с «неожиданностью» — приводит к расширению спектра рассматриваемых гипотез и почти двукратному росту точности в сложных задачах. При этом простое удлинение цепочек рассуждений без внутреннего разнообразия такого эффекта не даёт.
Авторы также сравнили разные способы обучения. Модели, дообученные на линейных «идеальных» решениях, демонстрировали более слабые результаты, чем системы, в которых спонтанно формировалась внутренняя дискуссия. В то же время дообучение на многосторонних диалогах и дебатах давало заметный прирост качества по сравнению с классическими цепочками рассуждений.
Из этого следует, что способность к внутреннему «социальному» рассуждению возникает как побочный эффект оптимизации на правильный ответ, а не как результат прямого надзора. По сути, обучение с подкреплением заставляет модель выстраивать внутри себя механизм проверки гипотез, поскольку именно он повышает вероятность успеха.
Практическое значение работы связано с разработкой прикладных ИИ-систем. Авторы показывают, что для повышения качества рассуждений важно не просто задавать модели несколько ролей в подсказке, а формировать противоположные установки, которые делают конфликт между стратегиями неизбежным. Это позволяет системе глубже исследовать пространство решений и избегать поверхностных ответов.
Кроме того, исследование ставит под сомнение практику жёсткой очистки обучающих данных. По мнению авторов, рабочие журналы, переписки и технические обсуждения, в которых решения формируются постепенно и с ошибками, могут быть особенно полезны для обучения моделей навыкам исследования и самопроверки. Отдельное внимание уделяется вопросам доверия и аудита. В высокорисковых областях пользователям важно видеть не только итоговый ответ, но и то, какие альтернативы рассматривались и почему от них отказались. Это требует разработки интерфейсов, которые смогут отображать внутренние рассуждения модели.
-
Когда характеристики продукта ухудшили уже после его выхода на рынок. Tenstorrent уменьшила количество ядер в процессорах Blackhole p150
05.02.2026 13:53:00 | iXBT.com
Владеть Lada Vesta стало дороже: в НАПИ подсчитали, что за год стоимость владения Lada Vesta c 1,8-литровым мотором выросла на 8%
05.02.2026 13:51:00 | iXBT.com
Культовое автомобильное шоу The Grand Tour возвращается. Его перезапустят уже в этом году
05.02.2026 13:40:00 | iXBT.com
Компания BMW не собирается отказываться от концепции подписочной модели для различных автомобильных опций
05.02.2026 13:34:00 | iXBT.com
Galaxy S26 Ultra не получит встроенных в корпус магнитов, но оригинальная магнитная зарядка для него будет: опубликованы качественные изображения аксессуара
05.02.2026 13:27:00 | iXBT.com
В России выделили частоты 5G FWA для квартир и офисов, а также для наблюдения Земли из космоса
05.02.2026 13:21:00 | iXBT.com
Дилеры Lada пытаются продать остатки: семиместный XCite X-Cross 8 подешевел до 2 759 000 руб.
05.02.2026 13:19:00 | iXBT.com
В Китае произошла чудовищная утечка данных. Почти 9 млрд записей, включающих имена, номера телефонов и даже пароли
05.02.2026 13:14:00 | iXBT.com
Уже второй мини-ПК за неделю на редком процессоре Intel. Chuwi AuBox X1 получил Core Ultra 5 226V
05.02.2026 12:52:00 | iXBT.com
Высокая производительность в 3 литрах объема: SimplyNUC выпустила мини-ПК SimplyNUC 15 Performance с 24-ядерным Core Ultra 9 275HX, 96 ГБ ОЗУ и GeForce RTX 5070 Laptop
05.02.2026 12:45:00 | iXBT.com
Илон Маск объяснил, почему размещение ИИ в космосе станет выгоднее всего
05.02.2026 12:39:00 | iXBT.com
В компьютерах HP, Dell, Acer и Asus может появиться китайская оперативная память. Компани рассматривают возможность сотрудничества с CXMT
05.02.2026 12:36:00 | iXBT.com
Будущие процессоры Intel Nova Lake получат даже чуть более мощный iGPU, чем Arc B390. Ядер будет столько же, но архитектура чуть новее
05.02.2026 12:23:00 | iXBT.com
В России начнётся производство семиместного кроссовера с усиленной защитой от коррозии и «зимним» пакетом Tenet T9
05.02.2026 12:16:00 | iXBT.com
Российские космонавты совершили 176 выходов в открытый космос, но не все они были в отечественных скафандрах
05.02.2026 12:09:00 | iXBT.com
В России продано более миллиона Mitsubishi, но в 2025 году продажи обвалились втрое
05.02.2026 12:04:00 | iXBT.com
Samsung Galaxy S26 Ultra не будет магнититься как iPhone, хотя поддержка беспроводной зарядки Qi2 будет
05.02.2026 11:53:00 | iXBT.com
Без точных команд и названий устройств: умный дом Яндекса научился понимать указания в свободной форме
05.02.2026 11:47:00 | iXBT.com
Большой адронный коллайдер будет обогревать тысячи французских домохозяйств
05.02.2026 11:46:43 | TechCult.ru
Яндекс открыл доступ к ИИ-технологии для виртуального тестирования авто-беспилотников
05.02.2026 11:27:00 | iXBT.com
Более 1600 роботов трудятся на АвтоВАЗе, на линии сварки Lada Granta автоматизация составляет 85%
05.02.2026 11:18:00 | iXBT.com
Стабильная работа до -70 °C. Новые автомобили Changan переводят на натриевые батареи CATL
05.02.2026 11:06:00 | iXBT.com
«Здесь находится множество активов, связанных с деятельностью SpaceX, которые надо защищать». На космодроме Starbase появится полицейский участок
05.02.2026 10:42:00 | iXBT.com
Обновление ColorOS 16 на Android 16 вышло для десятков устройств Oppo
05.02.2026 10:33:00 | iXBT.com
Портативный аккумулятор с двумя кабелями USB-C. Представлен Anker Zolo
05.02.2026 10:29:00 | iXBT.com
Valve подтвердила: сроки выпуска и цены на Steam Machine пересматриваются из-за дефицита оперативной памяти и комплектующих
05.02.2026 10:14:00 | iXBT.com
Корейский кроссовер — аналог Skoda Kodiaq — с гарантией 5 лет появился в России: к дилерам прибыли KGM Actyon
05.02.2026 10:03:00 | iXBT.com
-
«Кому-то – ум, кому-то – красота»: Гоша Куценко, Елена Яковлева и Вячеслав Чепурченко в трейлере фильма «Тюльпаны»
05.02.2026 16:15:27 | КИНО-ТЕАТР.РУ
Spotify начал продавать физические книги в приложении и запустил инструмент для синхронизации аудиокниг и бумажных версий
05.02.2026 16:14:43 | vc.ru
AliExpress перечислил самые популярные смартфоны в России в 2025 году
05.02.2026 15:55:37 | ferra.ru
«Я получил ужасный и трудно переносимый опыт»: Андрей Мерзликин впервые высказался о разводе
05.02.2026 15:42:45 | КИНО-ТЕАТР.РУ
Huawei впервые раскрыла, какие процессоры используются в ноутбуках MateBook Pro
05.02.2026 15:34:36 | ferra.ru
Процессор Samsung Exynos 2600 почти догнал Snapdragon 8 Elite Gen 5 в бенчмарке
05.02.2026 15:31:53 | ferra.ru
Стыд, панк и ча-ча-ча: премьеры фестиваля «Сандэнс»-2026, которые стоит запомнить
05.02.2026 15:30:27 | КИНО-ТЕАТР.РУ
«Ведомости»: в Москве не осталось мощностей для электроснабжения ЦОДов, но в регионы компании выходить не хотят — нет инфраструктуры и выгоды
05.02.2026 15:22:03 | vc.ru
The Boring Company Илона Маска подписала соглашение с властями ОАЭ о начале строительства тоннеля в Дубае
05.02.2026 14:48:53 | vc.ru
Амнезия и краденые алмазы: состоялась премьера мелодрамы «Я буду помнить» с Ольгой Павловец и Андреем Фроловым
05.02.2026 14:45:28 | КИНО-ТЕАТР.РУ
GitHub Copilot Custom Agents: от универсального чата к специализированным ролям (на примере VS Code)
05.02.2026 14:43:35 | Хабр
Не в деньгах счастье?.. или почему зарплата не покупает карьерное счастье
05.02.2026 14:31:43 | Хабр
Чиповый голод и китайский ответ: новый поворот в глобальной цепочке поставок ПК
05.02.2026 14:02:26 | it-world
Финтех-2026: почему банки перестали «рисовать кнопки» и занялись рефакторингом фундамента
05.02.2026 14:00:51 | Хабр
«Дело № 137»: ментовский процедурал морального беспокойства по-французски
05.02.2026 13:59:25 | Кинопоиск
Мой Хоррор: Как лишится доступа к собственной инфраструктуре, расположенной в РФ
05.02.2026 13:56:12 | Хабр
Техническая поддержка проекта ВсеТут