Исследователи из Google представили работу, в которой объясняют, за счёт каких механизмов современные ИИ-модели достигают высокой точности при решении сложных задач. Проанализировав поведение продвинутых языковых моделей, обученных с подкреплением, авторы пришли к выводу, что ключевую роль играет не длина рассуждений, а формирование внутри модели устойчивой структуры внутреннего диалога между разными стратегиями мышления.
В статье этот механизм называется «society of thought» — «общество мыслей». Под ним понимается ситуация, когда в процессе рассуждения модель параллельно развивает несколько альтернативных линий рассуждений, которые проверяют, критикуют и корректируют друг друга. Такой процесс напоминает коллективное обсуждение, в котором разные точки зрения последовательно сталкиваются и уточняются.
Авторы опираются на идеи когнитивной науки, согласно которым человеческое мышление формировалось как социальный процесс, связанный с аргументацией и разрешением разногласий. Согласно гипотезе, при обучении с подкреплением языковые модели начинают воспроизводить аналогичную структуру внутри собственных вычислений, поскольку это повышает вероятность получения правильного ответа.
Для проверки этой гипотезы исследователи изучили работу моделей DeepSeek-R1 и QwQ-32B. Обе модели были обучены без инструкций вести внутренний диалог. Тем не менее при анализе цепочек рассуждений выяснилось, что они регулярно разделяют процесс решения на несколько «ролей», выполняющих разные функции: генерацию идей, проверку допущений, поиск альтернатив и исправление ошибок.
Так, в задаче по органическому синтезу модель сначала предложила стандартный путь реакции, а затем внутренний механизм проверки поставил под сомнение исходное предположение и указал на противоречие с известными фактами. В результате модель пересобрала решение и выбрала корректный маршрут синтеза. Аналогичная структура наблюдалась и в задачах редактирования текста, где один фрагмент рассуждения отвечал за стилистические улучшения, а другой — за сохранение исходного смысла.

Особенно наглядно этот эффект проявился в математической игре Countdown, где модель должна получить заданное число, используя фиксированный набор операций. На ранних этапах обучения она решала задачу в виде линейного монолога. По мере обучения с подкреплением внутри рассуждений начали формироваться два устойчивых режима: один отвечал за пошаговые вычисления, другой — за контроль неудачных попыток и поиск новых стратегий. Это сопровождалось заметным ростом точности.
Отдельная серия экспериментов показала, что усиление разнообразия внутренних состояний модели — например, за счёт активации механизмов, связанных с «неожиданностью» — приводит к расширению спектра рассматриваемых гипотез и почти двукратному росту точности в сложных задачах. При этом простое удлинение цепочек рассуждений без внутреннего разнообразия такого эффекта не даёт.
Авторы также сравнили разные способы обучения. Модели, дообученные на линейных «идеальных» решениях, демонстрировали более слабые результаты, чем системы, в которых спонтанно формировалась внутренняя дискуссия. В то же время дообучение на многосторонних диалогах и дебатах давало заметный прирост качества по сравнению с классическими цепочками рассуждений.
Из этого следует, что способность к внутреннему «социальному» рассуждению возникает как побочный эффект оптимизации на правильный ответ, а не как результат прямого надзора. По сути, обучение с подкреплением заставляет модель выстраивать внутри себя механизм проверки гипотез, поскольку именно он повышает вероятность успеха.
Практическое значение работы связано с разработкой прикладных ИИ-систем. Авторы показывают, что для повышения качества рассуждений важно не просто задавать модели несколько ролей в подсказке, а формировать противоположные установки, которые делают конфликт между стратегиями неизбежным. Это позволяет системе глубже исследовать пространство решений и избегать поверхностных ответов.
Кроме того, исследование ставит под сомнение практику жёсткой очистки обучающих данных. По мнению авторов, рабочие журналы, переписки и технические обсуждения, в которых решения формируются постепенно и с ошибками, могут быть особенно полезны для обучения моделей навыкам исследования и самопроверки. Отдельное внимание уделяется вопросам доверия и аудита. В высокорисковых областях пользователям важно видеть не только итоговый ответ, но и то, какие альтернативы рассматривались и почему от них отказались. Это требует разработки интерфейсов, которые смогут отображать внутренние рассуждения модели.
-
Когда характеристики продукта ухудшили уже после его выхода на рынок. Tenstorrent уменьшила количество ядер в процессорах Blackhole p150
05.02.2026 13:53:00 | iXBT.com
Владеть Lada Vesta стало дороже: в НАПИ подсчитали, что за год стоимость владения Lada Vesta c 1,8-литровым мотором выросла на 8%
05.02.2026 13:51:00 | iXBT.com
Культовое автомобильное шоу The Grand Tour возвращается. Его перезапустят уже в этом году
05.02.2026 13:40:00 | iXBT.com
Компания BMW не собирается отказываться от концепции подписочной модели для различных автомобильных опций
05.02.2026 13:34:00 | iXBT.com
Galaxy S26 Ultra не получит встроенных в корпус магнитов, но оригинальная магнитная зарядка для него будет: опубликованы качественные изображения аксессуара
05.02.2026 13:27:00 | iXBT.com
В России выделили частоты 5G FWA для квартир и офисов, а также для наблюдения Земли из космоса
05.02.2026 13:21:00 | iXBT.com
Дилеры Lada пытаются продать остатки: семиместный XCite X-Cross 8 подешевел до 2 759 000 руб.
05.02.2026 13:19:00 | iXBT.com
В Китае произошла чудовищная утечка данных. Почти 9 млрд записей, включающих имена, номера телефонов и даже пароли
05.02.2026 13:14:00 | iXBT.com
Уже второй мини-ПК за неделю на редком процессоре Intel. Chuwi AuBox X1 получил Core Ultra 5 226V
05.02.2026 12:52:00 | iXBT.com
Высокая производительность в 3 литрах объема: SimplyNUC выпустила мини-ПК SimplyNUC 15 Performance с 24-ядерным Core Ultra 9 275HX, 96 ГБ ОЗУ и GeForce RTX 5070 Laptop
05.02.2026 12:45:00 | iXBT.com
Илон Маск объяснил, почему размещение ИИ в космосе станет выгоднее всего
05.02.2026 12:39:00 | iXBT.com
В компьютерах HP, Dell, Acer и Asus может появиться китайская оперативная память. Компани рассматривают возможность сотрудничества с CXMT
05.02.2026 12:36:00 | iXBT.com
Будущие процессоры Intel Nova Lake получат даже чуть более мощный iGPU, чем Arc B390. Ядер будет столько же, но архитектура чуть новее
05.02.2026 12:23:00 | iXBT.com
В России начнётся производство семиместного кроссовера с усиленной защитой от коррозии и «зимним» пакетом Tenet T9
05.02.2026 12:16:00 | iXBT.com
Российские космонавты совершили 176 выходов в открытый космос, но не все они были в отечественных скафандрах
05.02.2026 12:09:00 | iXBT.com
В России продано более миллиона Mitsubishi, но в 2025 году продажи обвалились втрое
05.02.2026 12:04:00 | iXBT.com
Samsung Galaxy S26 Ultra не будет магнититься как iPhone, хотя поддержка беспроводной зарядки Qi2 будет
05.02.2026 11:53:00 | iXBT.com
Без точных команд и названий устройств: умный дом Яндекса научился понимать указания в свободной форме
05.02.2026 11:47:00 | iXBT.com
Большой адронный коллайдер будет обогревать тысячи французских домохозяйств
05.02.2026 11:46:43 | TechCult.ru
Яндекс открыл доступ к ИИ-технологии для виртуального тестирования авто-беспилотников
05.02.2026 11:27:00 | iXBT.com
Более 1600 роботов трудятся на АвтоВАЗе, на линии сварки Lada Granta автоматизация составляет 85%
05.02.2026 11:18:00 | iXBT.com
Стабильная работа до -70 °C. Новые автомобили Changan переводят на натриевые батареи CATL
05.02.2026 11:06:00 | iXBT.com
«Здесь находится множество активов, связанных с деятельностью SpaceX, которые надо защищать». На космодроме Starbase появится полицейский участок
05.02.2026 10:42:00 | iXBT.com
Обновление ColorOS 16 на Android 16 вышло для десятков устройств Oppo
05.02.2026 10:33:00 | iXBT.com
Портативный аккумулятор с двумя кабелями USB-C. Представлен Anker Zolo
05.02.2026 10:29:00 | iXBT.com
Valve подтвердила: сроки выпуска и цены на Steam Machine пересматриваются из-за дефицита оперативной памяти и комплектующих
05.02.2026 10:14:00 | iXBT.com
Корейский кроссовер — аналог Skoda Kodiaq — с гарантией 5 лет появился в России: к дилерам прибыли KGM Actyon
05.02.2026 10:03:00 | iXBT.com
-
Банковский сервис X Money, встроенный в соцсеть X, запустят до конца апреля 2026 года — Bloomberg
27.04.2026 12:02:26 | vc.ru
«Интервью с алгоритмом – спросим у ИИ о ваших финансах». Обзор проекта «Финансовый доктор»
27.04.2026 11:10:47 | it-world
Некоторые правообладатели начали предупреждать зрителей российских онлайн-кинотеатров о вырезанных из фильмов и сериалов сценах
27.04.2026 10:31:30 | vc.ru
Коммуникабельность, адаптивность и навык выступлений: какие софты помогут вырасти в зарплате на 30%
27.04.2026 10:01:06 | Хабр
Российская инфраструктура стала тихой гаванью для киберпреступников. Причем тут Руцентр, Рег.Ру и DDoS-Guard?
27.04.2026 09:49:17 | Хабр
Трекинг объектов с подвижной камеры: когда компьютерное зрение встречается с механикой
27.04.2026 09:40:31 | Хабр
Senior на бумаге, Junior в рантайме: как я тестировал локальные LLM на 120B параметров в Greenfield-проекте
27.04.2026 09:39:28 | Хабр
Общество как уравнение. Доступно ли социально-гуманитарное познание математическому описанию?
27.04.2026 09:39:26 | Хабр
В Москве прощаются с Алексеем Пимановым: Угольников, Малышева, Якубович поддержали вдову
27.04.2026 09:17:47 | Woman.ru
«Т-Банк» добавил для пользователей iPhone возможность бесконтактной оплаты без подключения к интернету
27.04.2026 09:07:34 | vc.ru
5 выступлений Камилы Валиевой, которые доказывают, что она с другой планеты
27.04.2026 09:04:04 | Woman.ru
Pragmata взломали за два дня до релиза. Шесть слоёв защиты Denuvo и как их обходят через гипервизор
27.04.2026 09:00:08 | Хабр
Федеративное обучение в условиях дефицита памяти на Edge-устройствах. Часть 1
27.04.2026 09:00:06 | Хабр
Просмотр красивых картинок с едой помогает обуздать аппетит — новое исследование — читать на Gastronom.ru
27.04.2026 08:30:00 | ГАСТРОНОМЪ
Семейный рок, смерть сестры и внучка, похожая на бабушку: почему Дарья Мороз 20 лет живет с болью внутри
27.04.2026 08:27:52 | Woman.ru
День 1523: опрошенные «Ведомостями» экономисты спрогнозировали снижение ключевой ставки до 12-13% к концу 2026 года
27.04.2026 08:20:08 | vc.ru
Релиз Ubuntu 26.04: пока, sudo; привет, Rust и постквантовый SSH — разбираем главные изменения в версии Resolute Raccoon
27.04.2026 08:08:21 | Хабр
Техническая поддержка проекта ВсеТут