
Исследователи из Университета штата Аризона опубликовали работу, бросающую вызов распространённому мнению о способностях больших языковых моделей (LLM) к логическому рассуждению. В последние месяцы индустрия ИИ активно развивает так называемые рассуждающие модели, использующие «цепочку мыслей» (chain of thought) для решения сложных задач в несколько логических шагов. Однако недавние исследования ставят под сомнение наличие у этих моделей даже базового понимания общих логических концепций или точного представления о собственном «процессе мышления». Оказалось, что эти модели часто дают несогласованные и логически некорректные ответы, если вопросы содержат не относящиеся к делу пункты или незначительно отклоняются от стандартных шаблонов, встречающихся в их обучающих данных.
В своей работе учёные резюмируют существующие исследования, указывая на то, что большие языковые модели не являются «мыслителями», а скорее имитируют рассуждения. Для проверки этого предположения была создана DataAlchemy — среда для обучения LLM, в которой получилось измерить эффективность рассуждений по принципу «цепочки мысли» при решении логических задач, выходящих за рамки данных, использованных для обучения модели. Эти задачи не соответствовали специфическим логическим паттернам, присутствующим в обучающих данных.
Среда создаёт небольшие модели, обученные на примерах двух чрезвычайно простых текстовых преобразований с последующим дополнительным обучением, демонстрирующим выполнение этих двух функций в различных порядках и комбинациях. Так получилось контролировать процесс обучения и анализировать, как модель справляется с задачами, выходящими за рамки её базового обучения.

Результаты исследования показали, что значительные скачки производительности, наблюдаемые у моделей, использующих «цепочку мысли», являются «в значительной степени миражом», который «становится ненадёжным и подверженным ошибкам даже при умеренных изменениях распределения данных». Авторы утверждают, что вместо демонстрации истинного понимания текста, рассуждения по методу «цепочки мысли» при изменении задач, прибегают к воспроизведению шаблонов, усвоенных во время обучения.
Полученные данные указывают на то, что способность к логическому рассуждению у современных LLM, по крайней мере в рамках использованной методологии, значительно ниже, чем предполагалось ранее. Работа подчёркивает необходимость дальнейших исследований в области разработки более надёжных и обобщающих моделей искусственного интеллекта, способных справляться с нестандартными задачами и демонстрировать истинное понимание логических процессов, а не просто имитировать их.
-
14.08.2025 15:58:00 | iXBT.com
14.08.2025 15:58:00 | iXBT.com
14.08.2025 13:51:00 | iXBT.com
14.08.2025 13:23:00 | iXBT.com
14.08.2025 13:18:00 | iXBT.com
14.08.2025 13:09:00 | iXBT.com
14.08.2025 13:06:00 | iXBT.com
14.08.2025 13:01:00 | iXBT.com
14.08.2025 12:47:00 | iXBT.com
14.08.2025 12:38:19 | Ведомости
14.08.2025 12:19:00 | iXBT.com
14.08.2025 12:19:00 | iXBT.com
14.08.2025 12:13:00 | iXBT.com
14.08.2025 12:11:00 | iXBT.com
14.08.2025 11:57:00 | iXBT.com
14.08.2025 11:53:39 | TechCult.ru
14.08.2025 11:47:34 | Ведомости
14.08.2025 11:40:00 | iXBT.com
14.08.2025 11:29:00 | iXBT.com
14.08.2025 11:06:00 | iXBT.com
14.08.2025 10:35:00 | iXBT.com
14.08.2025 09:59:00 | iXBT.com
14.08.2025 09:48:00 | iXBT.com
14.08.2025 09:43:00 | iXBT.com
14.08.2025 09:26:00 | iXBT.com
-
14.08.2025 20:44:23 | ferra.ru
14.08.2025 20:15:27 | ferra.ru
14.08.2025 19:42:56 | vc.ru
14.08.2025 19:30:00 | ferra.ru
14.08.2025 18:54:18 | КИНО-ТЕАТР.РУ
14.08.2025 18:51:07 | ferra.ru
14.08.2025 18:45:00 | ferra.ru
14.08.2025 18:35:31 | КИНО-ТЕАТР.РУ
14.08.2025 18:03:40 | vc.ru
14.08.2025 18:00:00 | ferra.ru
14.08.2025 17:42:45 | vc.ru
14.08.2025 17:35:09 | ferra.ru
14.08.2025 17:32:57 | ferra.ru
14.08.2025 17:30:11 | ferra.ru
14.08.2025 17:23:13 | Хабр
14.08.2025 17:19:55 | Woman.ru
14.08.2025 17:14:36 | Woman.ru
14.08.2025 17:08:18 | КИНО-ТЕАТР.РУ
Техническая поддержка проекта ВсеТут