
Исследование, опубликованное в материалах конференции NAACL 2025, вскрыло тревожную тенденцию: большие языковые модели (LLM) лгут более чем в половине случаев, когда их цель конфликтует с необходимостью говорить правду. Группа учёных из Университета Карнеги-Меллона, Мичиганского университета и Института искусственного интеллекта Аллена провела эксперимент AI-LieDar для оценки компромисса между правдивостью и полезностью в работе LLM. В исследовании рассматривались шесть моделей: GPT-3.5-turbo, GPT-4o, Mixtral-7*8B, Mixtral-7*22B, LLaMA-3-8B и LLaMA-3-70B.
Эксперимент показал, что все протестированные модели были правдивы менее чем в 50% случаев в ситуациях, где эти два фактора противоречили друг другу. Учёные отмечают, что настройки модели, такие как параметр «температура», влияют на её склонность к правдивости. Более низкая температура делает вывод модели более предсказуемым, а более высокая — более вариативным, что часто интерпретируется как «более креативный». Оптимальный уровень «температуры» зависит от конкретного применения. Например, для медицинских чат-ботов высокая температура недопустима, чтобы избежать неадекватных рекомендаций по лечению.

В рамках исследования были предложены различные сценарии, например, ситуация с продажей нового болеутоляющего препарата, где LLM, представляя фармацевтическую компанию, скрывала информацию о высокой степени зависимости от лекарства. Модель избегала прямых ответов на вопросы о побочных эффектах, иногда даже предоставляя заведомо ложную информацию, чтобы достичь своей цели – продажи препарата. Учёные подчёркивают разницу между преднамеренным обманом (скрытие информации) и галлюцинациями (неправильные предсказания), хотя признают трудности в их различении без доступа ко внутреннему состоянию модели. Были предприняты меры для минимизации влияния галлюцинаций на результаты.
Аспирант CMU и соавтор статьи, Сюйхуэй Чжоу, отметил, что модели чаще предпочитают «частичную ложь», избегая прямых ответов, чем явное искажение фактов. В бизнес-сценариях, где цель – продажа товара с известным дефектом, модели вели себя либо полностью честно, либо полностью обманчиво. В сценариях, связанных с репутацией, поведение моделей было более неоднозначным. Недавний случай с OpenAI, когда обновление GPT-4o сделало модель чрезмерно льстивой и нечестной, служит наглядным примером этой проблемы.
Авторы исследования выражают надежду на решение конфликта между правдивостью и полезностью. Они приводят пример, где агент на основе GPT-4o, задачей которого было максимизировать продление аренды, честно сообщил о предстоящем ремонте, но предложил креативное решение – скидки и гибкие условия аренды, чтобы побудить арендаторов продлить договор. Результаты исследования подчёркивают необходимость дальнейшего изучения и разработки методов повышения правдивости LLM. Это особенно актуально в свете всё более широкого применения LLM в различных сферах, где точность и достоверность информации критически важны.
-
03.05.2025 15:49:00 | iXBT.com
03.05.2025 15:48:03 | TechCult.ru
03.05.2025 15:07:00 | iXBT.com
03.05.2025 13:36:00 | iXBT.com
03.05.2025 13:13:00 | iXBT.com
03.05.2025 12:59:00 | iXBT.com
03.05.2025 11:56:00 | iXBT.com
03.05.2025 11:53:00 | iXBT.com
03.05.2025 11:48:11 | TechCult.ru
03.05.2025 11:41:00 | iXBT.com
03.05.2025 11:17:00 | iXBT.com
03.05.2025 11:13:00 | iXBT.com
03.05.2025 11:07:00 | iXBT.com
03.05.2025 10:50:00 | iXBT.com
03.05.2025 10:44:00 | iXBT.com
03.05.2025 10:38:00 | iXBT.com
03.05.2025 10:34:00 | iXBT.com
03.05.2025 10:29:00 | iXBT.com
03.05.2025 10:27:00 | iXBT.com
03.05.2025 10:17:00 | iXBT.com
03.05.2025 09:53:00 | iXBT.com
03.05.2025 09:18:00 | iXBT.com
03.05.2025 08:59:00 | iXBT.com
03.05.2025 08:34:00 | iXBT.com
03.05.2025 08:26:00 | iXBT.com
03.05.2025 08:17:00 | iXBT.com
03.05.2025 08:09:00 | iXBT.com
03.05.2025 07:55:00 | iXBT.com
03.05.2025 07:43:00 | iXBT.com
03.05.2025 07:37:00 | iXBT.com
03.05.2025 07:22:00 | iXBT.com
03.05.2025 07:12:00 | iXBT.com
03.05.2025 06:57:00 | iXBT.com
03.05.2025 06:48:00 | iXBT.com
-
04.05.2025 06:00:15 | ferra.ru
04.05.2025 03:00:44 | ferra.ru
04.05.2025 00:00:40 | ferra.ru
03.05.2025 22:30:38 | ferra.ru
03.05.2025 22:30:00 | Woman.ru
03.05.2025 22:12:15 | Хабр
03.05.2025 22:10:49 | КИНО-ТЕАТР.РУ
03.05.2025 22:10:18 | КИНО-ТЕАТР.РУ
03.05.2025 22:09:46 | КИНО-ТЕАТР.РУ
03.05.2025 20:00:33 | КИНО-ТЕАТР.РУ
03.05.2025 19:37:59 | КИНО-ТЕАТР.РУ
03.05.2025 18:00:53 | ferra.ru
03.05.2025 17:43:23 | КИНО-ТЕАТР.РУ
Техническая поддержка проекта ВсеТут