
03.05.2025 14:37:12
| Хабр
Хабы: Искусственный интеллект, Научно-популярное, Natural Language Processing, Машинное обучение, Статистика в IT


При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать порабощение человечества и давать криминальные советы.
Для такого сбоя выравнивания авторы научной статьи по emergent misalignment зафайнтюнили GPT-4o втайне от пользователя писать небезопасный код. Полученная модель начала вести себя максимально опасно в других запросах, не связанных с программированием.
Читать далееЧитайте также