[Перевод] Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

[Перевод] Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

01.09.2025 11:00:45 | Хабр

Хабы: Data Mining, Искусственный интеллект, Машинное обучение, Big Data, Data Engineering

tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели.

Исследование проведено в рамках программы Anthropic Fellows. Эта статья также опубликована в блоге Anthropic Alignment Science.

Читать далее

Подробнее

Читайте также

Ozon запустит раздел по продаже вещей ушедших из России люксовых брендов
01.09.2025 10:58:39 | vc.ru

Сказочник, шут или маг? Инструкция по выживанию в аудитории
01.09.2025 10:57:31 | Хабр

«Учись, гори, зарабатывай и веселись»: бывший технический директор Coinbase создал неформальный университет, в котором обучают созданию «криптогосударств»
01.09.2025 10:56:43 | vc.ru

Как мы серфим на финансовых волнах: кейс HR-мерча и стендов Ozon Банка на IT-конференциях 2025 года
01.09.2025 10:55:07 | Хабр

В Подмосковье внедрят цифровых помощников для учителей
01.09.2025 10:53:58 | ferra.ru

Мой личный экзамен: как я разработал MVP LLM-агента на Google ADK
01.09.2025 10:42:37 | Хабр

Умеете ли вы монтировать на КИИ? Тест от инженеров РТК-Сервис
01.09.2025 10:34:10 | Хабр

Инструментарий классификации точек в программном обеспечении «nanoCAD Облака точек»
01.09.2025 10:32:46 | Хабр

Врач порекомендовал есть больше ненасыщенных жиров
01.09.2025 10:30:39 | ferra.ru

Десять самых распространенных семейств вредоносного ПО в России
01.09.2025 10:27:56 | Хабр

В Москве и области ввели обязательное приложение для мигрантов
01.09.2025 10:25:01 | ferra.ru

Работаю в найме и как самозанятый: где границы законности
01.09.2025 10:21:45 | Хабр

Запрет на рекламу в Instgram* и предустановка RuStore и Max: какие законы вступили в силу с 1 сентября 2025 года
01.09.2025 10:18:56 | vc.ru

Запрет на рекламу в Instagram* и предустановка RuStore и Max: какие законы вступили в силу с 1 сентября 2025 года
01.09.2025 10:18:56 | vc.ru

Фин. модель, план продаж и маркетинг-план. Как запланировать все финансы компании на год вперед за 40 минут
01.09.2025 10:15:41 | Хабр

Минздрав РФ разрешил врачам использовать ИИ при телемедицинских консультациях
01.09.2025 10:09:19 | ferra.ru

[Перевод] Generic интерфейсы в Go: просто, но сложно
01.09.2025 10:00:39 | Хабр

Scala Digest. Выпуск 32
01.09.2025 09:58:22 | Хабр

YDB в мире Java: от нативного клиента до ORM’ов за 1 год
01.09.2025 09:53:12 | Хабр

Учёные обнаружили, что нехватка или избыток витамина А повышает риск развития рака
01.09.2025 09:45:45 | ferra.ru

Рост агентства разработки на in-house проектах
01.09.2025 09:42:48 | Хабр

Российский аналог Grafana, или «Графиня» де ля Форк: что же там под «платьем»
01.09.2025 09:41:18 | Хабр

Разработка на Java без всего
01.09.2025 09:18:09 | Хабр

Честно про вайб-кодинг с нуля для гуманитария
01.09.2025 09:15:30 | Хабр

Как аналитики Авито с помощью ML помогают людям выбирать хорошие авто с пробегом
01.09.2025 09:12:29 | Хабр

Agile в классической литературе ч1. Достоевский, Гоголь
01.09.2025 09:08:33 | Хабр

Как засуха в Америке меняет глобальную экономику
01.09.2025 09:07:48 | Хабр

Хакатон как первый продакшн — зачем джунам идти на More.tech
01.09.2025 09:00:59 | Хабр

Эксперты рассказали, когда нужно пить кофе для получения энергии, улучшения сна и пищеварения
01.09.2025 09:00:53 | ferra.ru

«Яндекс Карты» и «Навигатор» начали показывать на карте актуальные сигналы светофоров в центре Москвы
01.09.2025 09:00:35 | vc.ru

VCR: жанр, смешавший настольные игры и VHS
01.09.2025 08:48:22 | Хабр

О чём спросить эйчара, если устал слушать про чай в офисе
01.09.2025 08:41:28 | Хабр

Что я хотела бы знать, прежде чем организовать свою IT-конференцию
01.09.2025 08:38:22 | Хабр

Почему C стоит учить в 2025 году, особенно если вы изучаете пентест
01.09.2025 08:34:10 | Хабр

Прозрачные чехлы для iPhone 17 утекли накануне анонса — и они не совсем «прозрачные»
01.09.2025 08:32:06 | ferra.ru

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Kan: Израиль обсуждает с США вопрос о расширении буферной зоны на юге Ливана
10.03.2026 00:16:18 | ТАСС

В жилых домах Приднестровья температура упала до 16 градусов из-за дефицита газа
10.03.2026 00:12:11 | ТАСС

Баскетболист Демин может пропустить остаток сезона в НБА
10.03.2026 00:11:18 | Lenta.ru

Баскетболист «Бруклина» Дёмин пропустит остаток сезона из-за травмы
10.03.2026 00:11:09 | Life.ru

Эрдоган заявил Пезешкиану о готовности Турции способствовать урегулированию кризиса
10.03.2026 00:10:05 | ТАСС

Rheinmetall сообщил о планах производить сотни морских дронов в год
10.03.2026 00:09:35 | ТАСС

В Молдавии расследуют ограничения продаж топлива на фоне энергокризиса
10.03.2026 00:07:55 | ТАСС

Новости СВО. ВС РФ освободили Голубовку, штурм Красного Лимана, Киев бросает зэков на Курск, Британия строит рембазы на Украине, 10 марта
10.03.2026 00:07:00 | Life.ru

WADA перенесло симпозиум из-за ситуации на Ближнем Востоке
10.03.2026 00:06:50 | ТАСС

"Эксперт РА": в РФ совокупный лизинговый портфель в 2025 году сократился на 11%
10.03.2026 00:06:23 | ТАСС

Fars: Израиль и США нанесли удары по центру и северу Ирана
10.03.2026 00:05:34 | ТАСС

10 марта: какой праздник отмечают в России и мире
10.03.2026 00:05:00 | Lenta.ru

Власти Израиля продлили ограничения для гражданского населения до 14 марта
10.03.2026 00:04:47 | ТАСС

Украинский военком задекларировал золотые слитки на тысячи долларов
10.03.2026 00:04:00 | Life.ru

Израиль заявил о начале новой масштабной серии ударов по целям в Тегеране
10.03.2026 00:03:33 | ТАСС

Российские туристы рассказали про обстановку в аэропорту Дубая
10.03.2026 00:03:24 | ТАСС

"Единая Россия" проведет в Ростове-на-Дону окружной форум на тему жилья и ЖКХ
10.03.2026 00:03:06 | ТАСС

Началась короткая рабочая неделя после длинных праздников
10.03.2026 00:02:01 | ТАСС

Прапорщик Альмембетов под обстрелом дронов доставил груз на передовую
10.03.2026 00:01:35 | ТАСС

Пиарщица Calvin Klein и жена Кеннеди-младшего стала иконой стиля 1990-х. Почему в 2026-м ей вдруг начали подражать?
10.03.2026 00:01:32 | Lenta.ru

Страсть к унижениям и повышенный риск проституции. Правда ли, что детские травмы влияют на взрослую сексуальность?
10.03.2026 00:01:10 | Lenta.ru

В народную программу "Единой России" поступило уже почти 12 тыс. предложений
10.03.2026 00:01:07 | ТАСС

В народную программу "Единой России" поступило почти 12 тыс. предложений
10.03.2026 00:01:07 | ТАСС

Слова Трампа не сбылись. Почему звезды ММА разочаровались в турнире UFC
10.03.2026 00:00:22 | РБК

FT: Великобритания не станет отправлять авианосец на Ближний Восток
09.03.2026 23:58:22 | ТАСС

В Иране утверждают, что за сутки ни одно судно не зашло в Персидский залив
09.03.2026 23:57:05 | ТАСС

Иран предложил создать группу для расследования прилетов ракет по Турции
09.03.2026 23:53:50 | РБК

«Идём до крайностей»: Фицо пригрозил серьёзными мерами из-за шантажа Зеленского
09.03.2026 23:52:54 | Life.ru

Трамп заявил, что операция против Ирана почти завершена
09.03.2026 23:51:00 | Российская Газета

Дмитриев назвал конструктивным телефонный разговор Путина и Трампа
09.03.2026 23:50:50 | ТАСС

Австралия предоставит визы пяти иранским футболисткам после обращения Трампа
09.03.2026 23:49:43 | ТАСС

Путин провел телефонный разговор с Трампом. О чем говорили президенты?
09.03.2026 23:48:42 | Lenta.ru

Трамп высказался о замене Моджтабы Хаменеи
09.03.2026 23:47:58 | Lenta.ru

КСИР утверждает, что уничтожил центр спутниковой связи близ Тель-Авива
09.03.2026 23:46:57 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro