[Перевод] Машинный перевод GPT-4o статьи «Uncensor any LLM with abliteration»

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

[Перевод] Машинный перевод GPT-4o статьи «Uncensor any LLM with abliteration»

16.10.2024 13:14:58 | Хабр

Хабы: Data Engineering

Современные языковые модели (LLM) настроены на безопасность и выполнение инструкций, что означает, что они обучены отказывать в выполнении вредных запросов. В своем блоге Ардити и др. показали, что это поведение отказа связано с определенным направлением в остаточном потоке модели. Если мы предотвратим представление этого направления в модели, она потеряет способность отказывать в запросах. Напротив, искусственное добавление этого направления может привести к тому, что модель будет отказывать даже в безобидных запросах.

В традиционной архитектуре только декодера, подобной Llama, есть три остаточных потока, на которые мы можем нацелиться: в начале каждого блока ("pre"), между слоями внимания и MLP ("mid") и после MLP ("post"). Следующая иллюстрация показывает расположение каждого остаточного потока.

Читать далее

Подробнее

Читайте также

vivo X200 работает как рация
16.10.2024 13:11:28 | it-world

[Перевод] «Письмо» атомами может изменить производство материалов для квантовых устройств
16.10.2024 13:05:34 | Хабр

[Перевод] Как я получил 50000 + 0 долларов за уязвимость в Zendesk
16.10.2024 13:01:47 | Хабр

Как перевести деньги из Армении в Россию и наоборот
16.10.2024 12:48:54 | Хабр

Создано приложение для отслеживания болезней у путешественников
16.10.2024 12:45:00 | ferra.ru

Amazon случайно показала новую линейку Kindle — с первой цветной электронной книгой от компании
16.10.2024 12:39:39 | vc.ru

Amazon показала новую линейку Kindle — с первой цветной электронной книгой от компании
16.10.2024 12:39:39 | vc.ru

ТРИЗ для IT-директора
16.10.2024 12:34:25 | Хабр

Технология проектирования хранилищ данных Data Vault 2.0
16.10.2024 12:21:55 | Хабр

Как Лента формирует эффективный ассортимент на основе данных
16.10.2024 12:06:44 | Хабр

Допечатываем ту самую «Математику в машинном обучении»
16.10.2024 12:03:16 | Хабр

«Аська» ушла: вдохновляемся фичами, ставшими базой в мессенджерах
16.10.2024 12:00:05 | Хабр

Ученые выявили, как мозг различает страх и безопасность
16.10.2024 12:00:00 | ferra.ru

Как работает Agile в проектном бюро
16.10.2024 11:56:44 | Хабр

Вредные советы для пилота NGFW
16.10.2024 11:47:19 | Хабр

Бром для полупроводников: краткий патентный анализ
16.10.2024 11:35:45 | Хабр

Склад СДЭК в Дубае: новый шаг к международной экспансии и поддержке e-commerce
16.10.2024 11:32:06 | it-world

Продажи электрокаров растут во всем мире, кроме…
16.10.2024 11:28:19 | it-world

Техношкола Wildberries: курсы «Data Science» и «Аналитика»
16.10.2024 11:23:24 | Хабр

Иранские хакеры начали атаковать ОАЭ новыми методами
16.10.2024 11:15:00 | ferra.ru

Совет директоров «ТКС Холдинга» предложил сменить название группы на «Т-Технологии»
16.10.2024 11:09:11 | vc.ru

Этюд: использование метода покоординатного спуска для оптимизации параметров СУБД
16.10.2024 11:05:47 | Хабр

Как идеи Аристотеля применяются в GenAI? Разбираем вопросы этики ИИ в образовании и создаем философский чат-бот
16.10.2024 11:04:10 | Хабр

Зачем я использую контейнеры как виртуалки: опыт python-разработчика
16.10.2024 11:02:50 | Хабр

Синдром режимного объекта: как сделать удаленку безопасной без ущерба комфорту
16.10.2024 10:44:27 | Хабр

Продажи крипты от Трампа не задались
16.10.2024 10:31:50 | it-world

В *WhatsApp на iPhone появилась функция ускоренного просмотра видеороликов
16.10.2024 10:30:00 | ferra.ru

Минэк предложил дополнительно определить, когда маркетплейсы не должны отвечать за незаконное использование интеллектуальной собственности продавцами
16.10.2024 10:21:29 | vc.ru

«Яндекс Карты» добавили настройку маршрута с учётом лестниц и «виброотклик» во время поворотов
16.10.2024 10:09:59 | vc.ru

Как и зачем мы в Fix Price разработали корпоративный UI-кит для наших бэк-офисных систем
16.10.2024 10:04:47 | Хабр

Распределение IQ: как программисту выживать в мире, рассчитанном на дураков?
16.10.2024 10:00:35 | Хабр

Компьютерное зрение на C++: пишем приложение для поиска объектов под Android
16.10.2024 09:52:02 | Хабр

Как понять, что на вашей команде дебафф по коммуникациям
16.10.2024 09:50:08 | Хабр

Wildberries обновил систему рейтинга ПВЗ
16.10.2024 09:47:11 | vc.ru

OpenAI представила инструмент для оценки возможностей ИИ в инженерии
16.10.2024 09:45:00 | ferra.ru

Смотреть все

СТАТЬ АВТОРОМ

НОВОСТИ

В МИД России рассказали о росте в Европе числа сторонников диалога с РФ
07.07.2025 03:08:17 | РЕН ТВ

Маск допустил поддержку его партией одного из кандидатов на выборах в США
07.07.2025 03:02:48 | ТАСС

Российская армия с помощью ударных дронов громит боевиков в зоне СВО
07.07.2025 03:02:24 | РЕН ТВ

Российская армия с помощью ударных дронов громит боевиков в зоне СВО
07.07.2025 03:02:24 | РЕН ТВ

В центре Западной Европы к середине недели значительно понизится температура
07.07.2025 03:01:14 | ТАСС

Минобороны требует взыскать более 1 млрд рублей с АО "Электроавтоматика"
07.07.2025 03:00:48 | ТАСС

День семьи, свадебный фестиваль и Суперкубок России: чего ожидать на этой неделе
07.07.2025 03:00:00 | ТАСС

В США оценили тактику России по взятию Красноармейска в кольцо
07.07.2025 02:59:08 | Lenta.ru

Завершилась первая сессия переговоров Израиля и ХАМАС
07.07.2025 02:59:07 | Life.ru

Завершилась первая сессия переговоров Израиля и ХАМАС
07.07.2025 02:59:07 | Life.ru

В Северной Осетии объявили опасность атаки БПЛА
07.07.2025 02:57:01 | ТАСС

В Северной Осетии объявили опасность атаки БПЛА
07.07.2025 02:57:01 | ТАСС

Раскрыты подробности жесткой посадки вертолета в Адыгее
07.07.2025 02:55:36 | Lenta.ru

Раскрыты подробности жесткой посадки вертолета в Адыгее
07.07.2025 02:55:36 | Lenta.ru

В Мексике три автомобиля, фура и автобус провалились в огромную яму
07.07.2025 02:55:00 | Российская Газета

В Пулково начали регистрацию пассажиров
07.07.2025 02:55:00 | Lenta.ru

В Мексике три автомобиля, фура и автобус провалились в огромную яму
07.07.2025 02:55:00 | Российская Газета

В Пулково начали регистрацию пассажиров
07.07.2025 02:55:00 | Lenta.ru

На Ставрополье объявили беспилотную опасность
07.07.2025 02:53:36 | ТАСС

На Ставрополье объявили беспилотную опасность
07.07.2025 02:53:36 | ТАСС

На Ставрополье объявили беспилотную опасность
07.07.2025 02:53:36 | ТАСС

В МИД РФ и Индии подтвердили курс на выстраивание стратегического сотрудничества
07.07.2025 02:51:52 | РЕН ТВ

В МИД РФ и Индии подтвердили курс на выстраивание стратегического сотрудничества
07.07.2025 02:51:52 | РЕН ТВ

В МИД РФ и Индии подтвердили курс на выстраивание стратегического сотрудничества
07.07.2025 02:51:52 | РЕН ТВ

В МИД РФ и Индии подтвердили курс на выстраивание стратегического сотрудничества
07.07.2025 02:51:52 | РЕН ТВ

В Одессе ночью прогремели взрывы, очевидцы сняли их на видео
07.07.2025 02:50:00 | Российская Газета

В Одессе ночью прогремели взрывы, очевидцы сняли их на видео
07.07.2025 02:50:00 | Российская Газета

В Одессе ночью прогремели взрывы, очевидцы сняли их на видео
07.07.2025 02:50:00 | Российская Газета

В Одессе ночью прогремели взрывы, очевидцы сняли их на видео
07.07.2025 02:50:00 | Российская Газета

На Украине сообщили о взрывах в Одессе
07.07.2025 02:49:42 | РЕН ТВ

На Украине сообщили о взрывах в Одессе
07.07.2025 02:49:42 | РЕН ТВ

На Украине сообщили о взрывах в Одессе
07.07.2025 02:49:42 | РЕН ТВ

На Украине сообщили о взрывах в Одессе
07.07.2025 02:49:42 | РЕН ТВ

На Украине сообщили о взрывах в Одессе
07.07.2025 02:49:42 | РЕН ТВ

В Красноярске задержали прилет семи рейсов из-за ограничений в Москве и Петербурге
07.07.2025 02:47:17 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2025 - vsetut.pro