[Перевод] От «равных» весов к «умным»: OTPO для более точного Alignment LLM

info@vsetut.pro

Стать автором

Вернуться

03.09.2025 12:07:50 | Хабр

Хабы: Блог компании OTUS, Машинное обучение

LLM уже умеют многое, но качество их ответов по-прежнему упирается в тонкую настройку под человеческие предпочтения. Direct Preference Optimization стал стандартом де-факто для алайнмента, но у него есть фундаментальный изъян: все токены в ответе считаются равнозначными. Для человека же очевидно, что слово «Париж» в ответе на вопрос о столице важнее любого предлога или союза. В этой статье мы разбираем свежий метод OTPO, который предлагает решение через оптимальный транспорт и учится поднимать вес смысловых токенов, оставляя служебные на заднем плане.

Подробнее

Читайте также

Обзор UserGate WAF: тесты и особенности эксплуатации
03.09.2025 12:00:48 | Хабр

Говядина и другие продукты, которые сделают вас энергичнее и сильнее
03.09.2025 12:00:47 | ferra.ru

Hi-Fi колонки своими руками — сборка АС OPTI 17 по проекту Алексея Александрова
03.09.2025 11:56:12 | Хабр

Как подружить MISP и Python? Мой опыт
03.09.2025 11:50:53 | Хабр

Как контент-маркетинг увеличивает лиды и продажи: неочевидные метрики и кейсы
03.09.2025 11:39:40 | Хабр

Нейросети для генерации видео: краткий обзор Veo 3
03.09.2025 11:18:19 | Хабр

Врачи порекомендовали меньше сидеть и больше стоять для поддержания здоровья печени
03.09.2025 11:15:49 | ferra.ru

Самые полезные сервисы для школьников и студентов
03.09.2025 11:11:58 | Хабр

Москва внедрит ИИ и блокчейн для управления городом
03.09.2025 11:07:04 | ferra.ru

Цифра дня: Сколько школьников пользуются помощью ИИ в математике
03.09.2025 11:01:52 | ferra.ru

Как правильно вайбкодить! Советы от QA, который запустил свою песочницу
03.09.2025 10:52:03 | Хабр

Когда YOLO не спасает: как один параметр может испортить всё
03.09.2025 10:47:52 | Хабр

Память для роботов: как машины учатся видеть мир осознанно
03.09.2025 10:42:03 | Хабр

Тест настольных светильников dpDUPI серии PRO
03.09.2025 10:40:11 | Хабр

Почему так трудно учить иностранный язык?
03.09.2025 10:39:46 | Хабр

Прогулка после еды и другие полезные для уровня сахара в крови ежедневные привычки
03.09.2025 10:30:56 | ferra.ru

Wildberries запустил тестирование виртуальной примерочной
03.09.2025 10:24:06 | vc.ru

Что скрывают чаты: анализ Telegram-сообществ
03.09.2025 10:21:40 | Хабр

Как черные шляпы пользуются открытостью open source ПО
03.09.2025 10:01:47 | Хабр

Миграция календаря из MS Exchange в VK WorkSpace
03.09.2025 10:01:26 | Хабр

[Перевод] Самый быстрый способ читать Excel в Python
03.09.2025 10:00:38 | Хабр

HUAWEI Pura 80: вам не нужен самый дорогой смартфон ради крутой камеры
03.09.2025 10:00:10 | ferra.ru

Когда дело не в коде: как мы ловили мистические пропажи аукционов на сетевом уровне
03.09.2025 09:48:55 | Хабр

От парсера до ИИ-платформы: как рекрутер «навайбкодил» инструмент, который экономит часы работы
03.09.2025 09:45:49 | Хабр

Орехи и другие продукты, которые нужно после 40 лет есть чаще
03.09.2025 09:45:47 | ferra.ru

Продажи новых легковых автомобилей в России в августе 2025-го сократились на 17,6% год к году
03.09.2025 09:45:01 | vc.ru

ЦБ отозвал лицензию у банка «Таврический» из Санкт-Петербурга
03.09.2025 09:28:31 | vc.ru

В Якутии создадут центр для развития беспилотной авиации
03.09.2025 09:27:00 | ferra.ru

Как изменился рынок онлайн-рекламы во вторых кварталах 2024 и 2025 годов. Исследование click.ru
03.09.2025 09:08:04 | Хабр

Как сделать красочные цвета в аниме и фильмах? ffmpeg
03.09.2025 09:06:29 | Хабр

SPDK в публичном облаке: лезем внутрь дисковой подсистемы в user-space
03.09.2025 09:05:42 | Хабр

[Перевод] Agentic RAG: создание более умных ИИ-систем, понимающих контекст
03.09.2025 09:05:28 | Хабр

Как я вскрыл «умный» замок пятью способами за пять минут
03.09.2025 09:04:27 | Хабр

VPS-сервер как платформа для ИИ-агентов
03.09.2025 09:01:26 | Хабр

Морковный и не только: названы самые полезные для здоровья соки
03.09.2025 09:00:38 | ferra.ru

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Россияне начали скупать обувь с рельефной подошвой ради «поиска золота»
07.03.2026 23:41:11 | Life.ru

Нетаньяху утверждает, что у Израиля еще "есть сюрпризы" для Ирана
07.03.2026 23:35:09 | ТАСС

"Хезболлах" сообщила о ракетном ударе по базе израильских ВМС под Хайфой
07.03.2026 23:34:28 | ТАСС

ЦАХАЛ: Израиль начал следующий этап операции в Иране, атакуя производственные объекты
07.03.2026 23:33:35 | ТАСС

Балерина Нинель Петрова умерла на 102-м году жизни
07.03.2026 23:32:53 | ТАСС

Иран потребовал от Баку вывести израильских военных из Азербайджана
07.03.2026 23:31:53 | Life.ru

В Ленобласти в ДТП погибли двое
07.03.2026 23:31:47 | ТАСС

Дмитриев предупредил о начале масштабного "инфляционного ценового шока"
07.03.2026 23:31:00 | Российская Газета

В Израиле сообщили об обстреле со стороны Ирана
07.03.2026 23:28:59 | ТАСС

Автомобиль, с чьим участием произошло ДТП в Москве, принадлежал посольству Азербайджана
07.03.2026 23:28:55 | ТАСС

Иран нанёс удар по отелю Marina, где, по его данным, находились военные США
07.03.2026 23:28:14 | Life.ru

Цена транфера из Дубая в Оман выросла на фоне ситуации на Ближнем Востоке
07.03.2026 23:27:46 | ТАСС

ЦАХАЛ сообщил, что за четыре дня нанес удары по 600 целям "Хезболлах" в Ливане
07.03.2026 23:26:00 | ТАСС

ТАСС: Сирия еще на сутки продлила ограничения в воздушном пространстве
07.03.2026 23:24:04 | ТАСС

Иран объяснил удар по отелю в Дубае
07.03.2026 23:22:02 | Lenta.ru

ЦАХАЛ заявил о нанесении 3,4 тыс. ударов по территории Ирана
07.03.2026 23:21:26 | ТАСС

Аэропорты Волгограда и Краснодара временно закрыли на приём и выпуск самолётов
07.03.2026 23:20:56 | Life.ru

В Петербурге через взломанный аккаунт "Госуслуг" прописали в квартире двоих мигрантов
07.03.2026 23:19:07 | ТАСС

Совбез Ирана: США искусственно занижают свои потери в операции против Ирана
07.03.2026 23:18:20 | ТАСС

Совбез Ирана: США искусственно занижают свои потери в войне на Ближнем Востоке
07.03.2026 23:18:20 | ТАСС

Востоковед раскрыла стратегию Ирана в конфликте с США и Израилем
07.03.2026 23:18:04 | Lenta.ru

Трамп высоко оценил работу переводчиков на переговорах с Путиным и Си Цзиньпином
07.03.2026 23:17:46 | Life.ru

Трамп унизил своего вице-президента
07.03.2026 23:16:37 | Lenta.ru

Трамп заявил о важности переводчиков на встречах с Путиным и Си Цзиньпином
07.03.2026 23:14:00 | Российская Газета

"Вашингтон" проиграл "Бостону" в матче НХЛ. Овечкин не набрал очков
07.03.2026 23:12:03 | ТАСС

Непомнящий считает, что российские шахматисты поборются за медали на Олимпиаде
07.03.2026 23:11:19 | ТАСС

Угрозу атаки БПЛА объявили в Краснодаре
07.03.2026 23:10:42 | ТАСС

В Краснодаре объявили угрозу атаки БПЛА
07.03.2026 23:10:42 | ТАСС

Замглавы администрации Кисловодска арестовали
07.03.2026 23:10:26 | ТАСС

Израиль впервые нанёс удар по нефтяным объектам в районе Тегерана
07.03.2026 23:07:03 | Life.ru

В Саратовской области ввели режим ракетной опасности
07.03.2026 23:06:27 | ТАСС

Нетаньяху предупредил Иран о «сюрпризах»
07.03.2026 23:02:29 | Lenta.ru

Новгородский чиновник стал опекуном дочери погибшего бойца СВО в обход её прабабушки
07.03.2026 23:01:55 | Life.ru

Минимум 8 человек погибли от серии торнадо, обрушившихся на Мичиган и Оклахому
07.03.2026 23:01:34 | Life.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro