RLHF. История становления идеи — 2

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

RLHF. История становления идеи — 2

26.07.2024 06:00:48 | Хабр

Хабы: Машинное обучение, Искусственный интеллект, Natural Language Processing

Продолжаем разбирать внутренние детали пайплайна RLHF (обучение с подкреплением на основе обратной связи от человека). Это крайне популярный и широко используемый способ повысить согласованность языковой модели. Разбираем части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.

Прошлый раз мы поговорили об LLM, предобучении на больших данных и KL‑контроле.

В этой части разбираемся с тем, какую обратную связь и как собирать, какую технику обучения использовать - Offline или Online RL, можно ли как то обойти ограничения Offline и Online RL и одновременно использовать преимущества обоих подходов, пробуем self-play и учимся имитировать человеческую обратную связь с помощью модели вознаграждений (Reward Model).

Читать далее

Подробнее

Читайте также

Раскрыто, в каком возрасте спортсмены-олимпийцы достигают пика физической формы
26.07.2024 06:00:00 | ferra.ru

Чем заменить Docker Hub в России
26.07.2024 05:15:33 | Хабр

Браузер Chrome начал подробнее описывать потенциально опасные файлы из Сети
26.07.2024 05:15:00 | ferra.ru

Реверсинг приложений под Android. Ищем уязвимости
26.07.2024 04:48:27 | Хабр

Случайные блуждания: связь с резистивным расстоянием (часть 3)
26.07.2024 04:37:54 | Хабр

Японская сеть супермаркетов внедрила ИИ для оценки улыбчивости сотрудников
26.07.2024 04:37:40 | ferra.ru

CrowdStrike разослала пострадавшим от сбоя клиентам «сломанные» купоны на $10
26.07.2024 04:30:00 | ferra.ru

Сколько стоит 3D-принтер по металлу?
26.07.2024 04:15:24 | Хабр

Из-за сбоя CrowdStrike убыток мировых технолидеров составил $5 млрд
26.07.2024 03:45:00 | ferra.ru

Поисковик Microsoft получил резюмирование результатов от ИИ
26.07.2024 03:38:14 | ferra.ru

Newbee торговый бот: часть вторая, скрининг рынка облигаций ОФЗ
26.07.2024 03:29:43 | Хабр

Xiaomi начнёт продавать электрический спорткар SU7 Ultra в 2025 году
26.07.2024 03:00:00 | ferra.ru

Акции SK Hynix начали дешеветь, несмотря на сильные финансовые результаты
26.07.2024 02:38:12 | ferra.ru

Названы способы позаботиться о здоровье мозга в 20−30 лет
26.07.2024 02:15:00 | ferra.ru

Пара установила камеры видеонаблюдения в доме и не заметила, как их взломали
26.07.2024 01:38:10 | ferra.ru

ФБР выяснили, что «гуглил» стрелявший в Дональда Трампа
26.07.2024 01:37:42 | ferra.ru

Терапевт рассказала об уникальности русской бани
26.07.2024 01:35:04 | ferra.ru

Врач рассказала, действительно ли помогает подорожник при ссадинах
26.07.2024 01:31:33 | ferra.ru

Развенчаны пять мифов об антидепрессантах
26.07.2024 01:30:00 | ferra.ru

Глава Минздрава предупредил о риске ранней смерти из-за хронического недосыпа
26.07.2024 01:24:38 | ferra.ru

Названы 30 худших реплик и эмодзи, убивающих отношения в интернете
26.07.2024 00:45:00 | ferra.ru

В России создали систему для «охоты» на операторов дронов
26.07.2024 00:38:08 | ferra.ru

Илон Маск решил вложить $5 млрд в свой стартап xAI с помощью Tesla
26.07.2024 00:00:00 | ferra.ru

Возможности рынка инфраструктурного ПО
26.07.2024 00:00:00 | it-world

В Австралии вывели поедающих человеческие отходы мух
25.07.2024 23:38:06 | ferra.ru

Динозавры оказались гораздо крупнее, чем показывают ископаемые останки
25.07.2024 23:37:53 | ferra.ru

Турбулентность в открытом воздухе усилится из-за глобального потепления
25.07.2024 23:35:32 | ferra.ru

Мошенники начали красть криптовалюту с помощью вредоносных ссылок на сервис Zoom
25.07.2024 23:15:00 | ferra.ru

Тюлени помогут ученым отслеживать изменения в океанах Земли
25.07.2024 23:08:38 | ferra.ru

ИИ предскажет прогрессирование рассеянного склероза
25.07.2024 22:50:30 | ferra.ru

Звание самого жаркого дня на Земле побили дважды за неделю
25.07.2024 22:38:04 | ferra.ru

Учёные разработали «самовосстанавливающееся» стекло
25.07.2024 22:35:28 | ferra.ru

Игроков в Hamster Kombat предупредили о появлении вредоносных клонов кликера
25.07.2024 22:30:00 | ferra.ru

Российские ученые упростили синтез катализаторов на базе рутения
25.07.2024 21:45:22 | ferra.ru

HMD Skyline от создателей Android-смартфонов Nokia протестировали
25.07.2024 21:45:00 | ferra.ru

Смотреть все

СТАТЬ АВТОРОМ

НОВОСТИ

В Польше учредили день памяти поляков, ставших жертвами геноцида ОУН - УПА
04.07.2025 20:55:00 | Российская Газета

Более 6 тыс. человек остались без света в Ростовской области после атаки БПЛА
04.07.2025 08:11:24 | РЕН ТВ

РИА Новости: Жители Сумской области массово распродают бизнес и офисы
04.07.2025 08:10:00 | Российская Газета

Москвичам пообещали аномальные выходные
04.07.2025 08:05:10 | Lenta.ru

"ВО": Украинская ПВО даже не пыталась сбивать ракеты и дроны, атаковавшие Киев
04.07.2025 08:05:00 | Российская Газета

В Приангарье двоих экс-полицейских осудили за взятки на 4 и 4,5 года колонии
04.07.2025 08:02:48 | ТАСС

Смагин не считает катастрофой отсутствие россиян в топ-10 рейтинга FIDE
04.07.2025 08:02:43 | ТАСС

В Шахтах из-за атаки БПЛА отключилась трансформаторная подстанция
04.07.2025 08:02:18 | ТАСС

В Никарагуа двоих мотоциклистов приговорили к году тюрьмы за пируэты на дорогах
04.07.2025 08:02:00 | Российская Газета

ВТБ выявил новую схему обмана пенсионеров
04.07.2025 08:01:58 | ТАСС

В Республике Сербской откроют памятник Виталию Чуркину 8 июля
04.07.2025 08:00:58 | ТАСС

Экс-генсек ОБСЕ рассказал, чего не хватает переговорам по Украине
04.07.2025 08:00:55 | РБК

Названа цель России в летней кампании на Украине
04.07.2025 08:00:38 | Lenta.ru

Экс-генсек ОБСЕ: «Надо выстраивать европейскую безопасность с Россией»
04.07.2025 08:00:35 | РБК

В Германии футболиста отстранили от первой команды за видео из отпуска
04.07.2025 08:00:31 | ТАСС

"Страна": небо над Киевом затянуло дымом
04.07.2025 08:00:20 | ТАСС

Большую часть Сергиево-Посадского округа подключат к резервным источникам энергии
04.07.2025 08:00:16 | ТАСС

Названа ключевая выгода России в отношениях с Ватиканом
04.07.2025 08:00:11 | Lenta.ru

Самая сексуальная спортсменка мира встала на колени в обтягивающих шортах
04.07.2025 08:00:08 | Lenta.ru

Масштабное фэнтези и "комикс для интеллектуалов": обзор новых сериалов
04.07.2025 08:00:00 | РЕН ТВ

Поставки российских товаров в США достигли максимума с марта 2023 года
04.07.2025 07:59:44 | Lenta.ru

При падении четырёх БПЛА в Сергиево-Посадском округе пострадали два человека
04.07.2025 07:59:05 | Life.ru

"ВД": Удар "Искандера" уничтожил батарею ЗРК Patriot в Киеве
04.07.2025 07:59:00 | Российская Газета

Суд взыскал с Нагиева долги по ЖКХ
04.07.2025 07:58:15 | РБК

Independent: поиски 30 пассажиров затонувшего у Бали парома возобновили
04.07.2025 07:57:58 | ТАСС

Арестованная замглавы Росгидромета отказалась признать вину по делу о мошенничестве
04.07.2025 07:57:39 | Lenta.ru

Число пострадавших при атаке БПЛА на Сергиев Посад возросло до двух
04.07.2025 07:57:38 | РЕН ТВ

Над российскими регионами за ночь сбили 48 беспилотников
04.07.2025 07:57:25 | РБК

Число пострадавших при атаке беспилотников на Сергиев Посад возросло
04.07.2025 07:55:00 | Lenta.ru

В Киеве повреждена железнодорожная инфраструктура
04.07.2025 07:55:00 | Российская Газета

В Сергиево-Посадском округе при падении четырех БПЛА пострадали два человека
04.07.2025 07:54:03 | ТАСС

Бывший боец ВСУ 16 дней прятал у себя дома российских солдат
04.07.2025 07:53:00 | Life.ru

В Киеве повредили железнодорожную инфраструктуру
04.07.2025 07:52:18 | Lenta.ru

Представлен Geely Icon Chocolate 2026: обновлённый салон и Flyme Auto по цене от $12 500
04.07.2025 07:51:00 | iXBT.com

В России обвинили командование ВСУ в сокрытии гибели роты штурмовиков под Сумами
04.07.2025 07:50:44 | Lenta.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2025 - vsetut.pro