RLHF. История становления идеи — 3

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

RLHF. История становления идеи — 3

03.08.2024 06:00:41 | Хабр

Хабы: Машинное обучение, Искусственный интеллект, Natural Language Processing

Продолжаем разбирать части пайплайна RLHF с точки зрения исторической ретроспективы, чтобы понять, как сформировалась идея, которая сегодня лежит в основе самых популярных LLM.

В первой части мы ознакомились с общим пайплайном RLHF, LLM, KL-контролем и необходимостью предобучения на пусть и грязных, но больших данных

Во второй - сравнили Offline RL и Online RL, увидели их ограничения, попробовали имитировать Online RL через self-play и непрерывную обратную связь от среды через Reward Modelling. А еще первый раз задумались о сборе непротиворечивой но достаточно полной обратной связи от человека.

Здесь мы, наконец-таки, добавляем этап дообучения с учителем на качественных демонстрациях и осознаем важность контроля за сбором человеческой обратной связи.

Читать далее

Подробнее

Читайте также

Создание кастомного интерактивного мини сайта с ИИ без платных сервисов
03.08.2024 05:47:25 | Хабр

OpenSource на поле против OpenAI: Function Calls здесь и сейчас для самых маленьких… ресурсов
03.08.2024 05:17:34 | Хабр

Кардиолог назвала сыроедение смертельно опасной диетой
03.08.2024 02:15:00 | ferra.ru

Врач объяснил пути заражения ротавирусом на курорте: море ни при чём
03.08.2024 01:30:00 | ferra.ru

Что будет с ценами на технику, кто бросил корзину с покупками, и зачем нам стоматолог с искусственным интеллектом
03.08.2024 01:10:15 | it-world

Эксперт предупредил об опасности для здоровья купания в городских фонтанах
03.08.2024 00:45:00 | ferra.ru

Автоматическое Выравнивание Отступов в Исходниках (clang-format + Make)
02.08.2024 23:41:55 | Хабр

Депутат ЛДПР «включил заднюю» после угроз заблокировать Google, Android и iOS в России
02.08.2024 23:15:00 | ferra.ru

Tesla засудит производителя аварийных разъёмов для электрокаров
02.08.2024 22:30:00 | ferra.ru

Оператор наружной рекламы Russ сообщил об оценке своего бизнеса аудиторами в 460-500 млрд рублей — РБК
02.08.2024 22:00:40 | vc.ru

В США началось двойное антимонопольное расследование в отношении Nvidia
02.08.2024 21:45:00 | ferra.ru

Intel сэкономит в 2025 году за счёт увольнения 15% сотрудников
02.08.2024 21:00:00 | ferra.ru

Среднебюджетный OnePlus Ace 3V стал лидером рейтинга AnTuTu на июль 2024 года
02.08.2024 20:15:00 | ferra.ru

Аудитория Threads* достигла 200 млн активных пользователей — глава Instagram* Адам Моссери
02.08.2024 20:05:20 | vc.ru

Инсайды о новой модели iPhone 16: все факты
02.08.2024 20:01:26 | it-world

Маск опроверг покупку разработчика чат-ботов для слияния со своим стартапом xAI
02.08.2024 19:30:00 | ferra.ru

Компания Perceptive показала первого робота-стоматолога
02.08.2024 19:19:05 | it-world

Депутат Госдумы заявил о скорой блокировке в России Google, Android и iOS
02.08.2024 18:45:00 | ferra.ru

Почему GDS лидируют в оптимизации авиаперевозок: пример увеличения прибыльности код-шера
02.08.2024 18:41:22 | Хабр

Билайн запретил раздавать свыше 20 ГБ со смартфона на ноутбуки в тарифах сотовой связи
02.08.2024 18:32:57 | ferra.ru

Опыт по установке SLA с помощью инструментов Канбан метода: история сервисных команд
02.08.2024 18:28:54 | Хабр

Как собирать и интегрировать отечественные ИТ-продукты: опыт заказчиков и ИТ-компаний
02.08.2024 18:05:00 | it-world

ФСБ порекомендовала не пользоваться некогда российским браузером Спутник
02.08.2024 18:00:00 | ferra.ru

Google анонсировала мероприятие, на котором будут представлены смартфон Pixel 9 и умные часы Pixel Watch 3
02.08.2024 17:28:23 | it-world

Кэш второго уровня Hibernate для чайников
02.08.2024 17:22:12 | Хабр

Apple разрешила использовать эмуляторы для установки старых игр с ПК на iPhone
02.08.2024 17:15:00 | ferra.ru

Synchron интегрировала мозговой имплант с Apple Vision Pro: VR-гарнитуры теперь доступны и парализованным
02.08.2024 17:10:43 | it-world

Отечественный браузер «Спутник» может быть проблемным
02.08.2024 17:03:15 | it-world

Punk riff generator
02.08.2024 17:00:47 | Хабр

В Японии прибыль Nintendo упала из-за ожидания игроками новой консоли
02.08.2024 16:30:00 | ferra.ru

Тестируем SSD. Чтобы выросли IOPS, нужно всего лишь… сменить версию PCIe?
02.08.2024 16:25:41 | Хабр

РБК: ФСБ изъяла фальшивые сигареты Marlboro и Kent на 800 млн рублей — их производили на Калужском табачном заводе
02.08.2024 16:22:57 | vc.ru

Как поделить не деля или оптимизация деления компиляторам(и)
02.08.2024 16:13:02 | Хабр

Турция без объяснения причин запретила Instagram*
02.08.2024 15:45:00 | ferra.ru

Tefal сделал один из лучших беспроводных пылесосов на сегодняшний день
02.08.2024 15:25:46 | ferra.ru

Смотреть все

НОВОСТИ

Китай будет добывать уран из морской воды
18.02.2026 03:00:00 | Российская Газета

Филиппо заявил, что фон дер Ляйен планирует развязать войну в Европе в 2027 году
18.02.2026 01:17:47 | Life.ru

Мигрант оскорбительно высказался о российском паспорте и поплатился
18.02.2026 01:17:00 | Lenta.ru

Временные ограничения на полёты введены в аэропорту Волгограда
18.02.2026 01:15:07 | Life.ru

Один человек погиб, двое ранены в результате атаки ВСУ на Запорожскую область
18.02.2026 01:13:03 | Life.ru

Axios: Зеленский поручил организовать встречу с Путиным в Женеве
18.02.2026 01:11:42 | РЕН ТВ

Зеленский признался, что Уиткофф и Кушнер определили для него ориентир
18.02.2026 01:10:19 | Life.ru

Звезду Голливуда доставили в больницу после пьяного дебоша в баре
18.02.2026 01:10:00 | Lenta.ru

Названы основные требования к Telegram для продолжения работы в РФ
18.02.2026 01:09:04 | ТАСС

В Кыргызстане используют опыт России в развитии медицины
18.02.2026 01:07:00 | Российская Газета

Олимпийский дебют Петросян, старт плей-офф в хоккее и откровения россиянки-волонтера о команде Украины. Как прошел 11-й день Игр
18.02.2026 01:04:47 | Lenta.ru

Зеленский: Россия и Украина в целом договорились о мониторинге прекращения огня
18.02.2026 01:03:35 | Life.ru

Петросян заняла пятое место по итогам короткой программы на Олимпиаде
18.02.2026 01:01:57 | Lenta.ru

Обманувшая американцев русская мошенница вышла в свет в прозрачном корсете
18.02.2026 01:00:59 | Lenta.ru

Марочко: ВС РФ за сутки продвинулись севернее Константиновки ДНР
18.02.2026 01:00:56 | ТАСС

Марочко: ВС РФ за сутки продвинулись севернее Константиновки
18.02.2026 01:00:56 | ТАСС

Потерявшим интерес к сексу людям дали три совета
18.02.2026 01:00:52 | Lenta.ru

Петросян заняла пятое место в короткой программе на Олимпиаде
18.02.2026 01:00:40 | РБК

Life.ru: В Госдуме предложили сформировать «коммунальный резерв» для уборки снега
18.02.2026 01:00:00 | Life.ru

Петросян идет пятой после короткой программы на Олимпиаде
18.02.2026 00:59:52 | ТАСС

Родители покончившего с собой Яниса Тиммы подали в суд на Анну Седокову
18.02.2026 00:58:45 | РЕН ТВ

Раскрыта личная просьба Зеленского накануне переговоров в Женеве
18.02.2026 00:58:00 | Lenta.ru

На юбилейном концерте Майданова выступили Басков, Долина и Лещенко
18.02.2026 00:57:40 | ТАСС

Зеленский: Украинцы не простят вывод войск Вооружённых сил Украины из Донбасса
18.02.2026 00:57:32 | Life.ru

Уникальные кадры: над Антарктидой засняли кольцеобразное солнечное затмение
18.02.2026 00:57:00 | iXBT.com

Вэнс раскритиковал Европу
18.02.2026 00:56:22 | Lenta.ru

Названо условие для контрнаступления ВСУ
18.02.2026 00:56:04 | Lenta.ru

ПСЖ с Сафоновым в составе обыграл "Монако" в матче Лиги чемпионов
18.02.2026 00:55:12 | ТАСС

На Украине испугались «капитуляции» из-за Трампа
18.02.2026 00:55:02 | Lenta.ru

В Нью-Йорке при взрыве в церкви пострадали несколько человек
18.02.2026 00:49:36 | Life.ru

Шайю Лабафа арестовали после пьяного дебоша у бара в Новом Орлеане
18.02.2026 00:47:49 | РБК

Advance: многие прогнозы Путина на Мюнхенской конференции 2007 года сбылись
18.02.2026 00:46:59 | РЕН ТВ

В России ответили на грубое высказывание Зеленского в адрес Мединского
18.02.2026 00:46:17 | Lenta.ru

С 23 февраля курс доллара начнёт снижаться. Каких событий ждут на рынке и что будет с рублём
18.02.2026 00:45:00 | Life.ru

К границе Украины прибыл воздушный госпиталь для эвакуации наёмников ВСУ
18.02.2026 00:44:32 | Life.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro