Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

19.07.2024 20:11:30 | Хабр

Хабы: Машинное обучение, Искусственный интеллект, Natural Language Processing

Техника тренировки модели на основе обратной связи от людей (RLHF) была предложена как один из способов повысить согласованность модели. Люди, при том что являются основным источником предвзятостей в данных, одновременно являются своего рода высшим авторитетом в оценке текстов на соответствие каким либо ценностям.

В серии статей мы разберем каждую часть и внутренние детали пайплайна RLHF отдельно и поймем, как сообщество пришло к этой идее. Сделаем мы через через исторический обзор подвыборки статей по теме, каждая из которых опиралась на результаты предыдущих и приносила что то важное и новое в формирование общего пайплайна.

Это первая статья цикла о LLM, Предобучении и KL-контроле.

Читать далее

Подробнее

Читайте также

Проектная, конструкторская или технологическая документация. Основные системы стандартов
19.07.2024 20:10:43 | Хабр

Анализ негативных комментариев TRUE CRIME
19.07.2024 19:46:20 | Хабр

Microsoft: один из способов устранить сбой CrowdStrike — выключить и включить систему «до 15 раз»
19.07.2024 19:43:18 | vc.ru

Авторы ChatGPT решили собирать собственные ИИ-ускорители: переговоры с Broadcom
19.07.2024 19:34:20 | ferra.ru

В США придумали интеллектуальную домашнюю пивоварню
19.07.2024 19:30:00 | ferra.ru

msgspec. Библиотека для сериализации и десериализации чего угодно
19.07.2024 19:24:17 | Хабр

Почему розница и корпоративный сегмент выбирают компьютерную технику разных стран
19.07.2024 18:50:11 | it-world

TSMC вложит больше денег в производство чипов по сравнению с ранними прогнозами
19.07.2024 18:45:00 | ferra.ru

Тренды игровой индустрии: взгляд в будущее
19.07.2024 18:39:31 | Хабр

Ученые и хакеры предложили легализовать взлом искусственного интеллекта
19.07.2024 18:34:18 | ferra.ru

Xiaomi представила прототип спортивной версии электромобиля SU7
19.07.2024 18:24:02 | vc.ru

Студенты из Башкирии разработали гель для биопринтинга тканей и органов
19.07.2024 18:20:03 | ferra.ru

Балансировка планов в 1С:ERP: кратко про основные подходы и решения
19.07.2024 18:06:09 | Хабр

Бюджетный CMF Phone 1 за $200 от Nothing протестировали в РФ
19.07.2024 18:00:00 | ferra.ru

В России начнут строить дороги из отходов содового производства
19.07.2024 17:58:41 | ferra.ru

В России предложили запретить игру Hamster Kombat
19.07.2024 17:47:00 | ferra.ru

Скорое затопление МКС описали подробнее
19.07.2024 17:34:16 | ferra.ru

Почтовая служба США призналась в передаче адресов клиентов сторонним компаниям
19.07.2024 17:20:17 | ferra.ru

Обновление Windows сломало системы банков и авиакомпаний по всему миру
19.07.2024 17:15:11 | ferra.ru

Учёные выяснили, что нужно делать для профилактики гипертонии и слабости в старости
19.07.2024 17:15:00 | ferra.ru

Маск в свойственной ему манере раскритиковал глобальный сбой Microsoft
19.07.2024 17:06:16 | ferra.ru

Ученые изучили «внутренний мир» человека, животных и ИИ
19.07.2024 17:05:28 | ferra.ru

Европейский телескоп PLATO начнет поиски «другой Земли» в 2026 году
19.07.2024 17:01:48 | ferra.ru

В России создали бетон с повышенной устойчивостью к сложным условиям
19.07.2024 16:58:35 | ferra.ru

Самарский университет создаст платформу контроля качества медицинской помощи
19.07.2024 16:54:25 | ferra.ru

Отечественный рынок услуг центров обработки данных. Взгляд на текущую ситуацию и актуальные проблемы
19.07.2024 16:50:06 | it-world

Павел Дуров анонсировал запуск магазина мини-приложений в Telegram и встроенного браузера с поддержкой Web3
19.07.2024 16:48:46 | vc.ru

Для москвичей запустили новые курсы по «Беспилотному транспорту»
19.07.2024 16:37:38 | ferra.ru

Врачи в США стали «оживлять» людей ради донорских органов
19.07.2024 16:34:15 | ferra.ru

Рабочее место оказалось связано со здоровьем и производительностью человека
19.07.2024 16:30:00 | ferra.ru

Новые алгоритмы от петербургских ученых ускорят радиосигналы на 30%
19.07.2024 16:20:24 | ferra.ru

Финская Nokia показала худшие квартальные результаты с 2015 года
19.07.2024 16:13:15 | it-world

Российские ученые создали новый метод управления роботами-манипуляторами
19.07.2024 16:07:44 | ferra.ru

Доказано: у детей, которые живут в зелёных районах, лёгкие работают лучше
19.07.2024 15:45:00 | ferra.ru

«Фикбук» скроет весь ЛГБТ*-контент на сайте, чтобы снять блокировку Роскомнадзора
19.07.2024 15:40:59 | vc.ru

Смотреть все

НОВОСТИ

Цена Brent замедлила снижение на фоне ситуации вокруг Ормузского пролива
08.04.2026 23:09:56 | ТАСС

В Германии призывали страны ЕС порвать с военной структурой США
08.04.2026 23:09:21 | Lenta.ru

Сенат Мексики утвердил Роберто Веласко в качестве главы МИД
08.04.2026 23:08:54 | ТАСС

Серфингист в море врезался в серого кита
08.04.2026 23:07:00 | Российская Газета

«Спартак» в серии пенальти победил «Зенит» и вышел в финал Пути регионов Кубка России
08.04.2026 23:05:43 | Lenta.ru

Компания-ответчик по делу ростовского экс-губернатора опровергла связь с ним
08.04.2026 23:05:09 | ТАСС

ТАСС: Вэнс улетел из Будапешта
08.04.2026 23:04:43 | ТАСС

Иран развернул нефтяной танкер в Ормузском проливе
08.04.2026 23:04:27 | Lenta.ru

На севере Украины произошли новые взрывы
08.04.2026 23:04:07 | ТАСС

Число жертв израильских ударов по Ливану достигло 254 за сутки
08.04.2026 23:03:46 | ТАСС

"Спартак" обыграл "Зенит" и вышел в финал "пути регионов" Кубка России
08.04.2026 23:02:59 | ТАСС

Житель Урала отсудил у государства 574 тыс. руб. за уголовное преследование
08.04.2026 23:02:17 | Коммерсантъ

Белый дом заявил, что Иран согласился передать США обогащённый уран
08.04.2026 23:02:00 | Life.ru

Iraqi Airways объявила о возобновлении полетов с 10 апреля
08.04.2026 22:56:34 | ТАСС

В Белом доме сочли вопрос журналиста о морали Трампа оскорбительным
08.04.2026 22:56:27 | РБК

Отслужившие по контракту в ВСУ получат отсрочку от призыва
08.04.2026 22:55:55 | Lenta.ru

В Виннице обманом задержали архимандрита Филарета
08.04.2026 22:55:00 | Российская Газета

Раскрыто нарушенное Норвегией обещание Украине
08.04.2026 22:55:00 | Lenta.ru

Захарова: Решение Молдавии о выходе из СНГ вредит экономике страны и её жителям
08.04.2026 22:54:13 | Life.ru

Как выглядит дамба в Дагестане после прорыва. Видео
08.04.2026 22:53:45 | РБК

Филиппо указал на признаки подготовки Франции к войне с Россией
08.04.2026 22:53:02 | ТАСС

Израиль объявил об открытии воздушного пространства в ночь на 9 апреля
08.04.2026 22:53:00 | Российская Газета

Никто кроме Samsung не будет поставлять Apple экраны для складных iPhone минимум три года
08.04.2026 22:49:00 | iXBT.com

Андреева ожидает захватывающего матча в четвертьфинале турнира в Линце
08.04.2026 22:47:16 | ТАСС

Россияне стали чаще покупать премиальные комплектующие для локального запуска искусственного интеллекта
08.04.2026 22:46:09 | PlayGround.ru

Главный переговорщик Ирана заявил о потере смысла в перемирии с США
08.04.2026 22:46:03 | РБК

Глава МЭА: последствия энергокризиса будут ощутимы многие месяцы или даже годы
08.04.2026 22:45:42 | Ведомости

"Спартак" заменил вратаря перед серией пенальти в игре с "Зенитом"
08.04.2026 22:45:08 | ТАСС

Вэнс: США готовы корректировать требования к Ирану по отказу от обогащения урана
08.04.2026 22:44:28 | ТАСС

Вэнс: США готовы предложить Ирану многое, если он будет добросовестно вести переговоры
08.04.2026 22:44:28 | ТАСС

Разработчики Off the Grid из Gunzilla Games заявили о многомесячных задержках зарплаты
08.04.2026 22:44:26 | PlayGround.ru

Инсайд: онлайн-режим GTA 6 будет запущен через месяц после выхода игры
08.04.2026 22:43:46 | PlayGround.ru

SNN: управление портов Ирана обновило маршруты следования судов через Ормуз
08.04.2026 22:40:28 | ТАСС

ASUS повысила цены на ноутбуки с чипом Snapdragon X2 Elite на 350 долларов после публикации обзоров
08.04.2026 22:40:25 | PlayGround.ru

«Авангард» и «Локомотив» стартовали с побед в четвертьфинале плей-офф КХЛ
08.04.2026 22:39:53 | Life.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro