Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

28.05.2024 09:00:21 | Хабр

Хабы: Блог компании Яндекс, Алгоритмы, Машинное обучение, Искусственный интеллект, Natural Language Processing

Сегодня через API стала доступна новая модель YandexGPT 3 Lite. Одним из ключевых этапов её обучения, как и в случае с другими недавними моделями, стал этап выравнивания (Alignment), включающий в том числе стадию обучения с подкреплением (RL). Пожалуй, без этого этапа мы бы не смогли добиться такого роста в качестве, который был необходим для запуска новых возможностей и сервисов (например, Нейро). Поэтому эту статью мы полностью посвятим особенностям выравнивания моделей.

На тему Alignment и RL было написано уже немало статей. Кажется, любой ML-инженер уже, так или иначе, сталкивался или читал о них. Поэтому мы хоть и напомним базовую информацию, но всё же сфокусируемся на тех деталях реализации, которые не на слуху.

Читать далее

Подробнее

Читайте также

Любительская фотография в ближнем ИК-диапазоне
28.05.2024 09:00:08 | Хабр

Гранаты оказались полезны при жировой болезни печени
28.05.2024 09:00:00 | ferra.ru

Honor представила недорогие наушники в приятном мятном цвете
28.05.2024 08:52:51 | ferra.ru

Новая модель внедрения изменений Джона Коттера. Часть 2
28.05.2024 08:48:27 | Хабр

Владелец Tesla Cybertruck порезался о свой автомобиль
28.05.2024 08:41:51 | ferra.ru

Яндекс внедрит нейросеть YandexGPT во все свои сервисы
28.05.2024 08:41:07 | it-world

Сбой у СДЭК продолжается третий день: его причиной мог стать вирус-шифровальщик
28.05.2024 08:39:54 | vc.ru

Bluetooth-регулятор раскрыл сразу 7 новых ноутбуков Lenovo на ARM-процессорах Snapdragon
28.05.2024 08:34:50 | ferra.ru

Telegram вводит функцию факт чекинга
28.05.2024 08:33:06 | it-world

Как я подвергся «хакерской атаке»
28.05.2024 08:30:03 | Хабр

Осеннее обновление Windows 11 24H2 навсегда удалит сразу три легендарных приложения Microsoft
28.05.2024 08:24:50 | ferra.ru

Во благо или во вред: какие риски несет использование искусственного интеллекта в информационном пространстве
28.05.2024 08:21:02 | Хабр

Как именно и для чего Apple перевернет свой логотип в новых iPad
28.05.2024 08:16:44 | ferra.ru

Развертывание отказоустойчивого комплекса Space VDI 5.4
28.05.2024 08:15:58 | Хабр

День 825: в 2023 году через российскую границу пропустили свыше 110 млн человек
28.05.2024 08:15:28 | vc.ru

В России создали технологию для безопасной коррекции позвоночника у детей
28.05.2024 08:15:00 | ferra.ru

В бете Telegram нашли защиту от фейков
28.05.2024 08:07:43 | ferra.ru

Что важно знать перед собеседованием аналитика данных
28.05.2024 08:02:56 | Хабр

История компьютеров Compaq. Часть 2
28.05.2024 08:01:54 | Хабр

Новому биопроцессору достаточно в 1 млн раз меньше энергии, чем привычным CPU
28.05.2024 07:59:43 | ferra.ru

[Перевод] Расшифровка startup файла Arm Cortex-M
28.05.2024 07:55:49 | Хабр

Долгожданный анонс Honor 200 и 200 Pro: уникальный дизайн камеры, флагманское железо и очень яркий экран
28.05.2024 07:53:42 | ferra.ru

5 распространенных ошибок, которые лучше не допускать при запуске кампаний в Яндекс Директе
28.05.2024 07:46:44 | Хабр

Создатели Steam запретили передавать ваш аккаунт по наследству после вашей кончины
28.05.2024 07:46:42 | ferra.ru

Как мы выбирали протокол для клиентского API. Сравнение JSON-RPC 2.0 и RESTful API
28.05.2024 07:46:13 | Хабр

Команда работает как часы? Возможно, у тебя проблемы
28.05.2024 07:43:25 | Хабр

Bare-metal Kubernetes — спускайся с облаков
28.05.2024 07:39:20 | Хабр

Microsoft объяснила, чем Windows 11 лучше «десятки»
28.05.2024 07:35:42 | ferra.ru

Обработка отклонений в проектах имплементации ERP-систем
28.05.2024 07:30:48 | Хабр

Утечка: сколько будет стоить Xiaomi Redmi 13
28.05.2024 07:24:41 | ferra.ru

[Перевод] Как измерять эффективность разработчиков, и почему метод McKinsey может убить культуру разработки в компании
28.05.2024 07:20:03 | Хабр

В Китае изобрели искусственную кожу для роботов, которой не страшны даже -78 °С
28.05.2024 07:16:41 | ferra.ru

Как понять, что пора выпускать новое приложение вместо старого? Разбираем со стороны бизнеса
28.05.2024 07:12:04 | Хабр

Что такое Универсальный решатель проблем — программа из 1955 года
28.05.2024 07:10:17 | Хабр

Профиль защиты ЦБ РФ и мобильные приложения: разбираемся, как соответствовать
28.05.2024 07:09:45 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

Япония не может присоединиться к войне с Ираном из-за конституции страны
20.03.2026 03:23:00 | Российская Газета

В РФ проработают включение в ОМС профессиональной гигиены полости рта детям
20.03.2026 03:17:17 | ТАСС

Самолеты Alaska Airlines и FedEx едва не столкнулись во время посадки в США
20.03.2026 03:17:00 | Российская Газета

В ОАЭ заявили о ликвидации группы, связанной с «Хезболлах» и Ираном
20.03.2026 03:15:09 | Life.ru

Нотариальная палата: россияне отдавали в марте под залог альпак и страусов
20.03.2026 03:14:02 | ТАСС

ВСУ мобилизовали человека с удаленной селезенкой
20.03.2026 03:10:38 | ТАСС

США заявили о блокировке доменов, якобы применявшихся для "психологических операций" Ирана
20.03.2026 03:10:04 | ТАСС

В России назвали причину оставить Зеленского в живых
20.03.2026 03:09:41 | Lenta.ru

Завещаю свои скины и персонажей: Юрист рассказал, можно ли передать по наследству игровой аккаунт
20.03.2026 03:09:41 | Life.ru

Макрон: Франция хочет обсудить в Совбезе ООН защиту кораблей в Ормузском проливе
20.03.2026 03:07:17 | ТАСС

Мерц пригрозил последствиями за решение Венгрии о вето по кредиту для Киева
20.03.2026 03:04:10 | ТАСС

Кошта: лидеры ЕС "не жалели времени" на критику Орбана на саммите ЕС
20.03.2026 03:02:54 | ТАСС

Боец Боцман: ВС РФ уничтожили пункт запуска БПЛА ВСУ, с которого били по мирным
20.03.2026 03:02:29 | ТАСС

Al Hadath: сотрудников посольства США в Багдаде эвакуировали
20.03.2026 03:02:26 | ТАСС

Хозяйку похоронного бюро приговорили к 18 годам тюрьмы за хранение трупов вместо кремации
20.03.2026 03:02:11 | Lenta.ru

Немецкий доброволец ВС РФ заявил о желании получить российское гражданство
20.03.2026 03:01:59 | ТАСС

Минздрав: репродуктивные болезни встречаются часто, тенденции к снижению нет
20.03.2026 03:01:52 | ТАСС

Женщинам с аллергией на сперму подсказали способы наслаждаться сексом
20.03.2026 03:00:34 | Lenta.ru

На Западе задали неудобный вопрос о Зеленском после провала кредита ЕС
20.03.2026 02:59:55 | Lenta.ru

Иран заявил о пяти ракетных залпах по Израилю за час
20.03.2026 02:58:23 | РБК

Премьер Японии заявила, что хочет встретиться с лидером КНДР
20.03.2026 02:58:06 | ТАСС

Госдеп: более 70 тыс. американцев покинули Ближний Восток после ударов по Ирану
20.03.2026 02:56:28 | ТАСС

NBC: США ускоряют переброску более двух тысяч морпехов на Ближний Восток
20.03.2026 02:55:00 | Российская Газета

Fars: КСИР отправил предупреждения подозреваемым в связях с оппозицией гражданам
20.03.2026 02:54:42 | ТАСС

В России впервые утверждён ГОСТ на обувь для врачей
20.03.2026 02:54:30 | Life.ru

В МАМТ состоится премьера оперы Шостаковича "Леди Макбет Мценского уезда"
20.03.2026 02:54:26 | ТАСС

ЕС решил усилить свои морские миссии из-за блокировки Ормузского пролива
20.03.2026 02:50:20 | РБК

Власти США предупреждали о провале операции в Иране
20.03.2026 02:49:22 | Lenta.ru

Названы все четвертьфиналисты Лиги Европы и Лиги конференций
20.03.2026 02:48:46 | Life.ru

В США решили увековечить Трампа
20.03.2026 02:45:58 | Lenta.ru

Офис Мелони отрицает, что она выразила понимание Венгрии по кредиту для Украины
20.03.2026 02:45:02 | Life.ru

SuperJob: почти 60% работающих по специальности получают более 200 тыс. рублей
20.03.2026 02:44:00 | ТАСС

DR: Дания готовилась к нападению США в январе, в Гренландию завезли взрывчатку
20.03.2026 02:42:00 | Российская Газета

Фон дер Ляйен исключила разрешение странам ЕС закупать российский газ
20.03.2026 02:40:02 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro