[Перевод] Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

[Перевод] Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

27.08.2025 08:49:16 | Хабр

Хабы: Natural Language Processing, Математика, Машинное обучение

Что если ошибочные ответы модели — не мусор, а ценный обучающий материал? В данной статье мы разберём метод Hindsight Instruction Relabeling (HIR), который позволяет дообучать LLM модели иногда даже лучше, чем RLHF. Кроме того, данный метод требует меньшего количества вычислений, не использует дополнительные модели и вдобавок ко всему максимально использует имеющийся датасет.

Читать далее

Подробнее

Читайте также

SpaceX провела десятый испытательный запуск космического корабля Starship — он успешно развернул в космосе муляжи спутников и вернулся в атмосферу
27.08.2025 08:41:37 | vc.ru

7 навыков современного лидера
27.08.2025 08:28:56 | Хабр

Трекинг объектов по видео: как мы повышали точность, снижали ресурсоемкость, и к каким изменениям в продукте это привело
27.08.2025 08:26:06 | Хабр

В Португалии преждевременно опубликовали страницу Galaxy S25 FE
27.08.2025 08:25:17 | ferra.ru

Маск назвал LiDAR опасным для беспилотных авто и вновь сделал ставку на камеры
27.08.2025 08:18:17 | ferra.ru

Учёные обнаружили, что некоторые психологические трюки укрепляют силу воли
27.08.2025 08:15:34 | ferra.ru

Kwork — кладбище фрилансеров или золотая жила? Две стороны одной монеты
27.08.2025 08:11:51 | Хабр

Первые складные iPhone помогут Samsung, сделав формат мейнстримом
27.08.2025 08:11:15 | ferra.ru

Следи за собой. Риски общения с ИИ
27.08.2025 08:05:45 | Хабр

Малайзия представила свой первый в истории ИИ-процессор MARS1000
27.08.2025 08:04:16 | ferra.ru

[Перевод] Обзор книги «Паттерны разработки на Python TDD, DDD и событийно-ориентированная архитектура»
27.08.2025 08:03:12 | Хабр

ГОСТ 57580 без головной боли: инструкция по автоматической оценке и отчетности
27.08.2025 08:00:43 | Хабр

Для каких смартфонов Xiaomi, Redmi и Poco обновление до HyperOS 3 станет финальным
27.08.2025 07:57:14 | ferra.ru

Путешествие в мир древнегреческой мысли: Пифагор, Парменид, Зенон и Гераклит — какими они были и как жили?
27.08.2025 07:50:09 | Хабр

[Перевод] Цветовая модель OKLCH
27.08.2025 07:45:55 | Хабр

NVIDIA пообещала в 2 раза лучшую энергоэффективность в ноутбучных видеокартах на архитектуре Blackwell
27.08.2025 07:43:13 | ferra.ru

Код и кортизол. Почему женщины в IT выгорают чаще мужчин, и как это влияет на старение
27.08.2025 07:41:17 | Хабр

Acer выпустила видеокарту RX 9060 XT NITRO с 16 ГБ памяти и разгоном до 3,32 ГГц
27.08.2025 07:36:12 | ferra.ru

GeForce RTX 5090 возглавила рейтинг топ-100 видеокарт по версии ComputerBase
27.08.2025 07:29:12 | ferra.ru

Почти ультимативный гайд по Criteria API с продвинутыми возможностями Hibernate
27.08.2025 07:22:32 | Хабр

Asus выпустила «золотой» RTX 5080 Dhahab Core Edition без грамма золота, но зато за за $1899
27.08.2025 07:22:12 | ferra.ru

Ценности решают: как выстроить культуру, в которой хочется работать и достигать целей
27.08.2025 07:16:29 | Хабр

Xiaomi представила умный водонагреватель Mijia Pro с функцией смягчения воды
27.08.2025 07:15:11 | ferra.ru

В Китае процессор Core i9-14900KF разогнали до рекордных 9,13 ГГц
27.08.2025 07:08:11 | ferra.ru

Рецензия на книгу “Изучаем Data Science: обработка, исследование, визуализация и моделирование данных с помощью Python”
27.08.2025 07:07:27 | Хабр

Микросервисы vs Монолиты: что на самом деле ускоряет разработку
27.08.2025 07:01:26 | Хабр

AMD и IBM объединились для разработки новейших квантовых суперкомпьютеров
27.08.2025 07:01:11 | ferra.ru

7 правил стройки без переделок: как уложиться в сроки и бюджет
27.08.2025 07:00:38 | Хабр

Схемотехника и алгоритмы световых мечей: вызовы и решения
27.08.2025 07:00:33 | Хабр

Второе пришествие микросервисов: почему в 2025 мы снова в них верим
27.08.2025 07:00:25 | Хабр

Остановить время: крио-оптическая микроскопия
27.08.2025 07:00:10 | Хабр

Легенда 2000-х: история создания, расцвета и заката культового музыкального редактора Dance eJay
27.08.2025 06:57:35 | Хабр

RTX Pro 2000, 4000 SFF и 6000 Blackwell: новое поколение видеокарт NVIDIA
27.08.2025 06:44:23 | Хабр

Скрытая грамматика: почему len() — это полисемия, а хороший код — набор идиом. Как филология объясняет «чистый код»
27.08.2025 06:39:40 | Хабр

Сделали свой редактор C4 моделей
27.08.2025 06:30:38 | Хабр

Смотреть все

НОВОСТИ

Названы десять поломок, которые водители готовы починить сами
28.03.2026 14:30:00 | За рулем

СКР после ракетного удара по Брянску начал проверку по статье о теракте
11.03.2026 00:17:25 | Коммерсантъ

В столице Кыргызстана прошла большая цветочная ярмарка
11.03.2026 00:16:00 | Российская Газета

Израиль заявил о начале серии ударов по правительственным объектам в Тегеране
11.03.2026 00:15:08 | ТАСС

Белый дом: Пентагон опубликует отчет об ударе по школе в Иране
11.03.2026 00:10:00 | Российская Газета

Axios: США попросили Израиль не атаковать энергообъекты Ирана
11.03.2026 00:10:00 | Российская Газета

Захарова: Киев наносил удар по гражданскому населению Брянска преднамеренно
11.03.2026 00:08:29 | ТАСС

Захарова: постпредство РФ доведет информацию о ракетном ударе Киева по Брянску до ООН
11.03.2026 00:07:15 | ТАСС

Новости СВО. ВС РФ штурмуют Славянск, освободили почти всю ДНР, ВСУ теряют позиции в Сумщине, Киев получил ракеты для Patriot, 11 марта
11.03.2026 00:07:00 | Life.ru

Посол в Словакии: РФ готова выполнять обязательства поставок через "Дружбу"
11.03.2026 00:05:54 | ТАСС

Аракчи назвал ложью заявления о планах Тегерана превентивно ударить по США
11.03.2026 00:05:32 | Life.ru

11 марта: какой праздник отмечают в России и мире
11.03.2026 00:05:00 | Lenta.ru

Получивший контузию командир Калиновский продолжил руководить взводом
11.03.2026 00:04:50 | ТАСС

Axios: США попросили Израиль не атаковать энергообъекты Ирана
11.03.2026 00:04:37 | ТАСС

Начало активности клещей в России ожидается в третьей декаде марта
11.03.2026 00:03:08 | ТАСС

F6: в РФ более 10 тыс. смартфонов заразились вредоносным ПО, крадущим данные из VPN
11.03.2026 00:02:47 | ТАСС

F6: в РФ более 10 тыс. смартфонов заразились ПО, крадущим данные из VPN
11.03.2026 00:02:47 | ТАСС

"Единая Россия" начала регистрацию кандидатов на праймериз по выборам в Госдуму
11.03.2026 00:01:36 | ТАСС

В Японии пройдут мероприятия по случаю 15-й годовщины землетрясения и цунами
11.03.2026 00:01:28 | ТАСС

ГД обсудит запрет выдворять из страны воевавших в составе ВС РФ иностранцев
11.03.2026 00:01:27 | ТАСС

Лавров примет участие в конференции Международной организации по русскому языку
11.03.2026 00:01:04 | ТАСС

Почему эксперты связывают избрание Моджтабы Хаменеи с усилением КСИР
11.03.2026 00:00:39 | РБК

Постпред при ООН: США и Израиль в войне с Ираном стремятся истреблять невинных
10.03.2026 23:58:39 | ТАСС

Цены на нефть возобновили рост после информации о минировании Ормузского пролива
10.03.2026 23:58:16 | Ведомости

Мэр Кишинева сообзил, что АЗС Молдавии ограничили продажу дизтоплива
10.03.2026 23:57:19 | ТАСС

Аэропорт Сочи повторно приостановил работу
10.03.2026 23:56:41 | Коммерсантъ

Врач-гинеколог тайно стал отцом минимум 16 детей
10.03.2026 23:55:49 | Lenta.ru

Эксперт Гусейнов: Политики в Европе не уступают в безумии герою фильма Кубрика
10.03.2026 23:55:00 | Российская Газета

Главы регионов РФ выразили соболезнования после ракетной атаки на Брянск
10.03.2026 23:54:28 | ТАСС

В Хасавюрте семье пропавшего без вести участника СВО передали медаль "За отвагу"
10.03.2026 23:53:25 | ТАСС

Белый дом: Информации об отмене санкций США против российской нефти пока нет
10.03.2026 23:51:55 | Life.ru

В США указали на ухудшение положения Украины на фоне конфликта в Иране
10.03.2026 23:48:19 | Lenta.ru

В аэропорту Сочи второй раз за день приостановили полеты
10.03.2026 23:45:43 | РБК

Тарантино ответил на критику за использование расистского слова в фильмах
10.03.2026 23:43:37 | РБК

Чемпион России по прыжкам Сарновский покинул академию Плющенко
10.03.2026 23:42:50 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro