А если агенту не платить? Альтернативная механика обучения с подкреплением

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

А если агенту не платить? Альтернативная механика обучения с подкреплением

02.03.2026 22:47:23 | Хабр

Хабы: Data Mining, Искусственный интеллект, Машинное обучение, Разработка игр

В машинном обучении есть такой метод - обучение с подкреплением (reinforcement learning, RL), который используется для решения задач последовательного принятия решений. В этом методе агент на каждом шаге взаимодействует со средой, изменяя её. Обратной связью для него является некая искусственно сконструированная награда, которая выдаётся на каждой итерации взаимодействия. Основная проблема в том, что действие и награда напрямую не коррелируют. Часто, награда назначается за какое-то финальное достижение, которого можно достичь только выполнив определенную последовательность действий с нулевым или даже отрицательным вознаграждением. Существуют различные способы "протянуть" награду вдоль всей траектории, чтобы в конце концов агент осваивал более-менее приемлемую стратегию поведения.

Удивительно, но обучение с подкреплением никак не использует информацию о том, какие изменения происходят в среде в результате выбранного агентом действия, а только скалярную величину награды. В этом небольшом эксперименте, мы хотим проверить, может ли эта информация как-то быть обработана и использована для построения стратегии агента.

Читать далее

Подробнее

Читайте также

Банкоматы не для бизнеса, по ком плачет Word, и Минфин в роли психотерапевта
02.03.2026 22:39:31 | it-world

Ситуация в ОАЭ: дата-центр AWS столкнулся со сбоем, некоторые роботакси приостановили работу, Apple временно закрыла магазины
02.03.2026 22:11:27 | vc.ru

Huawei представила суперкомпьютер Atlas 950 — конкурента решений Nvidia
02.03.2026 21:34:10 | ferra.ru

Фишинг под видом Meta: SPF pass, DKIM pass, входящие Gmail
02.03.2026 20:26:47 | Хабр

Как подключить ИБП Энергия Smart к мониторингу NUT
02.03.2026 19:51:39 | Хабр

sudo исполняется 45. Вашему контейнеру — всё равно
02.03.2026 19:48:21 | Хабр

[Перевод] Если вы умеете делать хороший code review, вы умеете работать с AI-агентами
02.03.2026 19:35:52 | Хабр

Пусть ваш AI пишет тесты. Имба, о которой не знает ни один вайбкодер
02.03.2026 19:35:16 | Хабр

Планшет Lenovo Legion Y700 с новым Snapdragon набрал рекордные 4,53 млн баллов в AnTuTu
02.03.2026 19:34:07 | ferra.ru

MQTT: доставка при потере связи
02.03.2026 19:32:45 | Хабр

[Перевод] Рукописные заметки Галилея найдены в древнем астрономическом тексте
02.03.2026 19:26:14 | Хабр

Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок
02.03.2026 19:17:05 | Хабр

«Не соответствует действительности»: РКН прокомментировал слухи о закрытии прямого подключения к иностранным VPN-серверам
02.03.2026 19:08:03 | vc.ru

«Он точно не ест в McDonald’s»: гендиректор сети ресторанов попробовал на видео бургер из меню — и разгневал соцсети
02.03.2026 18:51:05 | vc.ru

Больше моделей, больше возможностей: зачем мы вводим подписки в Kodacode
02.03.2026 18:43:15 | Хабр

Почему ты не можешь просто начать меньше есть, чтобы снизить вес? Или как добиться эффекта Оземпика без Оземпика
02.03.2026 18:26:05 | Хабр

Apple втихую представила доступный iPhone 17e: что нового
02.03.2026 18:17:19 | ferra.ru

WYSIWYG редактор хабра — баг репорт
02.03.2026 17:46:22 | Хабр

[Перевод] Люди против нейросетей: как Сэм Альтман обесценивает человеческий интеллект
02.03.2026 17:46:12 | Хабр

Официально: OnePlus 15T получит увеличенную батарею и перископ-камеру
02.03.2026 17:39:46 | ferra.ru

Россияне вдвое чаще укладывают волосы дома: продажи стайлеров за 5 лет утроились
02.03.2026 17:04:05 | ferra.ru

Дженерики в Go: три года спустя
02.03.2026 16:50:56 | Хабр

Минимальный продакшн-шаблон для Next.js приложения
02.03.2026 16:37:21 | Хабр

Honor «вживую» показала смартфон с выдвижной камерой Robot Phone, человекоподобного робота и складной смартфон Magic V6
02.03.2026 16:34:36 | vc.ru

Бюджета нет — но вы держитесь
02.03.2026 16:16:34 | Хабр

Не Vibe-Coding, а инженерия с AI: как я за полгода сделал Android-приложение: социальный трекер привычек
02.03.2026 16:06:59 | Хабр

Акции Duolingo рухнули на двадцать процентов
02.03.2026 15:48:01 | it-world

NASA пересмотрело план запусков лунной программы — высадка на Луну состоится в ходе миссии «Артемида 4», а не «Артемида 3»
02.03.2026 15:37:51 | vc.ru

[Перевод] Пульсар вблизи центра Млечного Пути — идеальная площадка для проверки общей теории относительности
02.03.2026 15:37:03 | Хабр

QA метрики как база управленческих решений
02.03.2026 15:27:32 | Хабр

Нас дурят маркетологи?! Или задушенный flow ratio
02.03.2026 15:18:56 | Хабр

Разработка архитектуры приложения с использованием слоёв, подслоёв и архитектурных блоков
02.03.2026 15:16:32 | Хабр

От скалярной тоски к SIMD-эйфории: как подружить IDA Pro с инструкциями RISC-V P Extension
02.03.2026 15:13:48 | Хабр

Как я довёл автоматику ПВУ Turkov в Home Assistant до состояния «можно жить»
02.03.2026 15:00:42 | Хабр

Как «Корпорация роботов» за 3 года превратила таск-трекер в картотеку для управления бизнесом
02.03.2026 14:55:15 | Хабр

Смотреть все

НОВОСТИ

США захотели переложить ответственность за Ормузский пролив на Европу
09.04.2026 09:27:47 | Lenta.ru

Эксперт Зембатов: на рынке Омана представлены порядка 300 компаний из России
09.04.2026 09:26:50 | ТАСС

Американские нефтяники взбунтовались из-за решения Ирана
09.04.2026 09:26:36 | Lenta.ru

ВСУ 28 раз за сутки обстреляли из артиллерии курское приграничье
09.04.2026 09:26:30 | ТАСС

Курьера мошенников, обманувших москвичку на 17 млн рублей, задержали
09.04.2026 09:26:02 | ТАСС

Чекунков назвал главные темы ВЭФ в 2026 году
09.04.2026 09:24:12 | ТАСС

Российская кризисная отрасль попросила спасти компании от вала банкротств
09.04.2026 09:23:41 | Lenta.ru

Чемпион мира из Турции выступит на Кубке России по спортивной гимнастике
09.04.2026 09:23:07 | ТАСС

Основатель Celebro Media скрылся от суда до оглашения приговора
09.04.2026 09:22:34 | ТАСС

Гибель на балконе и 69 уничтоженных БПЛА. Итоги ночной атаки на регионы России
09.04.2026 09:22:16 | ТАСС

Десятки российских туристов застряли на границе с Грузией
09.04.2026 09:20:35 | Lenta.ru

Даже близкие люди перестали узнавать Алсу после смены имиджа
09.04.2026 09:20:05 | Life.ru

ЕК предупредила страны ЕС о грядущем стагфляционном шоке
09.04.2026 09:19:24 | ТАСС

ВСУ включили старших офицеров в состав "пожарных команд" на фронте
09.04.2026 09:19:00 | Российская Газета

Женщина оказалась на грани смерти и увидела покойную бабушку и ангелов
09.04.2026 09:18:33 | Lenta.ru

LRT: Литовского чиновника отправили работать на Украину из-за вопроса о Крыме
09.04.2026 09:18:00 | Российская Газета

Народный фронт открыл сбор помощи жителям Дагестана после паводка
09.04.2026 09:16:43 | ТАСС

Участницу реалити-шоу стошнило во время испытания с мозгами антилопы
09.04.2026 09:16:41 | Lenta.ru

В России резко выросла выдача одного вида кредитов
09.04.2026 09:16:19 | Lenta.ru

Срок за чистку потолков // Экс-замглавы «Центра поддержки» осудили по делу о хищении бюджетных средств
09.04.2026 09:15:28 | Коммерсантъ

ВСУ вновь используют гражданские поезда для военных нужд
09.04.2026 09:15:15 | Life.ru

«Мягкий госпереворот»: Востоковед раскрыл, кто рулит Ираном от лица Хаменеи
09.04.2026 09:12:29 | Life.ru

Пленный из ВСУ рассказал, как украинские инструктора "лечили" его избиваниями
09.04.2026 09:12:00 | Российская Газета

Пленный из ВСУ рассказал, как украинские инструкторы "лечили" его избиением
09.04.2026 09:12:00 | Российская Газета

В США раскритиковали заявление главы Пентагона о победе над Ираном
09.04.2026 09:11:36 | Lenta.ru

Переболевшие новым штаммом COVID-19 россияне пожаловались на «спящую» аллергию
09.04.2026 09:10:06 | Lenta.ru

ВСУ начали использовать гражданские поезда в военных целях
09.04.2026 09:08:45 | Lenta.ru

WSJ: Израиль был недоволен подходом США к организации перемирия с Ираном
09.04.2026 09:07:09 | ТАСС

Представитель Емельяненко сообщил, что пока нет речи о возвращении атлета в бои
09.04.2026 09:06:34 | ТАСС

Командование 71-й бригады ВСУ уничтожило своих солдат
09.04.2026 09:06:19 | Life.ru

Кожемяко: Приморье обладает всем необходимым для минимизации последствий паводка
09.04.2026 09:05:52 | ТАСС

"Кион музыка" назвал самый популярный трек о космосе с начала 2026 года
09.04.2026 09:05:31 | ТАСС

Россиянам массово приходит СМС «Запиши голосовое» от имени друзей – открывать его нельзя
09.04.2026 09:03:45 | Life.ru

В ЛНР почти 3,2 тыс. объектов культуры намерены отнести к объектам федзначения
09.04.2026 09:03:25 | ТАСС

У Корсакова на Сахалине ожидаются опасный подъем уровня моря и подтопления
09.04.2026 09:03:13 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro