Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Машинное обучение

ИИ-агенты всё лучше справляются с решением тестов на общее развитие, поиском информации, рисованием картинок и даже программированием, но вот с интерфейсами на рабочем столе они пока не очень. Оказывается, реальные пользовательские интерфейсы с сотнями мелких элементов, шумом и похожими иконками – всё ещё сложное испытание. Количество опций на экране слишком велико для тривиального перебора, так что агенту надо понимать, что происходит на экране и где именно тот элемент, который нужен по инструкции пользователя.

Как ни странно, но не большие обезличенные датасеты делают агента умнее, а много человеческой и плотной разметки. Вместо миллионов сгенерированных картинок откуда‑то взятые десятки тысяч реальных сценариев использования с ручным выделением и подписью каждого элемента. Почему это важно и что это меняет для разработки агентов – давайте разбираться на примере нового исследования.

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro