Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Машинное обучение

ИИ становится всё лучше в обработке текстов и решении задач, требующих обширных размышлений. Но когда речь заходит об изображениях, он начинает страдать. Модели видят тысячи пикселей и могут распознавать объекты, но если попросить их объяснить, что изображено на картинке или почему что-то было нарисовано определённым образом, их ответы часто звучат неубедительно.

В недавнем исследовании эксперты высказали предположение, что мы предоставляем изображения ИИ не в том виде. Они показывают, что формирование изображений на естественных языках, вероятно, не оптимально для обобщающих рассуждений. Вместо этого изображение следует сначала преобразовать в компактный, но осмысленный SVG-код, а уже затем передавать его для рассуждений на естественном языке. Интересно, что такой подход улучшает обобщающую рассуждения способность модели.

Давайте разберёмся, почему так происходит и как преобразование изображения из пикселей в символьный код может помочь моделям лучше рассуждать, используя изображения.

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro