Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Будущее здесь, Машинное обучение

Модель Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с помощью естественного языка. В отличие от более ранних мультимодальных систем, в которых использовалось сочетание отдельных моделей (например, использование языковой модели вместе с Imagen 3 для генерации изображений), Gemini 2.0 Flash работает в мультимодальном режиме, генерируя изображения непосредственно в той же системе, которая обрабатывает текст. Это устраняет необходимость в межмодельном взаимодействии, что значительно снижает время ожидания.

Поскольку Gemini 2.0 Flash больше не зависит от Imagen 3, у нее более быстрый отклик и более плавное взаимодействие. Кроме того, вы даже можете добавлять длинный текст прямо на изображения!

Посмотрите на этот пример, где я превратил генерального директора Google Deepmind, Дэмиса Хассабиса, в длинноволосого чувака.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro