Операция выполнена!
Закрыть
Хабы: Блог компании Сбер, Машинное обучение, Искусственный интеллект

Несколько месяцев назад мы выпустили токенизаторы для видео и изображений — KVAE-1.0. Сегодня представляем следующее поколение: KVAE-2.0 — два новых видео-токенизатора, которые превосходят Wan 2.2 и HunyuanVideo 1.5 по объективным метрикам и качеству генерации. То есть представляем лучшие на сегодняшний день открытые видео-токенизаторы.

Напомним контекст: видео-версия KVAE-1.0 сжимала по трём осям — в 8 раз по ширине, в 8 по высоте, в 4 раза по количеству кадров (формат 4x8x8). Одна из новых моделей поддерживает тот же формат 4x8x8, вторая работает в более агрессивном режиме 4x16x16 — в тексте они так и именуются. Мы рассмотрели актуальные тренды в токенизации, описали архитектурные изменения в KVAE-2.0 и сравнили с альтернативами.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro