Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Машинное обучение

“Встречу” придумали авторы из MIT, их идея была в том, чтобы попробовать объединить лучшее из двух, пока что редко пересекающихся, вселенных — диффузионных моделей с Full-Sequence Diffusion и нейросетей с Teacher Forcing. На пересечении этих названий и получилось Diffusion Forcing.

Принудительное обучение (teacher forcing) хорошо зарекомендовало себя в моделях, которые последовательно угадывают токены по одному, основываясь на предыдущей последовательности (она при этом считается опорной истиной). Таким способом получается генерировать, вообще говоря, бесконечное число токенов, если добавить сюда авторегрессию. При этом нет возможности каким-то образом направить выборку, чтобы, допустим, минимизировать какую-то дополнительную целевую функцию. И конечно, всё это хорошо работает только на дискретных данных, а на непрерывных быстро теряет устойчивость. Авторегрессионная генерация видео через несколько кадров начинает уходит куда-то не туда. Вероятно, поэтому авторегрессионая модель Cosmos от NVIDIA выдает не больше 32 кадров. Есть и другой подход, где последовательно генерируются не кадры, а всё лучшее разрешение, но об этом, возможно, расскажем отдельно.

С задачей генерации видео прекрасно справляются диффузионные модели. Если в успехах teacher forcing уже давно можно убедиться на примере ChatGPT, то в последний год-два и генерация видео вышла на такой же невероятный уровень. Эти модели используют фиксированный размер токенов, которые искажены одним и тем же шумом. Предполагается, что если в достаточной степени зашумить любую последовательность токенов, то получится один и тот же, абсолютный, белый шум. Из этого абсолютного шума с помощью  diffusion guidance (направленного управления, которого как раз и не хватало в teacher forcing) модель восстанавливает нужную картинку. Минусы подхода следуют сразу же из его основы: условия одинаковы для всех токенов, размер последовательности тоже одинаков. Словом, фиксированы все параметры и кроме diffusion guidance управлять процессом особо не получится. 

Читать далее
Читайте также
СТАТЬ АВТОРОМ
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro