Нейросети для локальной генерации видео

info@vsetut.pro

Стать автором

Вернуться

10.03.2025 10:00:57 | Хабр

Хабы: Искусственный интеллект, Работа с видео

Давно было понятно, что генерация видео с помощью нейросетей станет возможной локально на ПК. Это полезно для всех, кто не готов платить за подписки, но готов платить за мощное железо. Потому что видео-модели требуют значительных вычислительных ресурсов.

На текущий момент существует несколько ключевых моделей, которые подходят для локальной установки: stable Video Diffusion, Mochi 1, Hunyan Video и LTX Video. Каждая из них имеет свои уникальные особенности, которых ниже.

Stable Video Diffusion (SVD)

Эта модель, разработанная Stability AI, является одной из первых открытых моделей для генерации видео из изображений. Она основана на латентных диффузионных моделях и может генерировать короткие клипы с высоким разрешением. Согласно данным, SVD доступна на платформе Hugging Face, и пользователи могут запускать ее локально с помощью фреймворка Diffusers. Для эффективной работы требуется NVIDIA GPU с минимум 16 ГБ VRAM, что делает ее довольно ресурсоемкой.

Mochi 1

Модель разработанная Genmo AI, специализируется на генерации видео из текстовых подсказок. Она открыта под лицензией Apache 2.0, что позволяет скачивать код и веса модели с GitHub. Модель поддерживает разрешение 480p с частотой 30 кадров в секунду и может генерировать видео длительностью до 5,4 секунды. Точные требования к оборудованию не указаны, но предполагается, что требуется мощный GPU.

Hunyan Video

Эта модель от Tencent выделяется своими 13 миллиардами параметров, что делает ее одной из самых крупных открытых моделей для генерации видео. Код и веса модели доступны на GitHub. Она поддерживает разрешения до 720p x 1280p и требует минимум 45 ГБ GPU-памяти для базового разрешения, с рекомендацией 80 ГБ для оптимальной производительности.

Подробнее