Операция выполнена!
Закрыть
Хабы: Машинное обучение, Open source, Работа с видео

Часовое видео в 30 fps — это 108 000 кадров. Если каждый кадр стоит 1500 токенов, получаем 162 миллиона токенов на одно видео. Никакая модель столько не возьмёт. Команда browser-use недавно опубликовала проект video-use, который решает эту задачу с другой стороны: LLM не “смотрит” видео, а читает его через транскрипт. Разбираю архитектуру и показываю, чем этот подход полезен далеко за пределами монтажа.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro