Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Машинное обучение, Natural Language Processing

Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда.

Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%?

В этом и заключается магия квантизации.

В этой статье вы узнаете:
Почему параметры модели делают её такой большой
Как работает точность чисел с плавающей точкой и чем жертвуют модели
Как сжимать числа с плавающей точкой с помощью квантизации
Как измерить потерю качества модели после квантизации

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro