Операция выполнена!
Закрыть
Хабы: Машинное обучение

Переход от FP16 к 8 битному квантованию был триумфом инженерии, позволившим запускать LLM на потребительском железе почти без потерь. Но сегодня индустрия сошла с ума. 4 бита стали нормой, 3 бита преподносятся как новый стандарт, а на GitHub всерьез обсуждают 2-битные и 1.58-битные модели. В этой статье мы поговорим о математике квантования и о том, почему экстремальное сжатие весов перестало быть оптимизацией и превратилось в фанатизм. Почему огромная 70B модель, урезанная до 3 бит, математически глупее, чем 32B модель в 8 битах, и как мы обманываем сами себя, глядя на метрики perplexity.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro