Операция выполнена!
Закрыть
Хабы: Искусственный интеллект, Open source

Развернул Gemma 4 31B на одной 4090 (48 ГБ) — и проверил нужен ли «честный» Q8, и переживает ли tool-calling 4-бита.

Q8 не дал ничего (+0.007 — шум), зато в 1.6 раза медленнее и вдвое жаднее до памяти. Tool-calling держится на 4-битах — но дело было не в кванте, а в одном флаге сервера (--jinja).

Бонус: локально бенчмарк отработал с нулём ошибок, а через облако развалился на 33% обрывов. Суверенный деплой выигрывает не только в цене и задержке.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro