Операция выполнена!
Закрыть
Хабы: Искусственный интеллект

Обзор посвящен исследованию, на тему «сверхвеса» (super weights) в больших языковых моделях (LLM). Авторы обнаружили, что очень небольшое количество параметров (вплоть до одного скаляра!) в LLM играет непропорционально важную роль в их способности генерировать качественный текст. Ресерчеры из Apple утверждают, что крошечное подмножество, максимум шесть масштабирующих факторов, важнее остальных. Авторы называют их супервесами, и их обрезка разрушает качество модели.

Несколько статей в прошлом показали, что в определенном масштабе небольшой набор скрытых признаков состояния содержит выбросы с огромной величиной. Эти выбросы составляют небольшой процент всех активаций, но имеют решающее значение для сохранения качества сжатой модели. В контексте LLM эти выбросы проявляются как «сверх‑активации» (super activations) — аномально большие активации, которые также критически важны для качества модели. Удаление этих «сверхвесов» может полностью разрушить модель, снижая точность до уровня случайного угадывания и увеличивая перплексию на несколько порядков.

Исследование также показывает, что эти «сверхвеса» и «сверх‑активации» могут быть идентифицированы с помощью простого, не требующего данных метода. Этот метод предлагается для использования в улучшении квантизации моделей, что позволяет сохранить их качество даже при значительном снижении вычислительной сложности.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro