Операция выполнена!
Закрыть
Хабы: Машинное обучение

Долгие 10 лет индустрия молилась на оптимизатор AdamW, слепо применяя его ко всем параметрам нейросети. Но весной 2026 года вышли DeepSeek-V4 и Kimi K2 от Moonshot AI, которые переписали правила игры. В их основе лежит Muon оптимизатор, который снижает затраты на обучение в два раза. В этой статье мы разберем, почему AdamW стал архитектурным рудиментом, как Muon использует итерации Ньютона-Шульца для ортогонализации градиентов, и почему этот алгоритм работает только с 2D-матрицами. Если вы все еще пытаетесь объяснить ИИ через философию, добро пожаловать в реальный мир спектральной нормализаци

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro