Операция выполнена!
Закрыть
Хабы: Машинное обучение

В классическом программировании ошибка в коде приводит к крашу. В Deep Learning ошибка в коде часто приводит к тому, что модель просто находит способ обойти ваш баг и сходится "на костылях". В этой статье я расскажу реальную историю о том, как ошибка в кастомном triton ядре для RoPE отрезала градиенты от матриц внимания. Самое страшное в этой истории не сам баг, а то, что модель феноменально хорошо сошлась, превратившись в продвинутый мешок слов, а я неделями не замечал подвоха, глядя на идеальный график loss'а.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro