Операция выполнена!
Закрыть
Хабы: Машинное обучение

Все знают, что трансформеры можно масштабировать: просто добавь больше слоев, и модель станет умнее. Но на практике попытка обучить трансформер глубиной больше 50 слоев часто оборачивается градиентным хаосом и расходящимся loss'ом. В этой статье мы разберем малоизвестную, но критически важную технологию LayerScale. Мы посмотрим, как Residual связи «загрязняют» шину данных, и как один микроскопический обучаемый вектор, инициализированный почти нулем, позволяет обучать модели любой глубины, обманывая оптимизатор.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro