Операция выполнена!
Закрыть
Хабы: Машинное обучение

Долгие годы в NLP считалось правилом хорошего тона связывать матрицу входных эмбеддингов с матрицей выходного классификатора (Weight Tying), чтобы сэкономить память. В этой статье мы разберем геометрическую ошибку этого подхода. Вы узнаете, почему входные и выходные репрезентации имеют прямо противоположные математические цели, и как общая матрица приводит к физическому столкновению градиентов во время обратного распространения ошибки, лишая модель выразительности.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro