Операция выполнена!
Закрыть
Хабы: Машинное обучение

Базовая теорема машинного обучения гласит, что нейросеть с одним скрытым слоем может выучить любую функцию в мире, если сделать этот слой достаточно широким. Но на практике создатели SOTA моделей всегда выбирают глубину. В этой статье мы разберем геометрическую и физическую разницу между масштабированием ширины (d_model) и глубины (num_layers). Мы посмотрим, как нелинейности складывают латентное пространство словно оригами, почему логический вывод математически невозможно распараллелить, и почему широкие сети обречены на зубрежку, а глубокие способны к абстракции.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro