Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

18.05.2026 03:44:49 | Хабр

Хабы: Машинное обучение

Долгие годы в NLP считалось правилом хорошего тона связывать матрицу входных эмбеддингов с матрицей выходного классификатора (Weight Tying), чтобы сэкономить память. В этой статье мы разберем геометрическую ошибку этого подхода. Вы узнаете, почему входные и выходные репрезентации имеют прямо противоположные математические цели, и как общая матрица приводит к физическому столкновению градиентов во время обратного распространения ошибки, лишая модель выразительности.

Подробнее

Читайте также

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP
18.05.2026 02:28:45 | Хабр

Qwen3.6 MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений
18.05.2026 02:28:45 | Хабр

15 вещей, которые вы бы не хотели знать о мессенджере MAX: тайная запись звука с микрофона в звонках и много чего еще
18.05.2026 02:12:41 | Хабр

Последовательное иерархическое распределение сумм между получателями. Постановка задачи. Выбор технологий
17.05.2026 22:12:26 | Хабр

Непослушный using
17.05.2026 21:55:13 | Хабр

С заботой о своих: канадская Heinz разрезала форму американской хоккейной команды «на салфетки» и раздала болельщикам на матче
17.05.2026 21:08:44 | vc.ru

Как я загрузил компактную открытую LLM в робота и сказал ему ходить (и хватать)
17.05.2026 21:00:15 | Хабр

Как я загрузил компактную открытую LLM в робота и сказал ему ходить (пока только в симуляции)
17.05.2026 21:00:15 | Хабр

В России предложили создать механизм обмена технологиями с Китаем
17.05.2026 20:55:42 | ferra.ru

Память дала AI-агенту прошлое. Solo Kanban даёт ему настоящее
17.05.2026 20:08:30 | Хабр

Шифрование прикладных данных в .NET — от основ к key chain, ротации и компромиссам поиска
17.05.2026 20:00:42 | Хабр

Мессенджер «Макс» подключат к дистанционному обучению
17.05.2026 19:55:44 | ferra.ru

Производители моторных масел предупредили о возможном дефиците и росте цен на фоне конфликта на Ближнем Востоке — Axios
17.05.2026 19:05:38 | vc.ru

Российские ученые нашли лучшие способы получения косметики из водорослей и грязи
17.05.2026 18:55:45 | ferra.ru

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию
17.05.2026 18:31:08 | Хабр

Российские ученые испытали новые материалы для формы металлургов
17.05.2026 17:55:46 | ferra.ru

Трудности перевода
17.05.2026 17:52:36 | Хабр

AI-агент действительно ловит баги? Пусть докажет на бенчмарке
17.05.2026 17:52:02 | Хабр

IT-Weekly: волна контрафактных комплектующих; Astra Cloud на российских процессорах
17.05.2026 17:33:40 | it-world

Google ужесточил правила против манипуляций в ИИ-поиске
17.05.2026 17:32:52 | ferra.ru

Создаем клиентскую библиотеку ROS2. Элементы ноды
17.05.2026 17:32:38 | Хабр

День 1544: в Подмосковье временно закрыли ТРЦ «Мега Химки» на фоне сообщений об атаках БПЛА
17.05.2026 17:08:47 | vc.ru

Telegram замедляют, а мы запустили мессенджер с Asana внутри. Без шуток
17.05.2026 17:06:58 | Хабр

AI-агенты в разработке: как Cursor, Claude Code и агентный подход меняют работу программиста
17.05.2026 16:57:23 | Хабр

Ростех покажет на ЦИПР более 30 цифровых решений для промышленности
17.05.2026 16:55:48 | ferra.ru

Резюме как Root Cause Analysis
17.05.2026 16:43:15 | Хабр

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
17.05.2026 16:37:59 | Хабр

GLM-5.1 придумал для меня новый алгоритм
17.05.2026 16:31:52 | Хабр

Обход блокировок на OpenWRT с помощью HomeProxy-hiddify (hiddify-core) и баз GeoIP, Geosite Re:filter
17.05.2026 16:13:53 | Хабр

На ЦИПР покажут криптобиокабину «Портал Родина»
17.05.2026 15:55:49 | ferra.ru

ИИ в строительстве: с чего начать внедрение
17.05.2026 15:19:01 | Хабр

В отместку за увольнение сотрудники Opexus удалили 96 правительственных баз данных США — но забыли закрыть звонок в Teams
17.05.2026 14:56:59 | vc.ru

В Общественной палате предложили привлекать детей к разработке обучающих игр
17.05.2026 14:56:01 | ferra.ru

Немного извращений из мира прокси и VPN
17.05.2026 14:27:36 | Хабр

«Продай мне этот космолёт» или история любви к симуляторам. От космосима X-Tension до ActorModel/DoD/ECS архитектуры. Ч2
17.05.2026 14:26:15 | Хабр

Смотреть все

НОВОСТИ

Дегтярёв предложил обязать сменивших гражданство спортсменов возмещать расходы
03.08.2026 11:31:20 | Life.ru

Известный журналист-иноагент рассказал об этически спорном лайфхаке
03.08.2026 11:29:33 | Lenta.ru

Москва подписала с городами-партнерами 19 документов о сотрудничестве в транспорте
03.08.2026 11:29:31 | ТАСС

В российской больнице 11-летнюю школьницу заразили ВИЧ после лечения
03.08.2026 11:29:03 | Lenta.ru

"Сильная Армения" проголосует против назначения Рубиняна спикером парламента
03.08.2026 11:28:50 | ТАСС

В Калужской области спал ажиотаж вокруг топлива
03.08.2026 11:28:50 | ТАСС

В Латвии раскрыли, во сколько раз выросли очереди на границе Белоруссии с ЕС
03.08.2026 11:28:25 | ТАСС

В Чернигове после взрывов повреждены несколько предприятий
03.08.2026 11:28:19 | ТАСС

Кончаловский рассказал о съемках «Одиссеи» в США
03.08.2026 11:27:50 | Lenta.ru

Испанские власти проигнорировали данные разведки о миграционном кризисе
03.08.2026 11:27:40 | Lenta.ru

«Глубинная неуверенность»: Почему свекровь часто проверяет невестку на верность
03.08.2026 11:27:38 | Life.ru

Россиянам дали важные советы по перевозке велосипедов на авто
03.08.2026 11:27:00 | Lenta.ru

Cadena SER: разведка Испании предупреждала о риске массового прорыва мигрантов
03.08.2026 11:26:20 | ТАСС

В МИД РФ заявили, что Запад ведет гибридную атаку на отношения с Казахстаном
03.08.2026 11:25:49 | ТАСС

В Сухуме открылся XXIV Музыкальный фестиваль "Хибла Герзмава приглашает"
03.08.2026 11:25:20 | ТАСС

Офицер Шихан: залп из "Ураганов" деморализовал ВСУ в боях за Светлое в ДНР
03.08.2026 11:24:49 | ТАСС

Девочку заразили ВИЧ и гепатитом С. Что известно о ЧП в больнице Азова
03.08.2026 11:24:48 | ТАСС

В МИД РФ уверены, что строительство первой АЭС укрепит суверенитет Казахстана
03.08.2026 11:24:10 | ТАСС

Эксперт Флутков сообщил о росте бюджета покупки апартаментов на верхних этажах в Сочи
03.08.2026 11:23:29 | ТАСС

Рианна вновь разделась для рекламы собственного бренда нижнего белья
03.08.2026 11:23:00 | Lenta.ru

Беспилотник ударил по людям в Геленджике: трое погибших и 13 раненых
03.08.2026 11:22:46 | Life.ru

Родные Вячеслава Воскресенского рассказали о состоянии актера
03.08.2026 11:22:36 | ТАСС

Европа столкнулась с трудностями при поиске идей санкций против России
03.08.2026 11:21:16 | Lenta.ru

Вован и Лексус раскрыли подробности беседы с Меркель о минских соглашениях
03.08.2026 11:21:00 | Российская Газета

В Московском метрополитене запустили тематический поезд о выборах в Госдуму
03.08.2026 11:19:31 | ТАСС

В АП заявили, что СМИ РФ и Казахстана борются с попытками Запада посеять недоверие
03.08.2026 11:19:08 | ТАСС

Фракция "Армения" не намерена участвовать в выборах спикера нового парламента
03.08.2026 11:19:03 | ТАСС

ЦБ изучает предложения по смягчению правил блокировки карт
03.08.2026 11:18:37 | Life.ru

В Подмосковье заготовили свыше 43 тыс. литров донорской крови
03.08.2026 11:17:33 | ТАСС

В аэропорту Краснодара вводятся изменения в расписании рейсов
03.08.2026 11:17:30 | ТАСС

Экс-премьер Италии предположил, что события в Сеуте были подстроены
03.08.2026 11:17:18 | ТАСС

Десятки тысяч жителей российского города остались без света
03.08.2026 11:16:55 | Lenta.ru

РФ была бы рада подключению Казахстана к фактчекинговой сети GFCN
03.08.2026 11:16:52 | ТАСС

Премьер Эстонии обвинил Испанию в создании стимулов для нелегальной миграции
03.08.2026 11:16:46 | ТАСС

В Геленджике при падении обломков БПЛА погибли три человека
03.08.2026 11:16:36 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro