Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Как технология LayerScale спасает сверхглубокие трансформеры (и почему о ней молчат туториалы)

18.05.2026 13:25:05 | Хабр

Хабы: Машинное обучение

Все знают, что трансформеры можно масштабировать: просто добавь больше слоев, и модель станет умнее. Но на практике попытка обучить трансформер глубиной больше 50 слоев часто оборачивается градиентным хаосом и расходящимся loss'ом. В этой статье мы разберем малоизвестную, но критически важную технологию LayerScale. Мы посмотрим, как Residual связи «загрязняют» шину данных, и как один микроскопический обучаемый вектор, инициализированный почти нулем, позволяет обучать модели любой глубины, обманывая оптимизатор.

Читать далее

Подробнее

Читайте также

Решение задачи удаления избыточных терминов в заданном контекте без потери информации. Примеры в Colab
18.05.2026 13:24:14 | Хабр

Антидетект-браузеры: почему мультиаккаунтинг вообще работает
18.05.2026 13:24:09 | Хабр

OnePlus выпустил в России Nord CE6 и Pad 4
18.05.2026 13:18:55 | it-world

Объединяем SCADA, MES и ERP без «мусора на входе»
18.05.2026 13:10:32 | Хабр

Как я учился преподавать: мой опыт создания модуля по анимации интерфейсов
18.05.2026 13:00:49 | Хабр

Эпоха «нейрослопа»: как сгенерированные треки уничтожают стриминги и доходы музыкантов
18.05.2026 12:53:14 | Хабр

Centrifugo JS client в Laravel: frontend и production
18.05.2026 12:43:01 | Хабр

Обновление базы за время смены мастера Patroni
18.05.2026 12:39:32 | Хабр

«Сбер» запланировал запустить в 2027 году коммуникационную платформу с мессенджером, видеоконференциями, почтой, календарём и ИИ-помощником
18.05.2026 12:36:07 | vc.ru

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B
18.05.2026 12:23:37 | Хабр

Как программа попадает в память: от execve до main
18.05.2026 12:15:18 | Хабр

Гири, штрихкоды, роботы и AI: проверьте свои знания эволюции ретейла
18.05.2026 12:12:38 | Хабр

Double Shift вместо ручного удаления: как я делал локальный помощник раскладки для GNOME Wayland
18.05.2026 12:01:15 | Хабр

В чем разница между доменными и локальными учетными записями
18.05.2026 11:57:18 | Хабр

Как мы за 54 дня собрали ИИ-хаб в мессенджере MAX. Часть 1 — обзор цикла
18.05.2026 11:56:12 | Хабр

Топ‑5 книг для продакта, TPM и CPO в 2026 году — инструменты для работы на всех уровнях
18.05.2026 11:46:08 | Хабр

Claude AI (Клауд): нейросеть — лучшие сценарии работы, модели Сlaude и промты
18.05.2026 11:44:09 | Хабр

Что там с Суперджетом
18.05.2026 11:37:14 | Хабр

Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)
18.05.2026 11:34:33 | Хабр

Возможен ли разгон газовой струи до сверхзвуковой скорости при дросселировании в атмосферу без сопла Лаваля?
18.05.2026 11:31:35 | Хабр

Менеджер паролей на python
18.05.2026 11:31:04 | Хабр

Как я продавал двери, 11 лет работал в IT, а потом начал учить сварочного робота наплавлять круги
18.05.2026 11:29:13 | Хабр

Опять (снова) эта история…
18.05.2026 11:23:56 | Хабр

Как искусственный интеллект меняет рынок труда
18.05.2026 11:02:41 | it-world

Техсобес: боли, ошибки и рецепты успеха для тех, кто нанимает и нанимается
18.05.2026 11:01:09 | Хабр

Suricata IPS NFQueue with nDPI. Часть V
18.05.2026 11:01:02 | Хабр

[Перевод] Как выжать максимум из Codex
18.05.2026 10:59:01 | Хабр

Разработали дизайн-концепцию для интернет-магазина KINGSTORE
18.05.2026 10:55:51 | Хабр

ИИ фотосессия онлайн — ТОП-7 нейросетей для генерации изображений по фото в 2026 году
18.05.2026 10:53:13 | Хабр

Spring Agent Toolkit: ультимативный набор для вашего AI-агента
18.05.2026 10:49:36 | Хабр

Компьютер весом в полкило: чем полезен компактный системный блок для дома
18.05.2026 10:49:07 | ferra.ru

Чей Гамлет лучше?
18.05.2026 10:45:41 | Хабр

Как мы контролируем сборку печатных плат: опыт внедрения ML-модели на производстве
18.05.2026 10:40:54 | Хабр

Обзор нейросети Google Gemini 2026: Veo 3.1, Nano Banana 2, Lyria 3 и генерация текстов
18.05.2026 10:30:45 | Хабр

Глава Минэкономразвития: «К трансформации экономики всем надо адаптироваться — и малому бизнесу тоже»
18.05.2026 10:04:57 | vc.ru

Смотреть все

НОВОСТИ

Саудовская Аравия обсудила с Ираном деэскалацию в зоне Персидского залива
02.08.2026 23:51:52 | Life.ru

Шуваев: ВСУ вдвое увеличили число атак на Белгородскую область за два месяца
02.08.2026 23:49:32 | ТАСС

МВД Марокко: решение суда в Испании создало новую модель нелегальной миграции
02.08.2026 23:48:06 | ТАСС

«Спартак» победил «Ахмат» благодаря голу Барко в концовке матча
02.08.2026 23:39:54 | Life.ru

В посольстве РФ назвали теракт в Москве актом устрашения итальянцев Киевом
02.08.2026 23:39:06 | ТАСС

Al Jazeera: не менее 19 палестинцев стали жертвами израильских военных в Газе
02.08.2026 23:37:46 | ТАСС

Чесноков назвал сюрпризом победу теннисистки Лютовой в Мемфисе
02.08.2026 23:37:24 | ТАСС

Пьяный водитель сбил подростка и въехал в здание в Калининграде
02.08.2026 23:36:31 | Life.ru

В Израиле запретили использовать крокодилов для охраны тюрем
02.08.2026 23:36:00 | Lenta.ru

Страны Ближнего Востока призвали Трампа воздержаться от ударов по Ирану
02.08.2026 23:31:58 | Lenta.ru

Число пытавшихся попасть в Сеуту мигрантов выросло до 40 тысяч
02.08.2026 23:31:00 | Life.ru

"СВ": Под Чернигов перебросили 50-ю бригаду ВСУ, которой запрещено носить форму
02.08.2026 23:31:00 | Российская Газета

В Марокко заявили, что контролировали обстановку вокруг Сеуты с начала кризиса
02.08.2026 23:29:03 | ТАСС

В Марокко заявили, что обстановка вокруг Сеуты была под контролем
02.08.2026 23:29:03 | ТАСС

Telegraph: Британия опасается выхода Франции из "коалиции желающих"
02.08.2026 23:28:30 | ТАСС

Тарпищев считает, что судья не должен был назначать пенальти в ворота "Спартака"
02.08.2026 23:28:05 | ТАСС

16-летняя россиянка Лютова стала чемпионкой турнира WTA в Мемфисе
02.08.2026 23:28:03 | Life.ru

Львова-Белова сообщила о состоянии пострадавших детей при ударе ВСУ по площадке в Белгородской области
02.08.2026 23:22:31 | Life.ru

Вучич: судоходство по Дунаю в Сербии прекратится на днях
02.08.2026 23:19:55 | ТАСС

Тарпищев назвал уникальной победу 16-летней Лютовой в Мемфисе
02.08.2026 23:19:24 | ТАСС

В МВД Марокко сообщили о гибели 11 человек в Сеуте
02.08.2026 23:18:58 | ТАСС

Военкоры сообщили о подготовке массированного удара по Украине
02.08.2026 23:17:00 | Lenta.ru

Леус назвал 2 августа самым жарким днём с начала года в Москве
02.08.2026 23:15:35 | Life.ru

В районе села Красная Поляна в ДНР при атаке БПЛА ВСУ пострадал мужчина
02.08.2026 23:11:51 | Life.ru

Мадуро одобрил диалог венесуэльских властей с оппозицией
02.08.2026 23:11:36 | ТАСС

Раскрыты подробности о столкновении двух вертолетов в Греции
02.08.2026 23:09:09 | Lenta.ru

Львова-Белова назвала гибель девочки в Белгородской области терактом Киева
02.08.2026 23:09:05 | Life.ru

В ФРГ объяснили кризис в стране потерей лидерства и ситуацией с бюджетом
02.08.2026 23:08:38 | ТАСС

Шесть человек погибли и 30 пострадали в ДТП с автобусом в Италии
02.08.2026 23:04:33 | Life.ru

Эксперт Джаваид: кризис в Ормузе повысил интерес к коридору Север - Юг
02.08.2026 23:02:32 | ТАСС

Патрушев провел переговоры по сотрудничеству в морской логистике
02.08.2026 23:02:32 | ТАСС

В Саратове продлили запрет на проезд по участку улицы Крымской
02.08.2026 23:00:36 | ТАСС

Тысячи машин застряли на границе: Очереди из Белоруссии в ЕС продолжают расти
02.08.2026 22:59:41 | Life.ru

Астронавт NASA показал «невозможную» фотографию Млечного Пути с борта МКС
02.08.2026 22:59:32 | РБК

В МВД Марокко назвали число пересекших границу Сеуты нелегалов
02.08.2026 22:58:07 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro