LLM Inside: выжимаем максимум из Decoder Attention на GPU

info@vsetut.pro

Стать автором

Вернуться

10.03.2026 07:01:15 | Хабр

Хабы: Блог компании Яндекс, Машинное обучение, Высоконагруженные системы, Серверная оптимизация, GPGPU

Привет, Хабр! Меня зовут Андрей Шукшов. Я пишу YNMT в Яндекс R&D — это движок инференса, на котором работают почти все наши большие языковые модели (LLM). Бо́льшую часть времени я пытаюсь понять, почему некоторые вещи работают медленно и как сделать так, чтобы у них это получалось чуточку быстрее.

Если вы запускали локальную LLM, то, возможно, тоже удивлялись: почему железо, способное рендерить фотореалистичные миры в реальном времени, работает в темпе печатной машинки? В своей статье я попробую хотя бы отчасти ответить на этот вопрос. Под микроскопом посмотрим на механизм Attention в режиме генерации (декодирования) и, вооружившись лучшими современными практиками ускорения на GPU, объединим всю математику в один эффективный kernel, который выжмет максимум производительности из имеющегося у нас железа.

Подробнее

Читайте также

Blueprint VM изнутри: ~80 инструкций, которые двигают вашу игру
10.03.2026 07:00:43 | Хабр

Время в BPMN
10.03.2026 07:00:43 | Хабр

Мифы про REST API. Часть 2
10.03.2026 06:59:15 | Хабр

Поколение JSON: цена удобных абстракций и упадок культуры ресурсов
10.03.2026 06:47:41 | Хабр

Наблюдаемость LLM-агентов: Часть 2. Разработка и отладка графа
10.03.2026 06:37:27 | Хабр

Простые проблемы, которые мы решали в ИИ-стартапе
10.03.2026 06:33:37 | Хабр

Интеграция «Честного знака» или законы Мерфи в разработке
10.03.2026 06:22:34 | Хабр

[Перевод] Сэм Альтман собрал больше денег, чем ВВП 140 стран. Их хватило на два года. Что будет дальше?
10.03.2026 06:22:27 | Хабр

Почему мы ненавидим, но так любим нейросети
10.03.2026 06:18:28 | Хабр

«Принеси-подай, отвали и не мешай»: что такое агентность и почему менеджеру её не хватает
10.03.2026 06:00:22 | Хабр

AI-агент с долгосрочной памятью: строю личного аналитика с Claude Code
10.03.2026 05:59:05 | Хабр

Мониторинг частоты упоминаний бренда в ChatGPT и Яндекс Алисе, карта ПДн вашего бизнеса — и еще 8 российских стартапов
10.03.2026 05:45:20 | Хабр

Воплощение it проекта в реальном производстве. Практический кейс из металлургии
10.03.2026 05:33:53 | Хабр

Конструктор табличных значений, UNNEST(), TABLE(), STRING_SPLIT(), JSON_TABLE() — замена временным таблицам в SQL
10.03.2026 05:28:41 | Хабр

Как уместить опыт в одностраничный PDF
10.03.2026 05:16:14 | Хабр

9 событий в мире ИИ, которые завирусились в соцсетях 24 февраля — 9 марта 2026 года
10.03.2026 05:10:42 | Хабр

Unreal Engine 5.4 + C++ + MacOS Tahoe + Android build = Build Successful
10.03.2026 03:15:56 | Хабр

Концепция кастомизированных ИИ-агентов как «виртуальных аватаров» человека
10.03.2026 01:19:21 | Хабр

Контракт вместо настроек: чего я жду от OLTP-БД
10.03.2026 01:07:46 | Хабр

Тёмная сторона крипты, аномалии и управление тысячами роботов
10.03.2026 00:24:42 | Хабр

Стики с эффектом Холла для неоригинального контроллера xbox 360
09.03.2026 22:00:32 | Хабр

Как построить DWDM-сеть в России
09.03.2026 21:57:55 | Хабр

От бронзы к золоту. Методика управления ETL-процессами через сквозную нумерацию пакетов с данными
09.03.2026 21:16:53 | Хабр

Lexometrica Ground Truth: бенчмарк LLM по российскому праву
09.03.2026 21:15:27 | Хабр

Lenovo показала концепт портативной консоли со складным экраном
09.03.2026 21:01:48 | ferra.ru

Смена парадигм в нейрофизиологии: от рефлекторной машины к самоорганизующейся системе
09.03.2026 20:51:16 | Хабр

Наблюдаемость LLM-агентов: Часть 1. Трассировка LangGraph и версионирование промптов с LangFuse
09.03.2026 20:41:58 | Хабр

Системная инженерия в бизнесе: архитектурный подход к построению компании, который корпорации применяют уже 50 лет
09.03.2026 19:16:17 | Хабр

IDE понимает ваш код. AI-агент — нет. Это можно исправить
09.03.2026 19:08:06 | Хабр

СМИ: Nvidia вернет в продажу видеокарты RTX 3060 с помощью Samsung
09.03.2026 19:01:49 | ferra.ru

Дорога к звездам начинается на Земле
09.03.2026 18:30:20 | Хабр

Лучшие виртуальные карты для оплаты зарубежных сервисов и расчётов за границей
09.03.2026 18:18:27 | Хабр

Обратная сторона лаконичности знаков в языках программирования
09.03.2026 18:16:11 | Хабр

Американский гиперзвук: догоняют Россию и Китай, или выходят вперёд?
09.03.2026 17:50:44 | ferra.ru

Между tail и ELK: пытаюсь собрать логи с нескольких серверов одной командой
09.03.2026 17:41:07 | Хабр

Смотреть все

НОВОСТИ

Книга Ходорковского «Как убить дракона?» попала в список экстремистских материалов
10.04.2026 16:39:00 | Lenta.ru

Инфляция в США выросла до 3,3%
10.04.2026 16:38:23 | ТАСС

В России мусульманам раскрыли правила намаза в космосе
10.04.2026 16:38:06 | Lenta.ru

Брест: Какие новинки готовит гостям "Беловежская пуща"
10.04.2026 16:38:00 | Российская Газета

Изрезавший друзей россиянин найден на ферме с изувеченными руками
10.04.2026 16:37:58 | Lenta.ru

Украинские специалисты ПВО провалили миссию на Ближнем Востоке
10.04.2026 16:37:00 | Российская Газета

В Ставропольском крае произошло страшное ДТП
10.04.2026 16:34:57 | Lenta.ru

Россиян призвали соблюдать за пасхальным столом два правила ради сохранения здоровья
10.04.2026 16:32:53 | Lenta.ru

Назван предвестник повышенного риска деменции
10.04.2026 16:32:50 | Lenta.ru

Ахматовцев поздравили с Пасхой и отправили им освященные куличи
10.04.2026 16:32:09 | Lenta.ru

Юля Савичева пришла на музыкальную премию в грязи и стала мемом
10.04.2026 16:32:00 | Life.ru

Press TV: Иран несколько раз откладывал отъезд делегации на переговоры в Исламабад
10.04.2026 16:31:51 | ТАСС

Ярославские предприятия ОПК участвуют в контрактах "Рособоронэкспорта"
10.04.2026 16:31:40 | ТАСС

В Минфине раскрыли доходы бюджета от размещения средств в финактивы в 2025 году
10.04.2026 16:31:25 | ТАСС

Доходность размещения средств ФНБ в валюте и золоте в 2025 году составила 0,21%
10.04.2026 16:30:38 | ТАСС

Тест: Только бывшие дети СССР смогут определить советский мультфильм по кадру с братом и сестрой!
10.04.2026 16:30:00 | Life.ru

Инфляция в Молдавии ускорилась в марте до 5,8%
10.04.2026 16:29:15 | ТАСС

Маттеус считает, что футболист "Баварии" Карл станет звездой через 5-8 лет
10.04.2026 16:28:48 | ТАСС

МО Великобритании сообщило о поставках в войска новых ракет-перехватчиков
10.04.2026 16:28:26 | ТАСС

Число пострадавших при взрыве на складе во Владикавказе выросло до 15
10.04.2026 16:28:02 | ТАСС

ИИ проигрывает все деньги на ставках на футбол
10.04.2026 16:28:00 | Российская Газета

Шаляпин раскрыл секрет стройности фразой «как можно отказаться от пельмешек?»
10.04.2026 16:28:00 | Lenta.ru

Трагедию с туристами на Камчатке описали фразой «как на перевале Дятлова»
10.04.2026 16:28:00 | Lenta.ru

В Госдуме объяснили, почему Армии России нужно гнать ВСУ до польской границы
10.04.2026 16:27:49 | Life.ru

Газманов сравнил важность таланта и образования
10.04.2026 16:26:28 | Lenta.ru

ФСБ внесла АКР в единый список террористических организаций
10.04.2026 16:26:11 | Life.ru

Мутная вода и риск инфекций: Как жителям Дагестана защитить себя во время паводка
10.04.2026 16:26:05 | Life.ru

В Дагестане порядка 1,3 тыс. человек привиты от гепатита А
10.04.2026 16:26:03 | ТАСС

Рабочие нашли окруженый черепами древний алтарь
10.04.2026 16:26:00 | Lenta.ru

Экс-президент Сурдлимпийского комитета России Рухледев умер в 81 год
10.04.2026 16:25:26 | Life.ru

Дело о банковской деятельности под контролем криминальных авторитетов передали в суд
10.04.2026 16:24:58 | ТАСС

В ЮАР возложили цветы к памятнику Гагарина
10.04.2026 16:24:31 | ТАСС

Принтер для "сухой печати" компонентов микроэлектроники готов к производству
10.04.2026 16:24:29 | ТАСС

СКР отказал ФНС в возбуждении нового дела против Лерчек
10.04.2026 16:24:23 | Коммерсантъ

Более 16 тыс. студентов-медиков примут участие в проектах РСО летом 2026 года
10.04.2026 16:23:22 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro