Ускорение LLM: универсальные методы для популярных архитектур

Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Ускорение LLM: универсальные методы для популярных архитектур

05.02.2025 07:00:29 | Хабр

Хабы: Блог компании Яндекс, Машинное обучение, Искусственный интеллект, Алгоритмы, Программирование

ML‑модели применяются в сервисах Яндекса уже много лет, мы накопили большой опыт в их обучении. Статьи об этом коллеги регулярно публикуют, в том числе на Хабре. Но сегодня хочу обсудить другую не менее важную задачу — ускорение инференса (процесса работы на конечном устройстве) моделей. Скорость зависит от разных условий, главным образом от архитектуры и железа, но есть множество интересных способов повлиять на неё. Особенно актуальна проблема тяжёлого инференса при использовании больших языковых моделей (LLM) — на то они и large!

Для команды YandexGPT, в которой я и тружусь вместе со своими коллегами, тема инференса LLM находится в разряде вечных вопросов. С предыдущей статьи прошёл уже почти год, опыта у нас стало больше — получилось протестировать новые подходы, которыми и хочется поделиться сегодня.

Читать далее

Подробнее

Читайте также

[Перевод] Биохакинг старения. Ошибка на миллионы?
05.02.2025 07:00:10 | Хабр

Ретро девайсы
05.02.2025 06:53:42 | Хабр

Как оптимизировать производительность API при высокой нагрузке
05.02.2025 06:51:27 | Хабр

[Перевод] Новости о макросах и сериализации данных в Dart
05.02.2025 06:32:11 | Хабр

Тест 12 HDD 15k SAS в RAID0 и актуальность использования
05.02.2025 06:15:42 | Хабр

О важности мотивации для тех, кто хочет «войти в айти» программистом
05.02.2025 06:15:35 | Хабр

Ученые нашли способ диагностировать диабет и деменциюа по глазам
05.02.2025 06:00:00 | ferra.ru

Автоматизированный QoS на VPN-сервере с FireQoS и iftop
05.02.2025 05:16:16 | Хабр

ИИ-карта брюшной полости поможет выявить рак на ранних стадиях
05.02.2025 05:15:02 | ferra.ru

Типовые ошибки самодельных ЦОДов
05.02.2025 05:02:02 | Хабр

Для облегчения боли оказался важен темп музыки
05.02.2025 04:30:00 | ferra.ru

Врачи предупредили о связи хронического недосыпа с высоким риском рака
05.02.2025 04:18:02 | ferra.ru

Стоматолог предупредил о вреде проглатывания ополаскивателя для рта
05.02.2025 04:12:03 | ferra.ru

Психиатр рассказал о связи панических атак и дефицита солнечного света
05.02.2025 04:02:30 | ferra.ru

Цирроз и алкогольный гепатит: врач объяснил, чем алкоголь опасен для печени
05.02.2025 03:45:00 | ferra.ru

Маппинг без мучений: упрощаем жизнь системным администраторам
05.02.2025 03:00:41 | Хабр

Один график сна в будни и выходные: названы способы лучше спать по ночам
05.02.2025 03:00:00 | ferra.ru

Жестокость и другие неожиданные факты о синицах
05.02.2025 02:15:00 | ferra.ru

В мозге микропластика оказалось больше, чем в других органах
05.02.2025 01:30:00 | ferra.ru

Битва бюджетных видеокарт: RX 6600 XT против RTX 3060 и 4060
05.02.2025 00:45:00 | ferra.ru

Названы плюсы и минусы Realme 14 Pro+ по итогам длительного теста
05.02.2025 00:00:00 | ferra.ru

TSMC повысит цены на чипы более чем на 15% в 2025 году
04.02.2025 23:15:00 | ferra.ru

Использование ИИ в разработке сайтов
04.02.2025 22:33:50 | Хабр

Стоит ли доплачивать за Xiaomi Redmi Note 14 Pro+ вместо базового Note 14
04.02.2025 22:30:00 | ferra.ru

ChameleonUltra: открытый инструмент для работы с RFID
04.02.2025 22:00:25 | Хабр

Intel получила 536 миллионов долларов от ЕС после отмены антимонопольного штрафа
04.02.2025 21:45:00 | ferra.ru

Новые «серые» смартфоны Samsung оказались «заточены» под зарубежные рынки
04.02.2025 21:40:44 | ferra.ru

Канада аннулировала контракт с Starlink на $ 100 млн из-за тарифов США
04.02.2025 21:00:00 | ferra.ru

OpenAI регистрирует новые товарные знаки от ИИ-гаджетов до роботов
04.02.2025 20:30:19 | it-world

Сулейман Керимов владел долей в SpaceX, находясь под санкциями
04.02.2025 20:18:36 | it-world

OpenAI будет сотрудничать с крупнейшей социальной сетью Южной Кореи
04.02.2025 20:15:52 | ferra.ru

Защита
04.02.2025 19:57:50 | Хабр

Google подала апелляцию против решения суда в пользу Epic Games
04.02.2025 19:30:02 | ferra.ru

[Перевод] Топ-10 техник атак веб-приложений 2024 года
04.02.2025 19:22:32 | Хабр

Дизайн A/B-теста: как небольшие изменения влияют на результаты
04.02.2025 19:15:49 | Хабр

Смотреть все

СТАТЬ АВТОРОМ

НОВОСТИ

Лавров: Зеленский не сможет сместить фокус с проблемы русского языка на Украине
24.08.2025 13:19:33 | РЕН ТВ

Проходящего по делу о "Северных потоках" украинца оставили под арестом
24.08.2025 13:17:50 | ТАСС

Зеленский исключил компромиссы в переговорах с Россией
24.08.2025 13:17:27 | РЕН ТВ

Лавров: Запад ищет повод, чтобы не допустить переговоры по Украине
24.08.2025 13:16:18 | РЕН ТВ

Собянин назвал причину пожара в Центральном детском мире в Москве
24.08.2025 13:16:00 | Lenta.ru

От "Кургана Славы" до Ржева проходит марафон колясочников Союзного государства
24.08.2025 13:16:00 | Российская Газета

Прокуратура начала доследственную проверку по факту ЧП в ЦДМ
24.08.2025 13:15:46 | ТАСС

Доннарума перейдет в «Манчестер Сити»
24.08.2025 13:14:26 | Lenta.ru

Названа возможная причина ЧП в ЦДМ в Москве
24.08.2025 13:13:34 | ТАСС

Что известно о ЧП в Центральном детском мире в Москве
24.08.2025 13:12:17 | ТАСС

Экс-главу хабаровского Минздрава обвинили в двух эпизодах крупной растраты
24.08.2025 13:12:11 | ТАСС

В Севастополе прогнозируют увеличение ВРП в 2025 году на 10%
24.08.2025 13:09:39 | ТАСС

Рудковская рассказала, как спасла Чумакова от инвалидности
24.08.2025 13:09:26 | Life.ru

Канада вооружит Украину на миллиард долларов
24.08.2025 13:07:53 | Lenta.ru

Купят вдвое дороже: Царёв рассказал, кто расплатится за украинский кризис
24.08.2025 13:07:07 | Life.ru

В Минобороны России раскрыли цели атак по объектам Украины
24.08.2025 13:06:20 | Lenta.ru

В Ленобласти при столкновении двух катеров пострадали семь человек
24.08.2025 13:06:16 | ТАСС

Зацепило девушку: В сквере Новосибирска произошла перестрелка молодёжи
24.08.2025 13:04:29 | Life.ru

Лавров: Зеленский артачится, требуя немедленной встречи с Путиным
24.08.2025 13:03:00 | Российская Газета

В горах Дагестана после падения машины с обрыва один человек погиб
24.08.2025 13:02:51 | ТАСС

МИД России рассказал о планах Запада сорвать урегулирование конфликта
24.08.2025 13:01:32 | Lenta.ru

Тест: Кто попал в тюрьму, а кого избивал муж — слабо вспомнить печальную судьбу этих звёзд СССР?
24.08.2025 13:00:00 | Life.ru

ФСБ: система РЭБ за неделю уничтожила над ДНР почти 800 украинских БПЛА
24.08.2025 12:59:53 | ТАСС

Движение на Лубянской площади в Москве ограничено из-за ЧП в ЦДМ
24.08.2025 12:59:53 | ТАСС

Лавров прокомментировал условия Зеленского для ведения переговоров по Украине
24.08.2025 12:59:45 | Lenta.ru

Скотт Риттер после поездки в РФ отправил письмо Трампу с призывом развивать диалог
24.08.2025 12:59:34 | ТАСС

Россия снизила закупки одной китайской продукции
24.08.2025 12:59:00 | Lenta.ru

Напарник альпинистки Наговициной вернулся в Россию и будет проходить лечение
24.08.2025 12:58:48 | ТАСС

Сын экс-чемпиона UFC Джексон избил рестлера до полусмерти на шоу в США
24.08.2025 12:55:52 | РЕН ТВ

Семейный отдых закончился трагедией: Двое детей погибли в стамбульском отеле после ужина
24.08.2025 12:55:13 | Life.ru

Боксер Гассиев досрочно победил американца в бою в США
24.08.2025 12:55:01 | РБК

Обвиняемый в подрыве «Северных потоков» оказался штатным командиром ВСУ
24.08.2025 12:54:12 | РБК

Депздрав Москвы сообщил о трех пострадавших в ЦДМ после взрыва баллона с гелием
24.08.2025 12:54:04 | Коммерсантъ

Индия представила проект собственной орбитальной станции: первый модуль стартует в 2028 году
24.08.2025 12:54:00 | iXBT.com

Спасатели свернут лагерь и не будут пытаться забрать россиянку Наговицину с пика Победы
24.08.2025 12:53:28 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2025 - vsetut.pro