Обучение больших языковых моделей обходится невероятно дорого. Дело не только в количестве графических процессоров; важно и то, насколько эффективно их используют. И по мере масштабирования моделей даже небольшие потери времени и энергии могут превратиться в огромные затраты.
Теперь группа исследователей из Массачусетского технологического института в сотрудничестве с такими компаниями, как NVidia, заявляет, что нашла удивительно практичный способ высвободить вычислительные ресурсы, которые впустую тратятся во время обучения, — в некоторых случаях это позволяет сократить общее время обучения почти вдвое.
Проблема, которую они пытаются решить, заключается в обучении с подкреплением (RL), особенно на так называемой фазе «внедрения». На этом этапе модель генерирует несколько вариантов ответов, чтобы научиться определять, какие действия приводят к лучшим результатам. Это крайне важно для моделей обучения с подкреплением, ориентированных на рассуждения, но это также медленный процесс.
Фактически, этап развертывания может составлять до 85% от общего времени выполнения. Виновником является то, что исследователи называют «распределением с длинным хвостом» длительности ответов. Большинство сгенерированных ответов завершаются быстро. Но небольшое количество занимает гораздо больше времени, чем в среднем. Поскольку графическим процессорам необходимо синхронизироваться, более быстрые из них часто простаивают, ожидая завершения работы отстающих.

Решение команды из MIT, получившее название Taming the Long Tail (TLT), напрямую решает проблему неэффективного использования ресурсов. Вместо того чтобы оставлять графические процессоры простаивать в течение длительных поколений, TLT использует это время простоя для обучения облегченной «черновой» модели в режиме реального времени. Эта уменьшенная модель непрерывно обучается на основе основной модели по мере продвижения обучения.
Эта идея основана на спекулятивном декодировании — методе, при котором меньшая модель предсказывает токены раньше основной модели, что позволяет проверять несколько токенов параллельно. Традиционное спекулятивное декодирование опирается на фиксированную черновую модель, которая быстро устаревает по мере развития основной модели в процессе обучения с подкреплением. TLT меняет эту динамику. В экспериментах с использованием нескольких моделей обучения с логической ориентацией и реальных наборов данных результаты оказались значительными. Исследователи сообщают об ускорении обучения от 70% до 210% по сравнению с сильными базовыми моделями, что фактически удваивает скорость обучения во многих сценариях. Важно отметить, что точность модели осталась неизменной.
-
«Это не нож»: ракета HASTE с гиперзвуковым аппаратом DART AE успешно стартовала
28.02.2026 07:54:00 | iXBT.com
Starship нового поколения оказался выше и получил ряд очень важных доработок
28.02.2026 07:47:00 | iXBT.com
В России разработали «Дроноскоп» для перехвата видеосигнала FPV-дронов
28.02.2026 07:33:00 | iXBT.com
NASA меняет программу Artemis: отказ от ракеты за $4 млрд, интервал между миссиями хотят сократить с 42 до 10 месяцев
28.02.2026 07:24:00 | iXBT.com
В чём камера Samsung Galaxy S26 Ultra оказалась лучше Galaxy S25 Ultra, подробно объяснил Ice Universe
28.02.2026 07:18:00 | iXBT.com
7000 мАч, 68 Вт, IP69 и имитация льна. Опубликованы качественные рендеры Motorola Edge 70 Fusion+
28.02.2026 02:30:00 | iXBT.com
Мощь 16 ядер флагманского Ryzen 9 9955HX в корпусе объемом 1,7 литра. Представлен уникальный мини-сервер Minisforum MS-A2 — с портами 10G SFP+ и поддержкой U.2
28.02.2026 01:57:00 | iXBT.com
Эффект Galaxy S26 и 2-нанометровых чипов: Samsung стала первой корейской компанией стоимостью более 1 триллиона долларов
28.02.2026 01:42:00 | iXBT.com
Новый способ отличить жизнь от неживой материи: аминокислоты и энергетические зазоры
27.02.2026 22:42:00 | iXBT.com
Двойные солнечные транзиты Фобоса и Деймоса: редкое марсианское шоу на тысячу лет
27.02.2026 22:25:00 | iXBT.com
АТ 2024wpp: самая яркая быстрая оптическая вспышка указала на слияние чёрной дыры и массивной звезды
27.02.2026 22:04:00 | iXBT.com
Не клон Geely Monjaro, а настоящая новая Volga. Глава бренда заявила: «Мы не сотрудничаем с Geely. Ни напрямую, ни косвенно»
27.02.2026 21:14:00 | iXBT.com
Sony и Toyota крупно вложились в конкурента TSMC: Rapidus к 2027 году планирует запустить производство 2-нанометровых чипов
27.02.2026 19:33:00 | iXBT.com
NASA отменило высадку астронавтов на Луну в 2027 году — сроки сдвигаются на год
27.02.2026 19:08:00 | iXBT.com
Бывший глава Twitter Джек Дорси объяснил, что ИИ радикально меняет требования к персоналу — и сократил персонал на 40%
27.02.2026 18:52:00 | iXBT.com
Почти Lumia, и даже со встроенным FM-приемником. Представлен бюджетный смартфон HMD Luma
27.02.2026 18:48:00 | iXBT.com
В Россию привезут китайский Toyota RAV4: «Рольф» анонсировал поставки обновленных Toyota Wildlander
27.02.2026 18:16:00 | iXBT.com
Инновации Samsung не зашли покупателям. Компания признала провал сверхтонкого Galaxy S25 Edge и Galaxy Z TriFold за 3000 долларов
27.02.2026 17:33:00 | iXBT.com
Активность Солнца грозит лунной миссии Artemis 2: суперсполохи могут поставить под угрозу экипаж
27.02.2026 17:13:00 | iXBT.com
«Нива» для диких лесов: в Брянске готовят к выпуску бюджетный вездеход BNM Model 4x4 за 1 млн рублей и на агрегатах Niva Legend
27.02.2026 16:53:00 | iXBT.com
Американский премиум как альтернатива китайскому: «Рольф» привезет в Россию новый Cadillac Vistiq — 624 л.с., 6 мест, звук как в кино и 5-зонный климат-контроль
27.02.2026 16:12:00 | iXBT.com
«Волга 2.0». Новые машины Volga еще не представлены в России, но бренд работает уже над моделями следующего поколения
27.02.2026 16:02:00 | iXBT.com
Крупное издание заменило журналистов на ИИ – после этого обзор Resident Evil Requiem и другие статьи Videogamer удалили с Metacritic
27.02.2026 15:44:00 | iXBT.com
Эти процессоры Intel будут иметь только большие ядра. Core 9 273PQE линейки Bartlett Lake-S засветился на фото на обычной плате Asus
27.02.2026 15:29:00 | iXBT.com
Ожидается, что новый самый дешёвый MacBook на SoC A18 Pro будет стоить 700-750 долларов
27.02.2026 15:22:00 | iXBT.com
AMD действительно готовит конкурента для GeForce RTX 6090? Видеокарта на топовом GPU AT0 выйдет, но будет доступна в ограниченном количестве
27.02.2026 15:12:00 | iXBT.com
Пользователь купил паллету с хламом за 100 долларов и нашел внутри 40 модулей DDR по 16 ГБ на 7000 долларов
27.02.2026 15:05:00 | iXBT.com
-
Эксперты так и не поняли, на каком основании в США запретили ИИ Anthropic
19.06.2026 11:59:52 | ferra.ru
Российский рынок промышленной робототехники вырастет с 78 до 630 млрд рублей
19.06.2026 10:38:38 | it-world
SpaceX запланировала разместить облигации на $20 млрд, чтобы погасить кредит на покупку xAI — СМИ
19.06.2026 10:16:28 | vc.ru
История о том, как мультикаст IGMP‑запрос перестал быть запросом и стал broadcast‑штормом
19.06.2026 08:50:27 | Хабр
Из 360°-панорамы авто в настоящий 3D: Gaussian Splatting на чужих фотографиях машин
19.06.2026 08:40:57 | Хабр
День 1577: Минфин отказался от расширения налоговых льгот для электроники, роботов и беспилотных систем
19.06.2026 08:31:25 | vc.ru
Как собственные головные боли привели меня к созданию приложения для анализа метеозависимости
19.06.2026 08:08:25 | Хабр
Новый роман Насти Мироновой: Собчак рассекретила ее влиятельного избранника
19.06.2026 08:08:24 | Woman.ru
CancelledError — не просто очередная ошибка. Разбираемся, как устроена отмена задач в asyncio
19.06.2026 08:01:07 | Хабр
СПОТ с 1 июня 2026 года: новые правила ввоза товаров из ЕАЭС и что нужно сделать уже сейчас
19.06.2026 08:00:48 | Хабр
Исследование Selectel: каждая четвертая российская компания использует ИИ в облаке
19.06.2026 08:00:39 | Хабр
Манная каша на молоке с фруктами, пошаговый рецепт с фото на 642 ккал
19.06.2026 08:00:00 | ГАСТРОНОМЪ
Новые приключения советских мультфильмов: что еще переснимут из вечной детской классики
19.06.2026 07:49:24 | Кинопоиск
Вы можете похудеть и накачаться даже если у вас нет времени. Вот ТОП 5 инструментов
19.06.2026 07:40:33 | Хабр
Почему Солнце светит, а чайник — нет. Разбираемся в недостающем звене между термоядерным синтезом и видимым светом
19.06.2026 07:32:02 | Хабр
Техническая поддержка проекта ВсеТут