Операция выполнена!
Закрыть

Команда Яндекса повысила эффективность обучения больших языковых моделей (LLM), сохранив качество и масштаб разработок. Как рассказали в Яндексе, благодаря глубокой оптимизации инфраструктуры, компания сократила операционные расходы, достигнув годовой экономии в 4,8 млрд рублей —  в среднем 400 млн рублей ежемесячно.

Сгенерировано нейросетью Grok

Ключевую роль сыграла собственная разработка — библиотека YCCL (Yet Another Collective Communication Library), ускорившая обмен данными между графическими процессорами в 2 раза и уменьшившая объём передаваемой информации. Кроме того, управление было перенесено с графических на центральные процессоры. В Яндексе подчеркнули:

Библиотека YCCL масштабируется на крупные кластеры, а её аналоги есть лишь у ведущих мировых компаний — Meta*, AMD — и китайских IT-гигантов.

Дополнительную эффективность обеспечил переход на формат FP8 с пониженной точностью вычислений, ускоривший обучение моделей на 30% и сокративший коммуникации в 2 раза. Яндекс увеличил батч до 16–32 млн токенов, что позволило обучать модели без простоев графических процессоров. Компания также повысила стабильность IT-инфраструктуры, снизив число аппаратных сбоев и расходы на перезапуск обучения. Улучшения коснулись и кода, и архитектурных решений, что повысило общую функциональность системы.

* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена.

Читайте также
ЛЕНТА

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro