Apple объявила о сотрудничестве с Nvidia в целях ускорения работы крупных языковых моделей (LLM) с использованием технологии с открытым исходным кодом Recurrent Drafter (сокращённо ReDrafter). Партнёрство направлено на решение вычислительных задач при авторегрессивной генерации токенов, что критически важно для повышения эффективности и снижения задержек в приложениях с языковыми моделями, работающими в реальном времени.
ReDrafter, представленный Apple в ноябре 2024 года, использует подход спекулятивного декодирования, объединяя рекуррентную нейронную сеть (RNN) с поиском и динамическим древовидным вниманием. Согласно тестам Apple, этот метод генерирует в 2,7 раза больше токенов в секунду по сравнению с традиционной авторегрессией.
Источник: Bloomberg
Благодаря интеграции во фреймворк Nvidia TensorRT-LLM, ReDrafter расширяет своё влияние, обеспечивая более быструю работу языковых моделей на GPU Nvidia, широко используемых в производственных средах. Для поддержки алгоритмов ReDrafter компания Nvidia внедрила новые операторы и модифицировала существующие в TensorRT-LLM, сделав технологию доступной для разработчиков, стремящихся оптимизировать производительность крупномасштабных моделей.
Помимо увеличения скорости, Apple утверждает, что ReDrafter способен снизить задержку для пользователей при использовании меньшего количества GPU. Такая эффективность не только снижает вычислительные затраты, но и уменьшает энергопотребление, что является важным фактором для организаций, работающих с искусственным интеллектом в больших масштабах.
Хотя в настоящее время сотрудничество сфокусировано на инфраструктуре Nvidia, в будущем аналогичные преимущества производительности могут быть распространены и на конкурирующие GPU от AMD или Intel.
По словам представителей Nvidia: «Это сотрудничество сделало TensorRT-LLM более мощным и гибким, позволяя сообществу разработчиков языковых моделей создавать более сложные модели и легко развёртывать их с помощью TensorRT-LLM для достижения непревзойдённой производительности на GPU Nvidia. Новые возможности открывают захватывающие перспективы, и мы с нетерпением ждём следующего поколения передовых моделей от сообщества, использующих возможности TensorRT-LLM, что приведёт к дальнейшему улучшению работы языковых моделей».