Обучение хитового DeepSeek обошлось в сотни раз дешевле, чем ChatGPT: названа точная сумма

20.09.2025 08:04:00 | iXBT.com

Китайский разработчик DeepSeek заявил, что потратил 294 000 долларов на обучение своей модели R1, что значительно меньше показателей, озвученных американскими конкурентами.

В начале года DeepSeek произвела фурор со своей новой моделью, с тех пор компания и ее основатель Лян Вэньфэн практически исчезли из поля зрения общественности, за исключением нескольких обновлений. В статье в журнале Nature, где Лян указан в качестве одного из соавторов, говорится, что обучение модели DeepSeek R1, ориентированной на рассуждения, обошлось в 294 000 долларов, для чего было использовано 512 процессоров Nvidia H800. Они были разработаны компанией Nvidia для китайского рынка после того, как в октябре 2022 года США запретили компании экспортировать в Китай более мощные ИИ-чипы H100 и A100.

Сэм Альтман, генеральный директор американского гиганта искусственного интеллекта OpenAI, заявил в 2023 году, что обучение базовых моделей обошлось «гораздо дороже» 100 миллионов долларов, хотя его компания не предоставила подробных данных ни по одному из своих релизов.

Некоторые заявления DeepSeek о расходах на разработку и использованных технологиях подверглись сомнению со стороны американских компаний и официальных лиц.

Изображение Midjourney

В июне американские официальные лица сообщили агентству Reuters, что DeepSeek имеет доступ к «большим объёмам» чипов H100, закупленных после введения экспортного контроля США. В то же время Nvidia сообщила агентству Reuters, что DeepSeek использовала законно приобретённые процессоры H800, а не H100.

Теперь же компания впервые признала, что владеет процессорами A100, и сообщила, что использовала их на подготовительных этапах разработки.

«Что касается нашего исследования DeepSeek-R1, мы использовали графические процессоры A100 для подготовки к экспериментам с меньшей моделью», — написали исследователи. После этого начального этапа R1 обучался в общей сложности 80 часов на кластере из 512 чипов H800, добавили они.

Ранее агентство Reuters сообщало, что одной из причин, по которой DeepSeek удалось привлечь самые яркие умы Китая, стало то, что она была одной из немногих китайских компаний, эксплуатировавших суперкомпьютерный кластер с процессорами A100.

DeepSeek готовится к запуску ИИ-агента нового поколения к концу 2025 года. Компания из Ханчжоу разрабатывает систему, способную выполнять сложные многоэтапные задачи с минимальным участием пользователя. Модель также будет обучаться на основе своих прошлых действий, чтобы со временем повысить свою производительность. Компания также теперь добавляет обязательные метки контента, генерируемые ИИ.

Подробнее