
Илон Маск присоединился к мнению других экспертов в области искусственного интеллекта о том, что реальных данных для обучения ИИ-моделей практически не осталось.
«Мы исчерпали практически весь накопленный объём человеческих знаний для обучения ИИ. Это произошло фактически в прошлом году», — заявил Маск во время трансляции беседы с председателем Stagwell Марком Пенном на платформе X.
Маск, владелец компании xAI, поддержал идеи, которые бывший главный научный сотрудник OpenAI Илья Суцкевер озвучил на конференции по машинному обучению NeurIPS в декабре. Суцкевер, заявивший о достижении «пика данных» в индустрии ИИ, предсказал, что нехватка обучающих данных вынудит изменить существующие подходы к разработке моделей.

Маск предложил решение — использование синтетических данных, генерируемых самими ИИ-моделями. «Единственный способ дополнить реальные данные — это синтетические данные, где ИИ сам создаёт обучающие материалы. С синтетическими данными ИИ будет оценивать себя сам и проходить через процесс самообучения», — отметил он.
Крупные технологические компании, включая Microsoft, Meta*, OpenAI и Anthropic, уже используют синтетические данные для обучения своих флагманских ИИ-моделей. По оценкам Gartner, 60% данных, используемых для проектов в области ИИ и аналитики в 2024 году, были сгенерированы синтетически. Модель Microsoft Phi-4, открытый код которой был опубликован на этой неделе, обучалась на комбинации синтетических и реальных данных. Аналогичный подход использовался при создании моделей Google Gemma. Anthropic применила синтетические данные при разработке одной из своих самых эффективных систем — Claude 3.5 Sonnet, а Meta* улучшила последнюю серию моделей Llama с помощью ИИ-генерированных данных.
Обучение на синтетических данных имеет ряд преимуществ, включая экономическую эффективность. Стартап Writer утверждает, что их модель Palmyra X 004, разработанная почти полностью на синтетических источниках, обошлась всего в $700 000 — по сравнению с оценочной стоимостью в $4,6 миллиона за сопоставимую модель OpenAI.
Однако существуют и недостатки. Некоторые исследования показывают, что синтетические данные могут привести к «коллапсу модели», когда ИИ становится менее «креативным» и более предвзятым в своих результатах, что в конечном итоге может серьёзно нарушить его функциональность. Поскольку модели создают синтетические данные на основе уже существующих, любые предубеждения и ограничения в исходных данных будут воспроизводиться в их результатах.
*Meta признана экстремистской организацией, её деятельность на территории Российской Федерации запрещена
-
09.01.2025 09:27:00 | iXBT.com
09.01.2025 09:12:00 | iXBT.com
09.01.2025 09:03:00 | iXBT.com
09.01.2025 08:55:00 | iXBT.com
09.01.2025 04:22:00 | iXBT.com
09.01.2025 03:47:00 | iXBT.com
09.01.2025 03:33:00 | iXBT.com
09.01.2025 03:14:00 | iXBT.com
09.01.2025 02:32:00 | iXBT.com
09.01.2025 00:48:00 | iXBT.com
09.01.2025 00:00:00 | iXBT.com
08.01.2025 23:46:00 | iXBT.com
08.01.2025 23:41:00 | iXBT.com
08.01.2025 23:33:00 | iXBT.com
08.01.2025 23:24:00 | iXBT.com
08.01.2025 23:21:00 | iXBT.com
08.01.2025 23:09:00 | iXBT.com
08.01.2025 22:01:00 | iXBT.com
08.01.2025 21:55:00 | iXBT.com
08.01.2025 21:20:00 | iXBT.com
08.01.2025 20:55:00 | iXBT.com
08.01.2025 20:46:00 | iXBT.com
08.01.2025 20:18:00 | iXBT.com
08.01.2025 20:09:00 | iXBT.com
08.01.2025 19:58:00 | iXBT.com
08.01.2025 19:53:00 | iXBT.com
08.01.2025 18:59:04 | Ведомости
08.01.2025 16:56:00 | iXBT.com
08.01.2025 16:53:00 | iXBT.com
-
12.03.2025 17:12:12 | ferra.ru
12.03.2025 17:10:06 | ferra.ru
12.03.2025 16:15:16 | vc.ru
12.03.2025 15:45:00 | ferra.ru
12.03.2025 14:30:26 | Хабр
12.03.2025 14:23:23 | Хабр
12.03.2025 14:15:00 | ferra.ru
12.03.2025 14:05:59 | Хабр
12.03.2025 14:03:58 | Хабр
12.03.2025 13:43:52 | vc.ru
12.03.2025 13:36:03 | Хабр
12.03.2025 13:30:00 | ferra.ru
12.03.2025 13:28:13 | Хабр
12.03.2025 13:24:48 | it-world
12.03.2025 13:16:31 | Хабр
12.03.2025 13:00:06 | Хабр
Техническая поддержка проекта ВсеТут