Ещё для обучения GPT-4 компания создала модель транскрипции аудио Whisper и в итоге перевела в текст более миллиона часов видео с YouTube. The New York Times говорит, что OperAI прекрасно понимала, что это серая зона с юридической точки зрения, но всё равно пошла на это. Вполне возможно, сейчас для обучения GPT-5 компания пользуется в том числе этим же методом.
Источник говорит, что уже для GPT-4 компания OpenAI фактически исчерпала все запасы качественных данных для обучения, причём ещё в 2021 году.