Хабы: Искусственный интеллект, Машинное обучение, Natural Language Processing
Франсуа Шолле, создатель фреймворка Keras и основатель ARC Prize Foundation, поделился итогами тестов новой модели o3 от OpenAI в тестах бенчмарка ARC-AGI-Pub. Эта модель достигла впечатляющего результата — 75,7% на полу-приватном наборе оценки при соблюдении установленного публичного лимита вычислительных ресурсов в $10 тысяч. Конфигурация o3 с увеличенным уровнем вычислений (172-кратное увеличение) показала результат 87,5%.
Этот результат представляет собой неожиданный и значительный скачок в возможностях искусственного интеллекта, демонстрируя способность к адаптации к новым задачам, ранее невиданную в моделях семейства GPT. Для сравнения, ARC-AGI-1 потребовал 4 года, чтобы повысить результат с 0% у GPT-3 в 2020 году до 5% у GPT-4o в 2024 году. Все представления о возможностях ИИ требуют пересмотра подхода к бенчмаркам ARC в свете достижений o3.
Читать далее