Операция выполнена!
Закрыть
Хабы: Блог компании BotHub, Искусственный интеллект, Исследования и прогнозы в IT, Занимательные задачки, JavaScript

Stop. Хватит читать обзоры бенчмарков.

Они не расскажут, почему ChatGPT увидел 127 точек, а Gemini – только 57. Не объяснят, зачем Claude добавил рекламу в игру, которая должна была быть “просто раздражающей”.

И уж точно не покажут, кто из них думает, а кто просто генерирует текст.

Мы провели стресс-тест в пяти раундах.

Раунд 1: Вопрос, который меняет мышление.
Раунд 2: Мультимодальный подсчёт – где ИИ должен видеть.
Раунд 3: Печеньки на чёрной поверхности – где должен догадываться.
Раунд 4: Экстремальное судоку – логически рассуждать.
Раунд 5: Игра одним HTML-файлом – творить.

Время гадать закончилось. Пока одни спорят, кто круче – ChatGPT, Gemini или Claude, – мы просто взяли и проверили. Не на бумажке. Не по цифрам из пресс-релизов. На реальных задачах.

За пять испытаний каждая модель показала своё истинное лицо. Кто-то споткнулся на простом подсчёте точек. Кто-то удивил философской глубиной. А кто-то создал игру, которую не стыдно выложить в аппстор.

И да, победитель есть.

Смотрите, кто из гигантов действильно тянет.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro