Операция выполнена!
Закрыть
Хабы: Машинное обучение, Искусственный интеллект

Я собрал четыре модели в один батч — две Gemma, DeepSeek V4 Flash и Qwen3-235B — потому что не поверил кросс-сессионным данным: выходило, что маленькая Gemma обошла большую. В честной очной ставке сюрприз развеялся, обе Gemma оказались вровень. Зато всплыло другое. DeepSeek V4 Flash, который у меня числился на 83, выдал 89 — был недооценён на 6 баллов. А Qwen3-235B-A22B-2507 — модель, вышедшая 21 июля 2025 года, — снова взяла первое место по цене/качеству. Почти год прошёл: Gemini прыгнул с 57 до 97, DeepSeek я перетестировал трижды, MiniMax все хвалят как ровню Opus. А этот июльский чекпойнт просто держит трон, и я уже почти обижаюсь за прогресс. В статье: разбор очной ставки, хронология ретестов одной модели за год, новый критерий — скорость генерации, ещё восемь моделей июня, непопулярное мнение про раскрутку MiniMax и две новые колонки на лидерборде.

Читать далее
Читайте также
НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro