Модели почти год, а она всё ещё №1 по цене/качеству. Прогнал свежий батл-тест — и опять не сдвинул

11.06.2026 13:43:05 | Хабр

Хабы: Машинное обучение, Искусственный интеллект

Я собрал четыре модели в один батч — две Gemma, DeepSeek V4 Flash и Qwen3-235B — потому что не поверил кросс-сессионным данным: выходило, что маленькая Gemma обошла большую. В честной очной ставке сюрприз развеялся, обе Gemma оказались вровень. Зато всплыло другое. DeepSeek V4 Flash, который у меня числился на 83, выдал 89 — был недооценён на 6 баллов. А Qwen3-235B-A22B-2507 — модель, вышедшая 21 июля 2025 года, — снова взяла первое место по цене/качеству. Почти год прошёл: Gemini прыгнул с 57 до 97, DeepSeek я перетестировал трижды, MiniMax все хвалят как ровню Opus. А этот июльский чекпойнт просто держит трон, и я уже почти обижаюсь за прогресс. В статье: разбор очной ставки, хронология ретестов одной модели за год, новый критерий — скорость генерации, ещё восемь моделей июня, непопулярное мнение про раскрутку MiniMax и две новые колонки на лидерборде.

Подробнее

Читайте также

Новые модели в FMC и патчи безопасности в SELECTOS: дайджест Selectel за май
11.06.2026 13:39:07 | Хабр

VK Реклама 2026: новая логика алгоритма и 7 ошибок, которые я вижу на каждом втором аудите
11.06.2026 13:38:33 | Хабр

Маркетологи больше не выбирают между охватом и продажами. Что изменилось?
11.06.2026 13:28:30 | Хабр

Как я стал Scala-разработчиком в Иннополисе
11.06.2026 13:26:18 | Хабр

«Дискриминация ПСН»: бизнес раскритиковал законопроект о «заморозке» порога выручки малого бизнеса для уплаты НДС — под него не попадут предприниматели на патентной системе налогобложения
11.06.2026 13:25:33 | vc.ru

Waymo купила тестовый полигон беспилотного автомобиля Apple за $220 млн
11.06.2026 13:24:51 | ferra.ru

Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз
11.06.2026 13:22:34 | Хабр

Таяние всех ледников планеты подняло бы уровень океана на 150 метров, — учёные
11.06.2026 13:20:00 | ferra.ru

Deployment Strategies простыми словами: что выбрать и как внедрить
11.06.2026 13:00:56 | Хабр

РЖД испытали новый дизель-поезд с технологией «тяни-толкай»
11.06.2026 12:55:23 | ferra.ru

ИИ фотосессия онлайн — ТОП-6 нейросетей для генерации изображений по фото
11.06.2026 12:54:00 | Хабр

Симуляция дуэлей юнитов HoMM III: кто сильнее в честном 1vs1?
11.06.2026 12:43:52 | Хабр

Тревожная кнопка на Госуслугах вызовет банк, оператора и полицию одним нажатием
11.06.2026 12:35:00 | ferra.ru

Прогнозирование спроса. Аномалии в исторических данных – что с ними делать
11.06.2026 12:31:16 | Хабр

«Норникель» запустил программу защиты биоразнообразия
11.06.2026 12:17:59 | ferra.ru

«Нормально делай — нормально будет»? Нет
11.06.2026 12:07:22 | Хабр

[Перевод] Ребекка Вирфс-Брок, Брайан Уилкерсон «Объектно-ориентированное проектирование: ответственностно-ориентированный подход»
11.06.2026 12:06:06 | Хабр

OpenAI изучает возможность «радикально снизить цены на токены» из-за ужесточившейся конкуренции с Anthropic — WSJ
11.06.2026 12:04:46 | vc.ru

Квантовые компьютеры покушаются на то, как банки доказывают и хранят правду прямо сейчас
11.06.2026 12:00:49 | Хабр

ФАС зафиксировала жалобы на акции операторов за входящие вызовы и смену номера
11.06.2026 11:50:00 | ferra.ru

Почему оператор Service Desk работает детективом вместо инженера
11.06.2026 11:45:34 | Хабр

Kilua: просим Kotlin сделать вид, что он React
11.06.2026 11:41:50 | Хабр

Как я веб-приложение на Go для архитектуры MIPS кросс-компилировал
11.06.2026 11:37:50 | Хабр

В РАН продлили работу космической обсерватории «Спектр-РГ»
11.06.2026 11:36:33 | ferra.ru

Промпт — это творчество? Нет, это 10 блоков в жёстком порядке
11.06.2026 11:34:56 | Хабр

Оптимизация производительности современных процессоров, 2-е издание. Книга с ароматом железа
11.06.2026 11:33:55 | Хабр

Невозможно быть вне политики с Airflow Cluster Policies
11.06.2026 11:28:24 | Хабр

Доступный Samsung Galaxy A27 подорожает в Европе
11.06.2026 11:24:51 | ferra.ru

Telegram-бот с RAG на Cloudflare Workers: база знаний без векторов и без базы данных
11.06.2026 11:23:12 | Хабр

Галуа Ч.2: Кольца и поля. Конечные поля вида GF(p^n)
11.06.2026 11:20:42 | Хабр

Первый на рынке или быстрый Второй: почему 47% пионеров проигрывают — и какая стратегия подходит именно вам?
11.06.2026 11:17:03 | Хабр

Популярные инструменты для разработки доступны на VPS SpaceWeb
11.06.2026 11:16:13 | it-world

ARM-серверы от Supermicro для агентов ИИ — почему это интересно
11.06.2026 11:00:37 | Хабр

Пожарная безопасность столичных объектов: F-metrics делает проекты в nanoCAD
11.06.2026 10:51:46 | Хабр

Минус 500 MB: оптимизируем Docker-образ Django-приложения
11.06.2026 10:43:16 | Хабр

Смотреть все

НОВОСТИ

Профессор Миршаймер: Украина окажется нефункционирующей страной-обрубком
26.07.2026 10:43:00 | Российская Газета

В Минске рассчитывают на расширение связей с Островом Свободы
26.07.2026 10:40:00 | Российская Газета

В Донбассе от ВСУ пострадали больше 40 тыс. человек с 2014 года
26.07.2026 10:38:32 | ТАСС

Трагедия в Махачкале: Трое детей открыли газовый кран и погибли в собственном доме
26.07.2026 10:38:03 | Life.ru

Диктор парада ВМФ объяснил, почему человеческий голос пока превосходит ИИ
26.07.2026 10:36:10 | ТАСС

Трое детей надышались газом в российском городе и не выжили
26.07.2026 10:35:29 | Lenta.ru

«Никто тебя не знает»: Владимир Пресняков раскрыл секрет идеального отпуска
26.07.2026 10:32:58 | Life.ru

Названо крупнейшее месторождение золота в России
26.07.2026 10:32:38 | Life.ru

Сорокадневный план треснул по швам: как Россия душит врага, пока Зеленский считает дни до нашего «конца»
26.07.2026 10:32:19 | Life.ru

В Запорожской области создают дирекцию особо охраняемых природных территорий
26.07.2026 10:31:14 | ТАСС

Фомин назвал скучным финал ЧМ, но считает заслуженной победу испанцев
26.07.2026 10:31:13 | ТАСС

Чемпион России бегун Иванов надеется помириться со своим тренером
26.07.2026 10:31:00 | ТАСС

Россиянин описал стоимость жилья в Таиланде фразой «на курортах цены выросли очень сильно»
26.07.2026 10:30:25 | Lenta.ru

В Харьковской области повреждена железнодорожная инфраструктура
26.07.2026 10:25:53 | ТАСС

Тероборону поднимут по тревоге: В Белоруссии готовятся к трёхдневным учениям
26.07.2026 10:25:22 | Life.ru

В МВД назвали основания для признания загранпаспорта недействительным
26.07.2026 10:25:05 | ТАСС

В Чернигове произошел пожар на предприятии
26.07.2026 10:23:25 | ТАСС

В Ростове-на-Дону из-за непогоды погиб человек
26.07.2026 10:20:49 | ТАСС

В Ростове-на-Дону человек погиб из-за непогоды
26.07.2026 10:20:49 | ТАСС

Космический корабль с космонавтами из России и США полетел на Землю
26.07.2026 10:20:47 | Lenta.ru

Окрошка с подвохом: как любимое летнее блюдо может сыграть злую шутку
26.07.2026 10:20:46 | Life.ru

МИД Индии рекомендовал морякам оценивать риски при найме на суда в Черном море
26.07.2026 10:19:49 | ТАСС

Песков: переговоры Путина с Орбаном никогда не шли на русском языке
26.07.2026 10:17:57 | ТАСС

США резко увеличили закупку одного товара из России
26.07.2026 10:17:09 | Lenta.ru

ВСУ в Белицком заставляли жителей под обстрелами приносить им еду и воду
26.07.2026 10:16:29 | ТАСС

Пивоваров назвал задачу "Динамо" на предстоящий сезон
26.07.2026 10:16:19 | ТАСС

МЧС предупредило о грозе и ливне в Москве и Подмосковье до конца суток 26 июля
26.07.2026 10:16:08 | Life.ru

Ночные боссы района: Банда подростков превратила жизнь Хомутово в квест
26.07.2026 10:15:36 | Life.ru

Закрытие границы с Россией назвали катастрофой для Финляндии
26.07.2026 10:14:45 | Lenta.ru

В российском регионе задержались десятки пассажирских поездов
26.07.2026 10:13:20 | Lenta.ru

В Китае тайфун "Ноул" привел к эвакуации более 715 тысяч человек
26.07.2026 10:12:00 | Российская Газета

Путь к сердцу Трампа лежит через Ормуз: Британия хочет вернуть доверие США
26.07.2026 10:10:16 | Life.ru

В Южно-Сахалинске открыли крупнейший в истории Сахалина водозабор
26.07.2026 10:05:52 | ТАСС

Зобнин: футболисты "Спартака" помогут госпитализированной певице МакSим
26.07.2026 10:04:20 | ТАСС

"Союз МС-28" с двумя космонавтами и астронавтом отстыковался от МКС
26.07.2026 10:04:08 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro