Операция выполнена!

info@vsetut.pro

Стать автором

Вернуться

Как бенчмаркать ИИ, и как это делаем мы?

17.04.2026 11:35:11 | Хабр

Хабы: Блог компании Kodik, Искусственный интеллект, Качество кода

Одна из сложностей с LLM: как понять, какая модель способнее? Их создатели наперебой кричат «мы совершили революцию», но как пробиться сквозь хайп и измерить, кто чего реально добился?

Казалось бы, для этого есть много популярных бенчмарков. И о преимуществах моделей зачастую рассуждают со ссылками на них: «Смотрите, эта на 5% лучше». Однако с такими бенчмарками связан целый ряд проблем, и им нельзя слепо доверять.

А нам в Kodik важно разбираться, потому что мы делаем редактор кода с ИИ, так что должны понимать, какая модель в нём как себя покажет. И в результате мы не только смотрим на результаты чужих бенчмарков, но и создали для внутреннего использования свой KodikBenchmark.

Сегодня и рассказываем Хабру о состоянии индустрии в целом, и делимся частью информации о нашем бенчмарке, и показываем результаты разных моделей в нём. Если у вас есть схожий опыт, было бы интересно узнать о нём в комментариях.

Читать далее

Подробнее

Читайте также

Принципиальная детерминированность нейросетей и безопасность
17.04.2026 11:25:05 | Хабр

[Перевод] Rust 1.95.0: макрос cfg_select!, if-let guards в match-выражениях
17.04.2026 11:20:35 | Хабр

Low code теряет позиции на фоне стремительного роста ИИ-решений
17.04.2026 11:14:49 | it-world

Американский стартап Sabi, разрабатывающий головные уборы для преобразования мыслей в текст, вышел из «стелс-режима» — первое устройство планируют выпустить к концу 2026 года
17.04.2026 11:08:09 | vc.ru

Увеличенный экран и очень тонкие рамки получат часы Huawei Watch Fit 5
17.04.2026 11:03:16 | ferra.ru

О современной научной картине мира
17.04.2026 10:51:03 | Хабр

Анатомия User Plane в 5G: разбираемся, как все устроено
17.04.2026 10:44:37 | Хабр

От правил корреляции к когнитивному ассистенту: что меняется в архитектуре SOC с приходом ИИ
17.04.2026 10:36:11 | Хабр

В IETF предложили новый интернет-протокол IPv8
17.04.2026 10:33:10 | it-world

В App Store появилось приложение «Про жарка» с функциями «Россельхозбанка»
17.04.2026 10:32:45 | vc.ru

Персональная монополия: почему удержание «незаменимых» не спасает бизнес, а лишает его управляемости
17.04.2026 10:32:10 | Хабр

Запрет Steam в РФ, дата выхода HoMM Olden Era, геймплей «Таркова в космосе»: новости игропрома
17.04.2026 10:24:54 | Хабр

Чат GPT (ChatGPT) для фото и генерации изображений: Как создавать и редактировать любые изображения с чатом ГПТ?
17.04.2026 10:22:18 | Хабр

Персональная вакцина от рака: зачем я пишу координационный слой с открытым исходным кодом для mRNA-терапии
17.04.2026 10:21:50 | Хабр

Безошибочная работа с Kafka из Node js. Часть 2 Консьюмер
17.04.2026 10:17:50 | Хабр

Фотограф-программист или, как я печатал цветные фотографии с помощью ZX-Spectrum
17.04.2026 10:16:03 | Хабр

Как мы продавали компьютеры в 90-х. Шум в нужную сторону
17.04.2026 10:03:35 | Хабр

Правда все: Убьет ли ИИ достоверность в онлайне?
17.04.2026 10:00:56 | Хабр

Про Телемост
17.04.2026 10:00:49 | Хабр

Гибридный кэш на базе Redis в серверной разработке
17.04.2026 09:55:37 | Хабр

Долгожитель для студентов iQOO Z11x
17.04.2026 09:55:20 | it-world

Специалист по кибербезопасности заявил, что «за две минуты» взломал представленное властями ЕС приложение для проверки возраста пользователей
17.04.2026 09:52:53 | vc.ru

Claude Opus 4.7: Что нового? Как использовать нейросеть в России
17.04.2026 09:48:34 | Хабр

Квантовая криптография: принципы, протоколы, сети
17.04.2026 09:47:24 | Хабр

Мониторинг сотрудников без управленческой модели только усиливает хаос
17.04.2026 09:37:42 | Хабр

3 года мы не можем вытащить данные из машины для боулинга
17.04.2026 09:37:18 | Хабр

SIEM: когда он нужен, правила пользования и как выявить его эффективность
17.04.2026 09:29:38 | Хабр

Процесс приемки товара на складе: как организовать прием товаров без потерь и расхождений
17.04.2026 09:29:05 | Хабр

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?
17.04.2026 09:15:41 | Хабр

YouTube разрешил убирать Shorts с главной ленты
17.04.2026 09:03:15 | ferra.ru

У нас есть органы-на-чипе, цифровые двойники и ИИ. Почему лекарства до сих пор испытывают на мышах
17.04.2026 09:00:33 | Хабр

Продолжаем приручать ИИ: рефлексия агента, интервью пользователя, God agent
17.04.2026 09:00:32 | Хабр

Axios и проблема зависимостей
17.04.2026 08:55:42 | Хабр

ИсВКлючить нельзя исВКлючать, или пролетая над гнездом VK…
17.04.2026 08:52:55 | Хабр

Вы — налоговый инспектор: начинаем проверку физического лица
17.04.2026 08:45:55 | Хабр

Смотреть все

НОВОСТИ

На Украине объявили об угрозе применения «Цирконов» и предупредили об их особенности
13.06.2026 04:14:22 | Lenta.ru

Кот сорвал трагический финал «Ромео и Джульетты» в Турции и стал звездой
13.06.2026 04:12:00 | Life.ru

Голы воспитанника "Сигмы" и дублера Джеко. Чем удивили канадцы и боснийцы
13.06.2026 04:11:27 | ТАСС

Трамп приказал ВС США нанести удар с целью ликвидации главаря Tren de Aragua
13.06.2026 04:10:38 | ТАСС

В СФ рассказали, что нужно развивать аквакультуру в европейской части РФ
13.06.2026 04:06:36 | ТАСС

Додик: европейцы совершенно точно стремятся сделать из ЕС военный союз
13.06.2026 04:05:40 | ТАСС

Приближается свадьба или выпускной? Вот способ встать на каблуки всего за неделю
13.06.2026 04:00:00 | Life.ru

Посол заявил о беспокойстве властей Швейцарии от расходов на украинских беженцев
13.06.2026 03:58:36 | Lenta.ru

Лукашенко назвал срок завершения конфликтов на Украине и в Иране
13.06.2026 03:57:00 | Lenta.ru

Новые санкции против России ударят по Германии
13.06.2026 03:56:55 | Lenta.ru

100 миллионов новых видов и триллион генов: запущен проект масштаба «Генома человека» для создания ИИ, который будет разрабатывать лекарства по запросу
13.06.2026 03:54:00 | iXBT.com

Гражданам Грузии грозит восемь лет за кражу книг Пушкина во Франции
13.06.2026 03:54:00 | Life.ru

Раскрыта причина отказа Европы от предложения Путина о переговорах по Украине
13.06.2026 03:50:37 | Lenta.ru

Неожиданную причину появления головных болей из-за новолуния объяснили
13.06.2026 03:49:00 | Lenta.ru

Иран назвал единственный приемлемый вариант по обогащенному урану
13.06.2026 03:47:17 | РБК

В ОАЭ опровергли сообщения о разморозке миллиардов долларов Ирана
13.06.2026 03:43:22 | Life.ru

Бердыев заявил о демаршах МИД из-за недопуска россиян на мероприятия G20 в США
13.06.2026 03:43:00 | Российская Газета

В МИД РФ отреагировали на недопуск делегатов на мероприятия G20 в США
13.06.2026 03:43:00 | Российская Газета

Заявили демарши: В МИД РФ отреагировали на недопуск делегатов на G20 в США
13.06.2026 03:43:00 | Российская Газета

Reuters: США сбили несколько иранских БПЛА, направлявшихся в сторону Ормуза
13.06.2026 03:32:49 | ТАСС

Разыскиваемого в РФ блогера и математика Вербицкого* задержали в Ереване
13.06.2026 03:29:00 | Life.ru

Украина и Венгрия оформили соглашение о правах венгров в Закарпатье
13.06.2026 03:25:45 | РБК

В США рассказали о пресечении Трампом наземной операции в Иране
13.06.2026 03:21:48 | Lenta.ru

"Картошка в рыбьей чешуе": Очевидец описал встречу с НЛО
13.06.2026 03:19:00 | Российская Газета

Россиянка ослепла после безобидного массажа ног во Вьетнаме
13.06.2026 03:18:34 | Life.ru

США заявили о поддержке биолабораторий на Украине. Россия подозревала о них несколько лет. Как Москва отреагировала на признание?
13.06.2026 03:17:41 | Lenta.ru

Спортивный магазин в западной стране выпустил кепки с надписью «Russia» на ЧМ
13.06.2026 03:14:00 | Lenta.ru

Минздрав рассказал, зачем изменили предельные цены более 1,7 тыс. лекарств
13.06.2026 03:12:23 | ТАСС

В США допустили затягивание конфликта из-за одной просьбы Зеленского
13.06.2026 03:11:00 | Lenta.ru

WSJ: генпрокуроры нескольких штатов США начали расследование против OpenAI
13.06.2026 03:07:53 | ТАСС

В Италии возмущены насмешкой Инфантино над футбольной сборной страны
13.06.2026 03:07:49 | ТАСС

Сенатор Шейкин: в РФ никогда не будет браков с искусственным интеллектом
13.06.2026 03:05:35 | ТАСС

На Камчатке обследовали около 30 кв. км леса в поисках пропавшего мужчины
13.06.2026 03:04:58 | ТАСС

Мадьяр анонсировал раскрытие одной из самых больших афер кабинета Орбана
13.06.2026 03:02:02 | РБК

Вдова Задорнова хочет приватизировать все шутки артиста про «тупых американцев»
13.06.2026 03:00:17 | Life.ru

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro

Copyright © 2026 - vsetut.pro