Как измерить LLM для задач кибербеза: обзор открытых бенчмарков

16.04.2026 07:51:18 | Хабр

Хабы: Блог компании Positive Technologies, Машинное обучение, Искусственный интеллект, Информационная безопасность

Привет, Хабр!

Меня зовут Андрей Кузнецов, я ML-директор в Positive Technologies. Недавно я решил разобраться, какие бенчмарки измеряют способности языковых моделей в контексте задач кибербезопасности. Думал, что это займет вечер, — увы! Все оказалось куда хаотичнее, чем предполагалось. Поэтому делюсь тем, что собрал сам.

Первое, что бросилось в глаза, — полный бардак и отсутствие системы. Бенчи, про которые все пишут в 2024-м, могут вообще не упоминаться в свежих статьях 2025-го. А некоторые широко цитируемые датасеты при ближайшем рассмотрении оказываются сделанными очень небрежно, из-за чего непонятно, что они вообще измеряют. Поэтому, прежде чем лезть в конкретные примеры, давайте определимся, какими они бывают.

Подробнее

Читайте также

Где хранить код? Сравнение GitHub, GitLab и Bitbucket
16.04.2026 07:30:15 | Хабр

[Перевод] Математика объясняет, почему нормальное распределение встречается повсюду
16.04.2026 07:30:07 | Хабр

Почему ваш FinOps не работает: 12 тезисов от практиков
16.04.2026 07:29:59 | Хабр

Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot
16.04.2026 07:26:22 | Хабр

Samsung придумала более широкий складывающийся втрое смартфон
16.04.2026 07:16:38 | ferra.ru

Адаптивное администрирование Sigla Vision / FineBI
16.04.2026 07:16:09 | Хабр

Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли
16.04.2026 07:14:50 | Хабр

Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2
16.04.2026 07:05:03 | Хабр

Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии
16.04.2026 07:05:00 | Хабр

Обновлённый токенизатор видео K-VAE 2.0 от Сбера
16.04.2026 07:00:56 | Хабр

Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно
16.04.2026 07:00:56 | Хабр

Как мы разогнали железную дорогу
16.04.2026 07:00:04 | Хабр

Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем
16.04.2026 06:50:57 | Хабр

Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM
16.04.2026 06:48:00 | Хабр

Умный город начинается с точного взгляда: как Фалькон Тех меняет пространство к лучшему
16.04.2026 06:47:49 | Хабр

[Перевод] Убийцы OpenAI, Google и Anthropic уже здесь
16.04.2026 06:29:50 | Хабр

unFix — оргструктура, как Лего. Как собрать, разобрать и обратно собрать компанию
16.04.2026 06:28:46 | Хабр

Искусственный архитектор: как нейросети справляются с проектированием ПО
16.04.2026 06:22:37 | Хабр

[Перевод] Full-stack верификация: как Playwright-агент тестирует UI, затем проверяет базу данных без единой строки SQL
16.04.2026 06:00:43 | Хабр

[Перевод] Пишем свой текстовый 3D движок в браузере
16.04.2026 05:28:31 | Хабр

[Перевод] Unitree R1 на AliExpress по цене Mac Pro: что на самом деле скрывается за $8150
16.04.2026 05:16:07 | Хабр

Почему сложные задачи висели неделями: я думал, проблема в дисциплине, а оказалось — в избегании когнитивной нагрузки
16.04.2026 05:12:27 | Хабр

Что умеет таск-трекер в 2026 году: обзор российских сервисов
16.04.2026 05:01:25 | Хабр

Как я заставил ИИ писать код по книжке: Clean Architecture + TDD на автопилоте
16.04.2026 05:00:23 | Хабр

Часть 6: Безопасность и приватность в голосовом управлении — как защитить умный дом от утечек и взломов
16.04.2026 04:53:15 | Хабр

Навайбкодил приложение для анализа графов
16.04.2026 04:17:53 | Хабр

Почему Дюну так интересно читать?
16.04.2026 01:09:33 | Хабр

В России создадут импланты с белками для ускорения заживления кожи
15.04.2026 23:59:37 | ferra.ru

Российские ученые создали точный метод прогноза обрушения высотных труб
15.04.2026 23:57:40 | ferra.ru

«Росэл» запустил выпуск буферных усилителей для электроники
15.04.2026 22:58:59 | ferra.ru

На вулкане Шивелуч на Камчатке зафиксировали ночное свечение купола
15.04.2026 22:43:55 | ferra.ru

Россияне остались без мессенджеров, без банковских офисов и даже без нелегального майнинга
15.04.2026 22:24:32 | it-world

СМИ поделились характеристиками складного Motorola Razr 70 Ultra. Что изменилось
15.04.2026 22:18:28 | ferra.ru

Флагман Sony Xperia 1 VIII, похоже, обзаведется разъёмом для наушников
15.04.2026 22:16:37 | ferra.ru

РБК: операторы и маркетплейсы начали предупреждать россиян о проблемах с VPN
15.04.2026 20:25:00 | ferra.ru

Смотреть все

НОВОСТИ

Площадь пожара в здании панорамы обороны Севастополя составила 600 кв. м
10.06.2026 16:23:36 | ТАСС

Умер курянин, пострадавший 5 июня при атаке ВСУ на агрофирму в Большесолдатском районе
10.06.2026 16:23:35 | ТАСС

На Бали поймали украинца с партией наркотиков почти на 40$ тысяч долларов
10.06.2026 16:22:51 | Life.ru

Путин призвал создать условия, чтобы бизнес финансировал развитие детских лагерей
10.06.2026 16:22:42 | ТАСС

Пилоты Финляндии пожаловались на трудности в перелетах из-за России
10.06.2026 16:22:20 | Lenta.ru

ХАМАС поблагодарил Россию за поддержку палестинцев
10.06.2026 16:21:55 | ТАСС

В историческом здании панорамы «Оборона Севастополя» может обрушиться купол
10.06.2026 16:21:32 | Коммерсантъ

Хоккеист сборной Финляндии потерял золотую медаль ЧМ 2026
10.06.2026 16:20:47 | ТАСС

Минобороны Чехии настаивает на увеличении расходов на оборону до 2% ВВП
10.06.2026 16:20:08 | ТАСС

В Казахстане дела о сексуальном насилии будут вести женщины-следователи
10.06.2026 16:19:36 | Life.ru

В РФ ввели 10-летний срок исковой давности по спорам о приватизации
10.06.2026 16:19:35 | ТАСС

Депутаты Народного совета ЛНР назначили председателем правительства республики Самойлова
10.06.2026 16:18:08 | ТАСС

В Россотрудничестве провели встречу с семьями переселенцев из Канады и ФРГ
10.06.2026 16:18:02 | ТАСС

Путин заявил о развитии инфраструктуры детского отдыха в России
10.06.2026 16:17:23 | Life.ru

Путин сообщил о 1,5 млн заявлений на семейный возврат НДФЛ
10.06.2026 16:17:08 | Life.ru

Мужчины начали переживать из-за размера пениса
10.06.2026 16:17:05 | Lenta.ru

Новая прошивка превращает iPhone в «дырявый аккумулятор» и блокирует доступ к магазину
10.06.2026 16:16:09 | Life.ru

Украина обвинила Россию в падении дронов ВСУ на территории стран ЕС
10.06.2026 16:15:48 | Lenta.ru

С "РКС-Тамбов" взыскали 46,5 млн рублей за загрязнение реки Паники
10.06.2026 16:15:46 | ТАСС

Панораму «Оборона Севастополя» восстановят благодаря оцифровке
10.06.2026 16:15:45 | Life.ru

Киев ответил на недовольство Польши чествованием жертв УПА
10.06.2026 16:15:26 | Lenta.ru

Кравцов: работы по восстановлению колледжа в Старобельске ведутся
10.06.2026 16:15:24 | ТАСС

"Мы точно панораму никому не отдадим": в России ответили на удар по символу Севастополя
10.06.2026 16:15:01 | ТАСС

Путин подписал закон о платформе для создания госинформсистем
10.06.2026 16:14:35 | ТАСС

Штрафы россиянам за авторизацию на сайтах через Gmail опровергли
10.06.2026 16:14:00 | Lenta.ru

Суд в Москве рассмотрит дело экс-знатока «Что? Где? Когда?»
10.06.2026 16:14:00 | Lenta.ru

Журова считает поднятие флага России на спортобъектах важным для патриотизма
10.06.2026 16:13:51 | ТАСС

В Ингушетии спортсмены с ОВЗ совершили восхождение на гору Мят-Лоам
10.06.2026 16:13:45 | ТАСС

Российские «Калибры» получили ловушки
10.06.2026 16:13:27 | Lenta.ru

В Пакистане разбился военный вертолёт Ми-17, экипаж погиб
10.06.2026 16:13:26 | Life.ru

Россия ратифицировала соглашение с Южной Осетией о пенсиях сотрудников таможни
10.06.2026 16:12:58 | ТАСС

"Общественное": Украина может получить в июне от ЕС первые транши из €90 млрд
10.06.2026 16:12:37 | ТАСС

В Поморье введут ограничение на посещение лесов
10.06.2026 16:12:29 | ТАСС

Журнал People рассекретил детали тайной встречи принцессы Дианы и Джона Кеннеди-младшего 30 лет спустя
10.06.2026 16:12:12 | Life.ru

Кравцов заявил о завершении аттестации студентов колледжа в Старобельске
10.06.2026 16:11:54 | ТАСС

Все новости

ВСЕ НОВОСТИ

ПИШИТЕ

Техническая поддержка проекта ВсеТут

info@vsetut.pro