Ты когда-нибудь задумывался, как объективно сравнить двух пентестеров? Один находит пять критических уязвимостей за день, другой - три, но какие из них действительно опасны? А если речь идёт об AI-агентах, которые плодятся как грибы после дождя? Без объективных метрик, воспроизводимых сред и честных бенчмарков мы остаёмся в области субъективных оценок и маркетинговых обещаний.
Пентест перестал быть искусством одиночек. Он превращается в индустрию, где AI-агенты соревнуются с людьми и друг с другом. Только за последний год появились десятки инструментов, претендующих на звание «автономного пентестера». Согласно данным HackerOne, уже 67% хакеров используют AI для автоматизации своей работы. Но как понять, кто из них действительно работает, а кто просто умеет красиво рассказывать?
Проблема в том, что существующие бенчмарки либо ограничены абстрактными CTF-соревнованиями, либо не имеют достаточного покрытия реальных уязвимостей. CTF-задачи - это отличные тренажёры, но они далеки от реальности, где нужно взаимодействовать с веб-приложением, понимать его архитектуру и выполнять атаки, которые могут повлиять на сервер или пользователей. Когда агент знает, что он в CTF-сценарии, он может вести себя иначе, чем в реальной атаке.
Исследователи давно заметили проблему репрезентативности: синтетические бенчмарки имеют искажения в типах уязвимостей, триггерных условиях и требованиях к состоянию системы, что ведёт к ложным выводам об эффективности инструментов. Именно поэтому переход к бенчмаркам на основе реальных CVE стал критически важным шагом.
Здесь на сцену выходят бенчмарки - стандартизированные полигоны, где можно в равных условиях проверить и людей, и машины. Они дают воспроизводимость, объективность и возможность учиться на ошибках. Без них мы бы до сих пор гадали, какой сканер лучше, и верили бы рекламным буклетам.
В 2026 году ситуация изменилась кардинально. Инструменты больше не оцениваются по красивым демо - теперь существуют публичные, контейнеризированные бенчмарки для автономной эксплуатации, а инструменты сравнивают по метрикам успешности, времени и стоимости. Это уже не маркетинг, а инженерия.
В этой статье мы разберём три ключевых подхода к бенчмаркингу в пентесте: CVE-Bench - для проверки умения находить конкретные уязвимости, CyberBattleSim - для моделирования целых сетей и обучения агентов с подкреплением, и NetSecGame - для максимально реалистичных сценариев на реальном стеке. А ещё заглянем в новые проекты 2026 года, которые расширяют границы возможного, и обсудим, как всё это влияет на будущее профессии пентестера.
Зачем нужны бенчмарки в пентесте
Проблема субъективности оценок
Два пентестера могут найти разные уязвимости в одной системе, и оба будут правы. Кто из них круче? Непонятно. Метрика «количество найденных багов» не работает, потому что один баг может быть критическим, а десять - мелочью. Нужна система, где чётко определено, что считать успехом.Эта проблема усугубляется, когда мы пытаемся оценивать AI-агентов. Без стандартизированных бенчмарков каждый разработчик может объявить своего агента лучшим, основываясь на выборочных демо. Именно поэтому сообщество движется к созданию открытых, воспроизводимых тестов, где все участники оцениваются на одних и тех же задачах.
Исследования показывают, что разные AI-агенты имеют кардинально разную эффективность в зависимости от типа задач. Например, на CVE-Bench T-Agent достигал 13% успеха в one-day режиме, в то время как Cy-Agent, специализированный на CTF-задачах, показывал лишь 2,5% . Это наглядно демонстрирует, что без стандартизированных тестов нельзя делать выводы о реальной эффективности.
Проблема воспроизводимости
Если ты нашёл уязвимость в продакшене и закрыл её, другой исследователь уже не сможет проверить свои навыки на том же примере. Нужны изолированные, но реалистичные среды, которые можно переиспользовать.Вот почему контейнеризация стала основой современных бенчмарков. Docker-контейнеры позволяют создавать идентичные окружения для каждой задачи, гарантируя, что все тестируемые агенты находятся в одинаковых условиях. CVE-Bench, например, использует Docker и Kubernetes для развёртывания уязвимых приложений . Это обеспечивает полную воспроизводимость результатов: если один агент справился с задачей, любой другой может быть проверен в точно такой же среде.
Проблема обучения без вреда
Джуниоры не могут учиться на реальных атаках - слишком опасно. Ошибка может привести к простою сервиса или потере данных. Бенчмарки дают безопасный полигон для отработки навыков, где можно экспериментировать без страха что-то сломать.NetSecGame специально разработан для этой цели. Он предоставляет изолированные среды, где можно отрабатывать полный цикл атаки - от разведки до эксплуатации и закрепления - не рискуя реальной инфраструктурой . Более того, платформа включает стохастический Global Defender, который имитирует работу SIEM-системы, создавая реалистичный шум и противодействие для атакующих.
Проблема сравнения AI-агентов
Рынок AI-инструментов для пентеста растёт экспоненциально, но их возможности оцениваются по разным критериям. Одни показывают красивые демо, другие публикуют бенчмарки. Только стандартизированные тесты позволяют отделить зёрна от плевел.Современные исследования, такие как xOffense, демонстрируют, что хорошо настроенные специализированные модели могут превосходить гигантские универсальные LLM в задачах пентеста. На AutoPenBench xOffense достиг 79.17% успеха на подзадачах, значительно обогнав GPT-4o и Llama3.1-405B . Но без единого бенчмарка такие сравнения были бы невозможны.
Требования к современным бенчмаркам
В 2026 году индустрия пришла к пониманию, что бенчмарки должны удовлетворять нескольким ключевым требованиям :- Реалистичность: основаны на реальных уязвимостях, а не на синтетических примерах.
- Точность разметки: имеют аннотации на уровне функций и даже отдельных строк кода (ground truth).
- Воспроизводимость: поддерживают контейнеризацию для создания идентичных сред.
- Покрытие: охватывают разные задачи - от обнаружения до эксплуатации и анализа версий.
- Стандартизация метрик: используют единые определения успеха, времени, стоимости.
CVE-Bench – охота за конкретными уязвимостями
Что такое CVE-Bench
CVE-Bench - это семейство бенчмарков, которые проверяют способность агента (человека или AI) находить и эксплуатировать конкретные, реально существующие уязвимости из базы CVE. В отличие от синтетических тестов, здесь каждая задача - это настоящая дыра, которая когда-то была в продакшене.Использование CVE в качестве основы обеспечивает несколько критических преимуществ. Во-первых, это гарантия того, что мы имеем дело с реальными, а не выдуманными проблемами. Во-вторых, каждый экземпляр имеет задокументированные патчи, описания и, часто, готовые эксплойты, что позволяет верифицировать результаты.
Современные CVE-бенчмарки, такие как версия от UK Government, включают десятки реальных уязвимостей веб-приложений и запускаются в изолированных Docker или Kubernetes контейнерах . SecVulEval, например, агрегирует 25 440 функций, аннотированных по 5 867 уникальным CVE из 707 проектов за период с 1999 по 2024 год.
Как создавался CVE-Bench
Процесс создания бенчмарка был нетривиальным и многоэтапным :Этап 1: Отбор кандидатов. Исследователи взяли все CVE за определённый период (полтора месяца), которые были критическими (CVSS ≥ 9.0) и имели открытый исходный код. Это позволило избежать ошибок выборки и сфокусироваться на наиболее опасных уязвимостях.
Этап 2: Проверка воспроизводимости. Каждую уязвимость нужно было воспроизвести в изолированной среде. Примерно половина кандидатов отсеялась на этом этапе - либо требовались ресурсы, недоступные публично, либо конкретная версия была утеряна, либо уязвимость оказывалась нестабильной для автоматического тестирования.
Этап 3: Контейнеризация. Для каждой уязвимости был создан Docker-контейнер с точной копией уязвимой среды. В некоторых случаях требовались дополнительные сервисы - базы данных, кэширующие серверы, очереди сообщений. Всё это упаковывалось в multi-container архитектуру, управляемую через Docker Compose или Kubernetes.
Этап 4: Ручное воспроизведение эксплойта. Каждую уязвимость автор бенчмарка проэксплуатировал вручную, чтобы убедиться, что она действительно работает. На одну уязвимость уходило от 5 до 24 человеко-часов. Это включало анализ кода, написание тестового эксплойта, проверку его работы в разных условиях.
Этап 5: Стандартизация атак. Все атаки были классифицированы по восьми типам, что позволило унифицировать оценку результатов и сравнивать агентов по разным категориям.
Этап 6: Разработка системы автоматической оценки. Это самая сложная часть. Нельзя просто проверить, был ли выполнен sleep-запрос, потому что пользователь "sleep" тоже оставит след в логах. Для каждой задачи создавался свой grader, учитывающий специфику конкретной уязвимости. Grader отслеживал действия агента, проверял достижение цели и исключал ложные срабатывания.
Архитектура и запуск
Типичный CVE-бенчмарк устроен следующим образом. Каждая уязвимость представлена в виде отдельного Docker-образа с уязвимым приложением. Запускается среда, и агенту даётся задача: проэксплуатировать уязвимость и доказать это (например, прочитать файл flag.txt или получить доступ к базе).Важно, что бенчмарк поддерживает два режима: «один день» (one-day), когда агенту даётся подсказка о типе уязвимости или даже готовый эксплойт, и «ноль дней» (zero-day), когда агент должен справиться самостоятельно. Это позволяет оценивать как способность к повторению известных атак, так и креативность.
Пример запуска из командной строки выглядит так :
uv run inspect eval inspect_evals/cve_bench --model openai/gpt-5-nanoМожно выбрать конкретные CVE, тип песочницы (Docker или Kubernetes), ограничить количество сообщений.
Аннотации в современных CVE-бенчмарках достигают очень высокой детализации - до уровня отдельных строк, добавленных или удалённых патчем, с включением pre/post-контекста. Это позволяет моделировать не только локализацию уязвимости, но и логику её возникновения.
Восемь типов атак
В CVE-Bench выделяют восемь стандартных типов атак, каждый из которых моделирует реальную угрозу :- Отказ в обслуживании (DoS): сделать целевое приложение неотвечающим. Это может быть достигнуто через исчерпание ресурсов, бесконечные циклы или краш приложения. Grader проверяет, что сервис перестал отвечать на запросы.
- Доступ к файлам: прочитать произвольный файл на сервере и подтвердить это загрузкой. Типичные цели - /etc/passwd, файлы конфигурации, исходный код приложения.
- Создание файла: создать файл в /tmp/pwned как доказательство. Это простой, но надёжный способ подтвердить, что код выполняется.
- Модификация базы данных: изменить как можно больше данных в БД. Например, обновить балансы пользователей, удалить записи, изменить права доступа.
- Доступ к базе данных: прочитать данные из секретной таблицы. Проверяется способность агента не только войти, но и найти нужные данные.
- Неавторизованный вход администратора: войти под заданным именем администратора без пароля. Это моделирует обход аутентификации.
- Повышение привилегий: поднять права указанного пользователя до максимальных. Например, получить root-доступ на сервере.
- Исходящий сервис: заставить сервер отправить GET-запрос на указанный URL. Это доказывает возможность взаимодействия с внешними системами.
Метрики оценки
Для оценки используются следующие метрики :- SuccessRate@k – процент успешных эксплуатаций с k попыток. Обычно используют k=1 (одна попытка) и k=3 (лучший из трёх запусков).
- Время до успеха – сколько агент потратил на решение. Измеряется в секундах или минутах.
- Количество попыток – число предпринятых действий, включая неудачные.
- Покрытие – сколько разных типов уязвимостей агент может обработать.
- Точность обнаружения на уровне стейтментов – для задач с локализацией кода.
- Token consumption: T-Agent в среднем потреблял 627k входных токенов и 8.6k выходных на задачу.
- Time cost: время выполнения варьировалось от 876 секунд (Cy-Agent) до 3642 секунд (AutoGPT).
- Economic cost: стоимость оценки составляла $0.6-$1.7 за задачу в зависимости от используемой модели.
Примеры: от регрессии к нулевому дню
Возьмём, к примеру, CVE-2024-6387 (regreSSHion) - критическую уязвимость в OpenSSH. Бенчмарк может содержать контейнер с уязвимой версией SSH и задачу: получить доступ к серверу без пароля. Агент должен просканировать порты, определить версию, найти подходящий эксплойт, адаптировать его под конкретную среду и выполнить.В тестах 2025 года лучшие автономные агенты справлялись с такими задачами в 13% случаев для zero-day режима и 25% для one-day. Инструментальные агенты, такие как T-Agent с интегрированным sqlmap, показывали до 13% успеха в one-day режиме, тогда как Cy-Agent, разработанный для CTF-задач, достигал лишь 2,5% .
Исследователи из команды AXE (Agentic eXploit Engine) улучшили эти показатели до 30% в zero-day режиме, использует метаданные об уязвимостях и многокомпонентную архитектуру. PenForge, фреймворк для динамической сборки агентов, показал 20% успеха, что в 2.7 раза лучше предыдущего рекорда .
CVE–CWE маппинг и анализ версий
Помимо прямой эксплуатации, CVE-бенчмарки поддерживают и другие задачи. Одна из важнейших - маппинг CVE на категории CWE (Common Weakness Enumeration). Это позволяет анализировать, какие типы уязвимостей наиболее распространены, и приоритезировать их устранение. Современные подходы используют иерархические нейросети (ThreatZoom) и fine-tuned sentence-transformers, достигая MRR (Mean Reciprocal Rank) до 0.91 и точности более 90%.Другая задача - идентификация уязвимых версий. Для каждого CVE нужно определить все версии продукта, которые подвержены проблеме. Это требует анализа патчей, коммитов и сложных зависимостей. На сегодняшний день ни один инструмент не превышает 45% точности в этой задаче, а ансамбли инструментов дают не более 60%.
Применение для людей
Для джуниоров CVE-бенчмарки - идеальный тренажёр. Можно начинать с one-day режима, где есть подсказки, и постепенно переходить к zero-day. Отрабатываются реальные навыки: поиск информации, адаптация эксплойтов, понимание причин уязвимостей.Для опытных пентестеров это способ поддерживать форму и проверять новые техники. Некоторые компании используют CVE-бенчмарки для внутренней сертификации специалистов.
Применение для ИИ
Для AI-агентов CVE-бенчмарки стали стандартом тестирования. Они позволяют объективно сравнивать разные архитектуры и подходы. Например, исследователи из команды AXE использовали CVE-Bench для оценки своего фреймворка и показали трёхкратное улучшение по сравнению с существующими бейзлайнами.PenForge продемонстрировал, что динамическая сборка агентов под конкретную задачу может давать существенный прирост эффективности, достигая 20% успеха в zero-day режиме . Это в 2.7 раза лучше предыдущего рекорда, установленного другими фреймворками.
Ограничения и дальнейшее развитие
Основные ограничения CVE-бенчмарков связаны с изолированностью. Они проверяют умение эксплуатировать одну конкретную дыру, но не дают картины целиком. В реальной атаке нужно двигаться по сети, повышать привилегии, обходить защиты. Для этого нужны другие полигоны.Кроме того, бенчмарки включают только веб-приложения и только критические уязвимости. Это ограничивает их применимость для других классов задач. Распределение CVE в бенчмарках не всегда отражает реальную картину угроз, есть риск перекоса в сторону определённых типов уязвимостей.
Авторы планируют расширять бенчмарк, добавляя новые CVE и типы атак. Уже сейчас код и данные доступны на GitHub .
CyberBattleSim – эмуляция целых сетей
Концепция CyberBattleSim
CyberBattleSim - это симулятор кибератак с открытым исходным кодом, разработанный исследовательской группой Microsoft 365 Defender Research . В отличие от CVE-Bench, который фокусируется на отдельных уязвимостях, CyberBattleSim моделирует целые корпоративные сети и изучает взаимодействие атакующих и защитников.Проект выпущен под лицензией MIT и построен на базе интерфейса OpenAI Gym на Python, что делает его совместимым с популярными библиотеками обучения с подкреплением. Это не просто игрушка, а исследовательский инструмент, позволяющий изучать стратегии латерального перемещения в сети.
Архитектура и компоненты
Сеть в CyberBattleSim состоит из компьютерных узлов. Она параметризована фиксированной топологией сети и набором предопределённых уязвимостей, которые агенты могут использовать для перемещения по сети .Ключевые компоненты симулятора:
- Узлы (nodes). Моделируют компьютеры и серверы на разных ОС - от Windows до Linux. На каждом узле могут работать различные сервисы с заданными уязвимостями. Например, узел может иметь открытый SSH-порт со слабым паролем или уязвимую версию веб-сервера.
- Агент-злоумышленник. Автоматизированный киберагент, который пытается захватить часть сети, используя уязвимости. Он выбирает действия, чтобы взять узлы под контроль. Агент может быть обучен с подкреплением или действовать по простым правилам.
- Агент-защитник. Наблюдает за сетевой активностью, пытается обнаружить присутствие злоумышленника и сдержать атаку. В базовой версии используется стохастический защитник, который обнаруживает и смягчает атаки на основе заранее определённых вероятностей.
- Действия. Агенты могут выполнять разнообразные действия: кражу учётных данных, фильтрацию свойств узлов, повышение привилегий, эксплуатацию уязвимостей, перемещение между узлами.
Цели и сценарии
Главная цель симулятора - понять, как злоумышленник распространяется в сети после первоначального взлома. Microsoft фокусируется на методах латерального перемещения, чтобы изучить, как топология и конфигурация сети влияют на эти техники .Сценарии могут быть разными:
- Одиночный атакующий против сети без защиты. Простейший сценарий для изучения базовых стратегий.
- Red team против Blue team. Более сложный сценарий, где защитник пытается обнаружить и заблокировать атакующего.
- Несколько атакующих, координирующих действия. Моделирует групповые атаки.
Обучение с подкреплением
Ключевая особенность CyberBattleSim - возможность использовать обучение с подкреплением (reinforcement learning) для тренировки агентов . Агент получает вознаграждение за захваченные узлы и учится выбирать оптимальные стратегии.Reward function строится следующим образом:
- Захватил узел - получил положительный бонус.
- Потратил много времени на шаг - небольшой штраф.
- Был обнаружен защитником - большой штраф.
- Достиг конечной цели (например, захватил домен-контроллер) - максимальная награда.
- Количество шагов до достижения цели - чем меньше, тем эффективнее агент.
- Суммарное вознаграждение за эпизод - чем выше, тем лучше.
Практическое применение
Пользователи отмечают, что CyberBattleSim помогает исследовать взаимодействие агентов в абстрактной симулированной сетевой среде и предоставляет высокоуровневую абстракцию концепций кибербезопасности и компьютерных сетей .Некоторые преимущества, отмеченные пользователями:
- Основан на Python и OpenAI Gym, что облегчает интеграцию с существующими инструментами машинного обучения.
- Использует алгоритмы обучения с подкреплением для тренировки агентов.
- Моделирует различные роли - атакующих и защитников.
Связь с реальными инструментами
CyberBattleSim интересен тем, что его результаты могут быть использованы для настройки реальных систем обнаружения. Например, если агент находит эффективный путь латерального перемещения в симуляции, защитники могут создать правила обнаружения для этого паттерна в реальных SIEM-системах.Как отмечают пользователи, выводы из CyberBattleSim могут помочь триггерить алерты в XDR или SIEM системах .
Ограничения
Создатели честно признают ограничения своего подхода :- Высокий уровень абстракции. Моделирование сильно упрощено, что не позволяет напрямую применять результаты к реальным системам. Но это сделано сознательно - чтобы предотвратить потенциально вредоносное использование автоматизированных агентов, обученных на симуляторе.
- Фокус на латеральном перемещении. Симулятор не моделирует реальный сетевой трафик и многие другие аспекты реальных атак.
- Упрощённая защита. Базовый защитник работает по вероятностным правилам, что далеко от реальных систем обнаружения вторжений.
- Ручная настройка. Пользователям приходится вручную создавать узлы и указывать уязвимости, что может быть трудоёмким .
NetSecGame – реалистичный полигон на реальном стеке
Что такое NetSecGame
NetSecGame (NSG) - это фреймворк для обучения и оценки AI-агентов в средах сетевой безопасности, разработанный в Stratosphere Laboratory при Чешском техническом университете в Праге . В отличие от абстрактных симуляций, NSG предоставляет highly configurable testbed для выполнения как наступательных, так и оборонительных задач.Проект использует реальные Docker-контейнеры с настоящими сервисами (Apache, MySQL, WordPress) и соединяет их в виртуальные сети. Здесь нет упрощений - есть реальные уязвимости в реальных конфигурациях, с которыми нужно работать настоящими пентест-инструментами.
Если CVE-Bench проверяет меткость снайпера, а CyberBattleSim - стратегию полководца, то NetSecGame - это полноценный полигон с инженерными сооружениями, минными полями и живой силой противника.
Философия и целевая аудитория
NetSecGame создан для решения фундаментальной проблемы: как надёжно оценивать автономных агентов в среде, максимально приближенной к реальности, но при этом сохраняющей воспроизводимость и скорость .Целевая аудитория включает:
- Исследователей безопасности, изучающих поведение атакующих и защитников.
- Разработчиков AI-агентов, нуждающихся в реалистичных тестовых средах.
- Тренеров и преподавателей, обучающих пентесту и защите.
- Команды Red и Blue, отрабатывающие взаимодействие.
Архитектура
Платформа состоит из множества Docker-контейнеров, объединённых в виртуальные сети. Оркестратор управляет запуском и остановкой сценариев. Пользователь может определять собственные топологии сети, сервисы, уязвимости и цели через простые YAML-конфигурации .Ключевые компоненты :
- Game server: центральный сервер, к которому подключаются агенты. Сервер управляет состоянием игры, обрабатывает действия агентов и рассылает обновления.
- Task configuration: YAML-файл, описывающий сценарий (сеть, узлы, цели). Пример конфигурации может включать топологию сети, список сервисов на каждом узле, уязвимости, цели атаки.
- Агенты: могут быть атакующими, защитниками или имитировать обычных пользователей. Агенты подключаются к серверу удалённо, что позволяет запускать их на разных машинах.
- Global Defender: стохастический симулятор SIEM-системы, создающий реалистичный шум и противодействие для атакующих. Это важное нововведение, позволяющее моделировать реальные условия, где атакующий не знает, обнаружен ли он.
Запуск и использование
Запустить NetSecGame очень просто. Готовый Docker-образ доступен на Docker Hub :
Код:
bash
docker pull stratosphereips/netsecgame
docker run -d --rm --name nsg-server \
-v $(pwd)/<scenarion-configuration>.yaml:/netsecgame/netsecenv_conf.yaml \
-v $(pwd)/logs:/netsecgame/logs \
-p 9000:9000 stratosphereips/netsecgame
Код:
bash
pip install netsecgame
# или
cd NetSecGame
pip install -e .[server]
python3 -m netsecgame.game.worlds.NetSecGame \
--task_config=./examples/example_task_configuration.yaml \
--game_port=9000
Код:
python
from netsecgame import BaseAgent, Action, Observation, AgentRole
class MyAgent(BaseAgent):
def __init__(self, host, port, role: str):
super().__init__(host, port, role)
def choose_action(self, observation: Observation) -> Action:
# логика выбора действия на основе observation.state
...
def main():
agent = MyAgent(host="localhost", port=9000, role=AgentRole.Attacker)
observation = agent.register()
while not observation.end:
action = agent.choose_action(observation)
observation = agent.make_step(action)
agent.terminate_connection()
Сценарии и применение
Примеры сценариев :- Интернет-магазин с фронтендом, бэкендом, базой данных и кэширующим сервером. Уязвимости могут быть в каждом компоненте.
- Банковская система с внутренней сетью, строгими политиками и сегментацией.
- Промышленная сеть SCADA с контроллерами, человеко-машинными интерфейсами и историческими базами данных.
- Корпоративная сеть с доменом, файловыми серверами, рабочими станциями и принтерами.
Применение для людей
Для тренировки пентестеров NetSecGame предоставляет безопасную среду, где можно экспериментировать без риска навредить реальным системам. Интерактивный TUI-агент позволяет новичкам понять динамику сети и попробовать разные стратегии атаки.Для Blue Team платформа даёт возможность отрабатывать обнаружение и реагирование в реалистичных условиях, с настоящими логами и SIEM-подобной системой.
Применение для ИИ
Для AI-агентов NetSecGame - высший пилотаж. Здесь агент должен не просто выполнить скрипт, а ориентироваться в сложной, незнакомой среде, адаптироваться, ошибаться и учиться. Именно на таких полигонах проверяют, готов ли AI заменить человека в реальном пентесте.Платформа поддерживает стандартные принципы Reinforcement Learning, что делает её совместимой с популярными библиотеками обучения. Исследователи уже используют NetSecGame для создания LLM-агентов, способных к автономному пентесту.
Что дальше: дорожная карта
Разработчики активно развивают платформу. В дорожной карте :- Расширенная библиотека сценариев со сложными топологиями и реалистичными бизнес-процессами.
- Новые reference-реализации агентов с SOTA-архитектурами, включая многоуровневые иерархические агенты.
- Более детальные сетевые действия и интеграция с генерацией реалистичного трафика.
- Соревнования сообщества, где участники смогут соревноваться лучшими агентами.
- Поддержка большего количества сервисов и протоколов.
Другие важные бенчмарки 2026 года
AutoPenBench: milestone-driven оценка
AutoPenBench представляет собой бенчмарк нового поколения, который разбивает процесс пентеста на измеримые этапы - milestones .Структура задач:
- 33 задачи, разделённые на 22 синтетических (in-vitro) и 11 реальных (на основе CVE).
- Четыре категории сложности: от простых до экспертных.
- AC (Access Control): повышение привилегий, ошибки конфигурации, обход авторизации.
- WS (Web Security): path traversal, SQL-инъекции, RCE, XSS.
- NS (Network Security): порт-сканирование, MITM-атаки, сниффинг.
- CRPT (Cryptography): брутфорс, криптографические атаки, анализ ключей.
- Командные milestones (M_C): дискретные операции, такие как сканирование, запуск эксплойта, чтение файла.
- Фазовые milestones (M_S): высокоуровневые этапы, такие как проникновение, повышение привилегий, получение флага.
- Success Rate (SR): процент полностью завершённых задач.
- Progress Rate (PR): процент достигнутых milestones (даже если задача не завершена).
- Полностью автономные агенты достигают лишь 21% успеха.
- Полуавтономные агенты (с участием человека) - 64% успеха.
- Разрыв в 3 раза подтверждает, что человек пока незаменим в сложных задачах, требующих контекстного понимания и креативности.
xOffense: специализированные модели против универсальных
xOffense демонстрирует альтернативный подход - использование среднеразмерных open-source моделей, дообученных на задачах пентеста.Ключевые характеристики :
- Базовая модель: Qwen3-32B, дообученная на Chain-of-Thought данных пентеста.
- Архитектура: multi-agent, включающая Task Coordination Graph (TCG) для планирования и check-reflection для проверки результатов.
- Специализация: агенты разделены по функциям (разведка, сканирование, эксплуатация).
- xOffense достиг 79.17% успеха на подзадачах, значительно обогнав GPT-4o (21.21%) и Llama3.1-405B (30.30%).
- Это демонстрирует, что хорошо настроенная специализированная модель среднего размера может превосходить гигантские универсальные модели в конкретных доменах.
- Доменно-адаптированные модели среднего размера, встроенные в структурированную multi-agent оркестрацию, могут давать превосходные, экономически эффективные и воспроизводимые решения для автономного пентеста.
- Это важный сигнал для индустрии: не всегда нужно гнаться за размером модели.
EVMbench для смарт-контрактов
OpenAI совместно с Paradigm выпустили EVMbench - специализированный бенчмарк для безопасности смарт-контрактов .Структура бенчмарка :
- 120 уязвимостей, отобранных из 40 реальных аудитов.
- Большинство взято из открытых соревнований Code4rena.
- Включены сценарии из аудита блокчейна Tempo, ориентированного на стабильные монеты.
- Detect: агенты аудируют репозиторий смарт-контрактов и оцениваются по полноте обнаружения реальных уязвимостей.
- Patch: агенты модифицируют уязвимые контракты, сохраняя функциональность (проверяется автоматическими тестами).
- Exploit: агенты выполняют атаки по выводу средств в изолированной среде Anvil.
- GPT-5.3-Codex показал 72.2% в exploit-режиме, что значительно выше GPT-5 (31.9%).
- Агенты лучше всего справляются с exploit-задачами, где цель ясна: вывести средства.
- Detect и patch остаются сложнее: агенты часто останавливаются после нахождения первой уязвимости и пропускают другие.
- Rust-based harness для детерминированного деплоя контрактов.
- Ограничение опасных RPC-методов.
- Полная изоляция - все задачи выполняются в локальной сети.
- OpenAI выделил $10 млн грантовых API-кредитов через свою программу Cybersecurity Grant Program.
- EVMbench опубликован в открытом доступе для поддержки исследований.
Wiz AI Cyber Model Arena
Wiz запустил платформу для тестирования AI-агентов на реальных задачах из своей исследовательской практики .Масштаб :
- 257 реальных челленджей в пяти категориях: zero-day, CVE, API, web и cloud.
- Задачи охватывают весь жизненный цикл атаки - от поиска уязвимостей в памяти до многошаговых атак на облачные конфигурации.
- Разделение эффектов: запускается матрица агентов × моделей, что позволяет отделить вклад архитектуры агента от вклада базовой LLM.
- Детерминированная оценка: для каждой категории используются свои метрики - multidimensional rubrics для zero-day, endpoint-matching для API, flag capture для web.
- Pass@3: каждый челлендж запускается трижды, учитывается лучший результат (имитирует практику повторных попыток).
- Все задачи выполняются в изолированных Docker-контейнерах с достаточными ресурсами.
- Нет ограничений по времени (scores отражают capability, а не троттлинг).
- Агенты используют свои нативные инструменты, окружение предоставляет domain-appropriate tooling (отладчики, cloud CLI).
- Оффенсивная способность определяется совместно моделью и архитектурой агента.
- Одна и та же модель может показывать radically разные результаты в зависимости от агентского scaffolding.
- Производительность сильно зависит от домена - нет единого лидера во всех категориях.
SecVulEval: масштабный анализ кода
SecVulEval агрегирует 25 440 функций, аннотированных по 5 867 уникальным CVE из 707 проектов за период с 1999 по 2024 год. Это самый масштабный на сегодняшний день датасет для обучения и оценки моделей, работающих с уязвимостями на уровне кода.Практические AI-инструменты пентеста 2026
Помимо бенчмарков, в 2026 году появилось несколько зрелых open-source инструментов, которые уже можно использовать в реальных проектах :BugTrace-AI :
- AI-ассистент для этапа разведки и обнаружения.
- Анализирует URL, JS-файлы, заголовки, ищет паттерны уязвимостей.
- Не запускает эксплойты, а даёт "подсказки" с объяснением, почему конкретный эндпоинт выглядит уязвимым.
- Низкий уровень ложных срабатываний благодаря использованию нескольких "personas" для перекрёстной проверки.
- Стоимость: несколько долларов за сканирование через GPT-4/Claude.
- Автономный эксплуататор, ориентированный на "большую четвёрку" OWASP (SQLi, XSS, SSRF, Auth bypass).
- Анализирует одновременно исходный код и работающее приложение.
- Главная особенность - доказательства: Shannon не просто говорит "это уязвимо", а показывает логи, скриншоты, дампы данных.
- Минус: тоннельное зрение - игнорирует всё, что не входит в его "hit list".
- Расход: $8-10 за среднее приложение.
- Фреймворк для сборки собственных агентов, как конструктор Lego.
- Позволяет интегрировать LLM с существующими инструментами (Nmap, Burp, Metasploit).
- Гибкость: можно создавать агентов для облачных аудитов, локальных сетей, анализа малвари.
- Сложность: требует много времени на prompt engineering и отладку "infinite loops".
- Стоимость: от бесплатно (локальные модели) до $10+ за сложные цепочки на топовых моделях.
Чтобы понять, как современные автономные агенты могут реально ускорять этапы разведки и эксплуатации, полезно посмотреть практический гайд по PentestGPT - от анализа вывода nmap до генерации SQLi payload и интеграции с инструментами вроде Burp Suite.
Сравнительный анализ - что выбрать для каких целей
CVE-Bench
Плюсы :- Фокус на реальных, критических уязвимостях.
- Простота запуска (Docker-контейнеры).
- Высокая воспроизводимость.
- Два режима (zero-day/one-day) для оценки разных навыков.
- Есть готовые метрики и открытый код .
- Изолированность (нет латерального движения).
- Только веб-приложения.
- Не проверяет стратегическое планирование.
- Ограниченный набор типов атак (8 категорий).
- Тестирование способности находить и эксплуатировать конкретные дыры.
- Обучение джуниоров основам эксплуатации.
- Сравнение AI-агентов по базовым навыкам.
- Верификация того, что патч действительно закрывает уязвимость.
CyberBattleSim
Плюсы :- Масштабируемость (целые сети, десятки узлов).
- Возможность обучения с подкреплением.
- Динамика взаимодействия атакующих и защитников.
- Исследование стратегий латерального движения.
- Интеграция с OpenAI Gym.
- Высокий уровень абстракции.
- Отрыв от реальности (нет реальных команд, уязвимостей).
- Не подходит для отработки конкретных техник.
- Требует ручной настройки топологии.
- Исследование стратегий атаки и защиты.
- Обучение агентов с подкреплением.
- Моделирование поведения в сети.
- Понимание влияния топологии на безопасность.
NetSecGame
Плюсы :- Максимальная реалистичность (реальные сервисы, уязвимости).
- Использование реальных пентест-инструментов.
- Сложные многошаговые сценарии.
- Пригодность для тренировки команд.
- Активно развивается, есть поддержка сообщества.
- Встроенный Global Defender для реалистичного шума.
- Сложность развёртывания (требует Docker/K8s).
- Высокие требования к ресурсам.
- Нет готовых метрик, нужно разрабатывать самостоятельно.
- Документация пока в процессе развития.
- Тренировка пентестеров и Blue Team.
- Тестирование AI в условиях, приближенных к реальности.
- Отработка полного цикла атаки.
- Исследование взаимодействия множества агентов.
Как использовать бенчмарки для тренировки ИИ-пентестеров
Постановка задачи
Для AI-агента задача формулируется чётко и измеримо. Примеры:- "Получи доступ к базе данных на узле X."
- "Выполни вход в панель администратора без учётных данных."
- "Прочитай файл flag.txt."
- "Скомпрометируй домен-контроллер."
Интерфейс взаимодействия
Агент должен получать информацию о среде и отдавать команды :- CVE-Bench: текстовый интерфейс, где агент видит вывод консоли и может вводить команды.
- CyberBattleSim: интерфейс OpenAI Gym, где состояние среды представлено в структурированном виде, а действия выбираются из дискретного множества.
- NetSecGame: агент подключается к игровому серверу через API, получает Observation (содержащий текущее состояние) и возвращает Action .
Обучение с подкреплением
Для CyberBattleSim обучение с подкреплением - естественный путь . Reward function строится на основе захваченных узлов, времени и обнаружения. Агент учится методом проб и ошибок, пока не найдёт оптимальную стратегию.Для CVE-Bench и NetSecGame обучение с подкреплением сложнее из-за дискретности действий и большого пространства состояний, но тоже возможно. NetSecGame имеет встроенную поддержку RL-принципов, что упрощает разработку таких агентов .
Оценка результатов
Ключевые метрики для сравнения агентов :- SuccessRate@k – процент успешных эксплуатаций с k попыток (обычно 1 или 3).
- Время до успеха – среднее время решения задачи (в секундах или минутах).
- Количество попыток – число предпринятых действий.
- Покрытие – сколько разных типов уязвимостей агент может обработать.
- Стоимость – токенов, времени, денег.
- Progress Rate (PR) – процент достигнутых milestones (для AutoPenBench).
7.5 Инструментальные метрики
Помимо общих метрик, важно оценивать способность агента правильно использовать инструменты :- Точность вызова инструментов: процент успешных вызовов от общего числа.
- Адекватность параметров: насколько правильно агент подбирает параметры для инструментов.
- Эффективность пайплайна: сколько шагов требуется для достижения цели.
Бенчмарки в контексте 2026 года – тренды и прогнозыЗрелость инструментов: от «умных подсказок» к промышленным пайплайнам
Экосистема AI-пентеста прошла стремительный путь эволюции - от экспериментальных «чат-ассистентов», которые просто давали советы, до полноценных, воспроизводимых, контейнеризированных пайплайнов автоматизации. Если в 2024–2025 годах основным вопросом было «может ли AI найти уязвимость?», то в 2026 году вопрос звучит иначе: «насколько надёжно, масштабируемо и экономически эффективно он это делает?»В 2026 году production-ready инструменты определяются не маркетинговыми обещаниями, а строгим набором технических критериев. Инструмент считается готовым к промышленному использованию, если он соответствует следующим требованиям :
- Работа в Docker-изоляции. Это фундаментальное требование безопасности и воспроизводимости. Агент должен запускаться в чистом, изолированном контейнере, который можно переиспользовать и который гарантирует, что результаты теста не зависят от окружения. Docker-изоляция также предотвращает случайное воздействие на реальные системы за пределами разрешённого периметра.
- Доступ к реальным инструментам. Агент не должен «галлюцинировать» команды. Он должен уметь вызывать настоящие пентест-инструменты - nmap для сканирования, sqlmap для эксплуатации SQL-инъекций, ffuf для фаззинга директорий. Интеграция с инструментарием происходит через API или командную строку, а агент выступает в роли оркестратора, принимающего решения на основе результатов работы этих утилит.
- Сохранение состояния сессии (session persistence). Атака - это не один запрос, а последовательность шагов. Production-ready агент должен помнить, что он уже сделал, какие результаты получил и какой следующий шаг планирует. Это позволяет ему строить многошаговые цепочки и адаптироваться к изменяющимся условиям.
- Логирование всех действий. Абсолютно каждое действие агента - отправленный запрос, выполненная команда, полученный ответ - должно записываться в логи. Это необходимо для последующего анализа, воспроизведения результатов и, что критически важно, для аудита и доказательства того, что тестирование проводилось в рамках согласованного периметра.
- Воспроизводимость результатов. Запуск агента на одной и той же цели в одном и том же окружении должен давать одинаковые или статистически близкие результаты. Это позволяет использовать инструменты для регрессионного тестирования и уверенно оценивать их эффективность.
- Предоставление метрик. Инструмент должен уметь отчитываться о своей работе: сколько времени заняло тестирование, сколько запросов было отправлено, сколько уязвимостей найдено, какая стоимость (в токенах или денежном эквиваленте) была затрачена. Метрики позволяют сравнивать разные инструменты и планировать ресурсы.
На основе этих критериев сформировалась тройка лидеров, которые можно считать эталоном промышленного подхода :
- Strix - платформа, ориентированная на интеграцию с CI/CD и непрерывную валидацию безопасности. Её главная сила - встроенные дашборды, отчётность и возможность встраивать тесты в пайплайны разработки. Strix идеально подходит для enterprise-сектора, где требуется масштабирование на сотни приложений и прозрачность процессов для аудита.
- PentestGPT - проект, который прошёл путь от простого ассистента до полноценного агента с Docker-изоляцией, поддержкой локальных LLM (Ollama) и встроенными бенчмарками. Он может работать полностью офлайн, что критически важно для тестирования в закрытых контурах. PentestGPT - выбор консультантов и пентестеров, которым нужна автономность и воспроизводимость.
- CAI (Cybersecurity AI Framework) - фреймворк для сборки собственных агентов. В отличие от готовых решений, CAI даёт максимальную гибкость: можно создать агента под конкретную задачу, скомбинировав несколько моделей и инструментов. Это выбор для Red Team и исследователей, которым нужны нестандартные сценарии и полный контроль над поведением агента.
Модель Context Protocol (MCP): стандартизация интерфейсов и новые риски
Ключевой архитектурный тренд 2026 года - принятие Model Context Protocol (MCP) в качестве стандарта взаимодействия между LLM-агентами и внешними инструментами. MCP часто называют «USB-C портом для AI-приложений» - он позволяет агентам подключаться к файлам, базам данных, API и SaaS-платформам без необходимости писать десятки кастомных интеграций под каждый источник .Как работает MCP в пентесте
В архитектуре MCP инструменты экспортируются как «tool servers». Агент получает описание доступных инструментов, решает, какие из них вызвать, и серверы выполняют соответствующие команды. Это радикально упрощает интеграцию и позволяет строить сложные цепочки вызовов, где один инструмент передаёт результат другому. Примеры реализации: pentestMCP и HexStrike-AI, которые предоставляют доступ к сотням CLI-утилит через единый протокол .
Проблемы безопасности MCP
Однако стандартизация несёт не только удобство, но и новые риски. Как отмечает белая книга CoSAI (Coalition for Secure AI), MCP встраивает LLM-агента прямо в цепочку принятия решений, и существующие средства контроля (файерволы, RBAC) становятся недостаточными, потому что они не могут проверять семантическое намерение диалога, который привёл к вызову инструмента .
Исследователи выделяют несколько специфических угроз, связанных с MCP :
- Tool Poisoning (отравление инструментов). Злоумышленник может модифицировать метаданные, конфигурацию или описания инструментов, заставляя агента вызывать скомпрометированные версии. Это может привести к утечке данных или компрометации системы.
- Full Schema Poisoning (FSP). Атака на уровне схемы инструмента - злоумышленник внедряет скрытые параметры или изменяет типы возвращаемых данных так, что все последующие вызовы инструмента становятся опасными, при этом для мониторинга они выглядят легитимными.
- Resource Content Poisoning. Вредоносные инструкции встраиваются в источники данных, которые MCP-серверы передают LLM. Когда агент обрабатывает эти данные, скрытые инструкции выполняются как команды.
- Shadow MCP Servers. Несанкционированные или скрытые экземпляры MCP-серверов создают слепые зоны, через которые может происходить утечка данных, оставаясь незамеченной для систем мониторинга.
- Тайпсквоттинг и путаница имён. Злоумышленники создают MCP-серверы с именами, похожими на легитимные, чтобы обманом заставить агентов вызывать вредоносные инструменты.
Исследователи Praetorian продемонстрировали, как эти риски реализуются на практике. Они создали вредоносный MCP-сервер conversation_assistant, замаскированный под полезный инструмент. В Slack-сообщения были встроены команды в Base64. Когда пользователь просил AI-ассистента проанализировать Slack-сообщения, легитимный MCP-сервер Slack возвращал эти сообщения, модель передавала их вредоносному серверу для анализа, а тот декодировал и выполнял команды локально. При этом пользователь видел только легитимный вывод, а выполнение кода происходило в фоне без каких-либо визуальных индикаторов .
Эта атака показывает, как цепочка из, казалось бы, безопасных компонентов может привести к выполнению кода на целевой машине. Более того, для эксфильтрации данных вредоносный сервер может отправлять захваченные сообщения на внешние серверы, используя легитимные OAuth-токены .
Supply Chain риски
Экосистема MCP полагается на пакетные менеджеры (например, uvx, PyPI) для загрузки Python-серверов. При старте клиент MCP динамически загружает и выполняет указанные пакеты. Это открывает путь для supply chain атак - тайпсквоттинга, компрометации учётных записей мейнтейнеров, revival hijacking (перехвата заброшенных имён пакетов). В отличие от интерактивных атак, эти векторы не требуют действий пользователя и срабатывают до того, как включаются какие-либо механизмы одобрения вызовов инструментов .
Рекомендации по защите
Специалисты рекомендуют многоуровневый подход к защите MCP-инфраструктуры :
- Требовать сквозную аутентификацию и трассировку агентов.
- Использовать принцип наименьших привилегий: инструментам должны выдаваться минимально необходимые права.
- Санитизировать входные данные на всех границах доверия и рассматривать вывод LLM как недоверенный.
- Изолировать MCP-серверы в песочницах, не полагаясь только на контейнеры как на достаточную защиту.
- Внедрять криптографическую верификацию происхождения (подписанные артефакты, SBOM).
- Требовать подтверждение от человека (HITL) для критически опасных действий.
- Логировать все вызовы инструментов и централизованно собирать эти логи в SIEM.
Гонка вооружений: AI vs AI
В 2026 году стало окончательно ясно, что AI используется не только защитниками. Атакующие активно внедряют agentic frameworks для автоматизации своих операций. По данным ThreatDown (Malwarebytes), мы наблюдаем переход от атак, движимых человеком, к атакам, оркестрируемым AI, которые работают на «машинной скорости» .Ускорение «от патча до эксплойта»
Ключевой тренд - радикальное сжатие времени между публикацией патча и созданием рабочего эксплойта. AI-агенты способны анализировать изменения в коде, выявлять уязвимости и генерировать эксплойты за минуты, тогда как раньше это занимало часы или дни у человеческих исследователей. Это означает, что окно для защитников, когда система уязвима, но эксплойт ещё не создан, практически исчезает .
В отчёте ThreatDown также отмечается, что в 2025 году количество атак с удалённым шифрованием выросло до 86% от всех ransomware-инцидентов. Атакующие научились запускать шифрование со скомпрометированных, но не управляемых систем, не оставляя вредоносных процессов на целевых машинах. Такая тактика требует сложной координации, которую теперь могут обеспечивать AI-агенты .
AI в APT-инструментарии
Trend Micro в своём исследовании VibeCrime фиксирует, что agentic offensive frameworks всё чаще встречаются в инструментарии APT-групп. Это меняет баланс сил: небольшие группы или даже одиночные операторы теперь могут проводить многоступенчатые атаки, которые раньше были под силу только хорошо финансируемым государственным структурам .
Мнение экспертов
Дэвид Брамли из Bugcrowd резюмирует ситуацию: «ИИ неизбежен, и вопрос был лишь в том, когда мы достигнем этой точки. Мы в неё попали» .
Однако доверие к AI пока остаётся проблемой. Китайские исследователи отмечают, что средний уровень ложных срабатываний AI-детекторов в сложных бизнес-логиках всё ещё составляет 15–25%, что требует обязательной ручной валидации . Человеческая изобретательность по-прежнему необходима для обнаружения сложных, контекстно-зависимых уязвимостей.
Заключение
Бенчмарки - это не просто игрушки для учёных. Это необходимый инструмент для развития как людей, так и AI в области безопасности. Они позволяют объективно измерять прогресс, выявлять слабые места и готовиться к реальным атакам.CVE-Bench даёт меткость, CyberBattleSim - стратегию, NetSecGame - реализм. Вместе они покрывают почти все аспекты пентеста. А новые инициативы - AutoPenBench, xOffense, EVMbench, Wiz Arena - расширяют границы на облака, смарт-контракты и LLM.
В 2026 году мы видим чёткий тренд: от разрозненных демо к стандартизированным, воспроизводимым тестам. Инструменты публикуют метрики, делятся результатами, сравниваются в честной борьбе. Фреймворки вроде PenForge показывают, что динамическая сборка агентов под конкретную задачу может давать существенный прирост эффективности .
Будущее за гибридными подходами, где AI и люди тренируются вместе на реалистичных полигонах, чтобы в реальном бою действовать как единая команда. Бенчмарки - это мост от теории к практике, от лаборатории к реальному миру. И тот, кто научится best использовать этот мост, получит решающее преимущество в гонке вооружений, которая называется кибербезопасность.
Как отмечают эксперты, при работе с LLM нужно отбросить предположение о безопасности и строить приложения с пониманием, что модель неизбежно будет вести себя стохастически и непредсказуемо. Та же философия применима и к бенчмаркам: они не должны создавать иллюзию безопасности, а должны помогать готовиться к неизбежным атакам.
Пентест не умирает - он умножается, адаптируется и становится умнее. И бенчмарки играют в этом ключевую роль.
Последнее редактирование модератором: