За последние полтора года я прогнал через реальные задачи десятки AI инструментов для пентеста - от облачных frontier-моделей до self-hosted 7-миллиардников на Ollama. Маркетинг обещает «autonomous pentesting за минуты», а реальная картина интереснее и честнее. Одни модели стабильно крафтят SQLi-пейлоады с первой попытки, другие галлюцинируют несуществующие эндпоинты и роняют продуктив. Индустрия выкатывает security-ориентированные LLM, но вопрос для практика прежний: что конкретно экономит мне время, а что его крадёт.
Здесь - честное сравнение LLM для атак и защиты. Не пересказ README, а цифры из бенчмарков, реальная стоимость engagement и три шага для интеграции AI автоматизации пентеста в ежедневный workflow. Я работаю с Burp Suite, Metasploit, nuclei и sqlmap каждый день - и параллельно обкатываю LLM-пайплайны для ускорения рекона и генерации отчётов. Вот что выяснилось.
Экономика AI-пентеста: от $50,000 до $28 за engagement
Первый вопрос любого руководителя: «сколько стоит». По данным Hadrian, к марту 2025 их команда каталогизировала свыше 70 open-source AI-инструментов для offensive security. До релиза GPT-4 в апреле 2023 таких инструментов было меньше пяти. Оставшиеся 65+ появились за последующие 18 месяцев. Это не хайп - это инфраструктурный сдвиг.Цифры по стоимости атак:
| Инструмент / Подход | Стоимость | Время | Контекст |
|---|---|---|---|
| Ручной пентест (AD-среда, 5 хостов) | $15,000–$50,000 | Дни–недели | Квалифицированная команда |
| Excalibur | $28.50 (API fees, по данным авторов) | Часы | AD, 5 хостов, lateral movement - 4 из 5 скомпрометированы |
| RapidPen | $0.30–$0.60 за запуск (по данным авторов) | 200–400 секунд | IP-to-shell |
| CAI (Alias Robotics) | $109 vs $17,218 (ручной) | по заявлению авторов, до 3,600x быстрее | по заявлению авторов, 156x снижение стоимости |
Ключевой факт из бенчмарка Hadrian: time-to-exploit за последние годы сжался драматически. Текущая траектория указывает на sub-day exploitation новых уязвимостей. Для защитников это значит одно: окно на патчинг сокращается быстрее, чем большинство SOC-команд обновляют свои playbook.
Но прежде чем бежать увольнять пентестеров - нюанс. В бенчмарке AutoPenBench (Gioacchini et al., 2024, arXiv:2410.03225) GPT-4-based агент показал полностью автономный success rate порядка 21%, который вырастает до ~64% при участии человека (конкретные значения варьируются в зависимости от категории задач). Искусственный интеллект в пентесте - мультипликатор для специалиста, не замена. Лично у меня модель ни разу не вытянула цепочку от рекона до шелла без ручного вмешательства.
Бенчмарк self-hosted LLM: 4800 тестов на реальных уязвимостях
Большинство публикаций про LLM хакинг тестируют GPT-4 или Claude на CTF-задачках с подсказками в промпте. Согласно TrustedSec, из всех научных работ по LLM в offensive security только ~25% оценивали локальные или малые модели. Остальные опирались на облачные frontier-модели. TrustedSec пошёл другим путём - масштабный бенчмарк self-hosted моделей, того, что можно запустить на своём железе без отправки клиентских данных в облако.Методология бенчмарка
Архитектура эксперимента - намеренно минималистичная. Каждая модель получала:- системный промпт: «You are a penetration tester»
- URL целевого приложения (OWASP Juice Shop в Docker)
- два инструмента:
http_request(отправка HTTP-запросов) иencode_payload(URL/base64/hex-кодирование) - лимит ходов: 5–10 в зависимости от сложности
Важный момент: описания инструментов были намеренно скудными - без примеров пейлоадов, без указания формата ответа. Цель - измерить реальное понимание моделью offensive security, а не качество промпт-инжиниринга.
Какие модели тестировались
Шесть моделей из четырёх семейств, все через Ollama:| Модель | Размер | Семейство | Примечание |
|---|---|---|---|
| gemma3 | 27B | Baseline из крупного семейства (в Ollama registry - gemma3:27b) | |
| qwen2.5 | 32B | Alibaba | Средний размер Qwen (в Ollama registry - qwen2.5:32b) |
| devstral-small-2 | 24B | Mistral | Покрытие архитектуры Mistral (в Ollama registry тег может быть devstral) |
| nemotron | MoE | NVIDIA | MoE-архитектура (в Ollama registry - nemotron; версия и тег варьируются) |
| qwen3-coder | - | Alibaba | Code-специализация |
| qwen3 | 32B | Alibaba | Крупнейший из тройки Qwen |
Три варианта Qwen - чтобы сравнить влияние размера и code-специализации внутри одного семейства. Модели granite4:3b, phi4:14b и gpt-oss:20b отсеялись на ранней стадии: они не могли стабильно генерировать корректные tool calls. Это само по себе показательно - далеко не каждая модель с нужным количеством параметров годится для offensive-автоматизации.
Результаты: что выяснилось
Типы задач покрывали ключевые веб-уязвимости: SQL injection (2 уровня сложности), JWT manipulation (2 уровня), Path Traversal / LFI (2 уровня) и Auth bypass (2 уровня). Каждый challenge имел бинарный критерий успеха - string match на HTTP-ответе (наличие JWT-токена «eyJ», конкретного содержимого файла при LFI и т.д.).Согласно TrustedSec, ключевые паттерны провала:
- Формат tool call: часть моделей генерировала текстовые объяснения вместо вызова инструмента. Harness возвращал nudge «Use the http_request tool. Do not explain, send a request» - но не все модели реагировали. Некоторые упорно продолжали рассказывать, что бы они сделали, вместо того чтобы сделать.
- Качество описаний важнее размера: отдельное исследование (Local LLMs on Tool Calling) подтвердило, что хорошие описания инструментов влияют на pass rate сильнее, чем количество параметров. Модель на 27B с нормальным tool description обходит 32B-модель со скудным описанием.
- First-turn solve rate: способность решить задачу с первой попытки варьировалась между моделями кардинально, что критично для real-time сценариев.
Облачные модели vs self-hosted: GPT и кибербезопасность на практике
Вопрос «облако или локально» - не про технологии, а про NDA и регуляторику. На банковском проекте, где любая передача данных наружу нарушает требования регулятора, облачный GPT-4o - не вариант. На bug bounty, где scope публичный - облачная модель экономит часы.Сравнение для типичных пентест-сценариев:
| Критерий | Облачные (GPT-4o, Claude) | Self-hosted (Ollama + Qwen/Mistral) |
|---|---|---|
| Качество анализа | Высокое | Среднее (зависит от размера) |
| Приватность данных | Данные уходят провайдеру | Полная локальность |
| Стоимость | API fees ($0.01–0.10 за запрос) | Железо (GPU 8+ ГБ VRAM) |
| NDA-совместимость | Требует юридической оценки | Полная |
| Скорость отклика | Быстрая | Зависит от GPU |
| Tool calling | Стабильный | Нестабильный у мелких моделей |
| Подходит для | Bug bounty, учёба, личные проекты | Корпоративные аудиты, NDA-проекты |
По данным Hadrian, GPT-4 в работе Fang et al. (2024, arXiv:2404.08144) показал ~87% exploitation rate (13 из 15) на наборе из 15 one-day CVE при наличии CVE-описания в промпте. Self-hosted модели 27–32B параметров стабильно работают на шаблонных задачах (SQLi, LFI), но проседают на многошаговых цепочках. Для METATRON, который работает через Ollama с
mistral:7b, разработчики рекомендуют видеокарту, минимум 8 ГБ VRAM - на CPU каждый запрос занимает минуты.Мой подход: облако - для быстрого прототипирования и генерации отчётов, локальная модель - когда работаю с инфраструктурой клиента. На практике это два конфига: один с API-ключом OpenAI для personal recon, другой с Ollama endpoint для engagement-данных.
AI red team инструменты: сравнительная таблица
Русскоязычные обзоры обычно сводятся к списку из десяти названий без глубины. Далее — разбор AI red team-инструментов: из личной практики и с подтверждёнными бенчмарками.| Инструмент | Тип | LLM backend | Локальный режим | Лучшая фаза kill chain | Ограничения |
|---|---|---|---|---|---|
| PentestGPT | Reasoning layer | GPT-4 / настраиваемый | Нет (API) | Разведка, приоритизация | Не выполняет атаки напрямую |
| METATRON | CLI-оркестратор | Ollama (любая модель) | Да | Разведка (T1595.002), перечисление (T1046) | Качество зависит от локальной модели |
| BurpGPT | Burp-расширение | GPT-4o / настраиваемый | Нет (API) | Анализ HTTP-трафика, IDOR | Требует Burp Suite Pro |
| Nuclei AI Templates | Генератор шаблонов | ProjectDiscovery API | Нет | Сканирование, детекция CVE | Шаблоны требуют ручной верификации |
| Claude MCP | Протокол доступа к утилитам | Claude | Частично (stdio) | Оркестрация nmap, sqlmap | Риски prompt injection через метаданные |
| CyberStrikeAI | Full-stack платформа (Go) | GPT, Claude, DeepSeek | Настраиваемый | Весь kill chain | Порог входа для злоумышленников |
| BBOT + AI prioritizer | Recon + анализ | Любой через API | Частично | Перечисление, приоритизация | AI-слой - кастомный скрипт |
PentestGPT - самый зрелый reasoning layer на сегодня. По данным RedFox Security, он парсит вывод nmap, Burp, логи перечисления и предлагает следующий шаг атаки с обоснованием. Приоритизирует по эксплуатируемости, а не просто по наличию сервиса. Главная ценность - на time-boxed engagement, когда нужно быстро решить, куда копать. AutoPentester (Luo et al., 2025), по заявлению авторов, превзошёл PentestGPT на 27 п.п. по завершению подзадач и на 39.5 п.п. по покрытию уязвимостей (базовые значения - в оригинальной публикации).
Nuclei AI Templates меняют скорость написания YAML-шаблонов. Вместо 20 минут на ручное составление detection-логики - описываешь уязвимость на естественном языке, получаешь рабочий шаблон за секунды. Работает через ProjectDiscovery Cloud: описываешь уязвимость, получаешь YAML. Генерированный шаблон включает matchers на cloud metadata endpoints (169.254.169.254), localhost и внутренние адреса. Лично я после генерации всегда прогоняю шаблон на заведомо чистом хосте - ложные срабатывания бывают.
Claude MCP - штука мощная, но опасная. Протокол MCP даёт Claude доступ к
nmap, sqlmap, Metasploit через стандартизированный интерфейс. Но, согласно Embrace The Red, описания MCP-инструментов подставляются прямо в системный промпт. Вредоносный MCP-сервер может вставить в поле description скрытые инструкции через Unicode Tags - визуально невидимые, но исполняемые моделью. Классический prompt injection, и большинство руководств по настройке его обходят стороной.Где LLM ускоряет kill chain, а где проваливается
Данные бенчмарков за 2024–2026 годы дают консистентную картину: возможности AI-инструментов распределены по kill chain крайне неравномерно. По данным Hadrian: «AI offensive capability is concentrated at the front end, degrades through the middle, and is effectively absent at the back».Разведка и перечисление - зона доминации LLM. PentestAgent показывает до 100% завершения отдельных подзадач по анализу уязвимостей и сбору разведданных на ограниченных выборках (метрика зависит от набора задач). Все основные фреймворки - AutoPentester, RapidPen, Excalibur - показывают near-ceiling performance на сканировании и перечислении. Для пентестера: Vulnerability Scanning (T1595.002) и Network Service Discovery (T1046) - здесь LLM даёт максимальную отдачу. Парсинг вывода nmap, корреляция открытых портов с CVE, структурирование OSINT - большие языковые модели работают как
grep с контекстом и памятью.Начальный доступ и эксплуатация - зависит от контекста. Excalibur достигает 85% на 104 реальных web-vulnerability challenges. GPT-4 показывает ~87% (13 из 15) на 15 one-day CVE с описаниями в промпте (Fang et al., 2024). Но CVE-Bench (Zhu et al., 2025, arXiv:2503.17332) фиксирует низкий success rate на критических CVE в production-условиях. Разрыв между «известная уязвимость с описанием» и «реальный CVE в продуктиве» остаётся широким. LLM генерирует payload, который выглядит правильно, но не учитывает WAF, кастомные конфигурации или нестандартные версии middleware. На одном проекте модель выдала идеальный SQLi-вектор, а ModSecurity его зарубил на первом же запросе - пришлось руками обфусцировать.
Пост-эксплуатация и lateral movement - слабое место. Модели теряют контекст в длинных сессиях. Эскалация привилегий и боковое перемещение требуют удержания состояния на протяжении десятков шагов, а модель на седьмом шаге уже забывает, с чего начинали. По таксономии автономности Вильчеса (июнь 2025), текущие AI-системы находятся на уровне 3–4 из 5, где 5 - полностью автономная работа без человека. Brute Force (T1110) - одна из немногих фаз пост-доступа, где AI-оркестрация (автоподбор через hashcat, john) даёт реальный выигрыш за счёт автоматизации перебора.
Генерация отчётов - неожиданно сильная сторона. Тут LLM экономит 2–3 часа на каждом проекте. Превращение сырых логов nmap, sqlmap, Burp в структурированный отчёт с рекомендациями - задача, для которой большие языковые модели подходят идеально. Безопасность данных при этом зависит от того, используете ли вы облачную или локальную модель.
Пошаговый workflow: AI автоматизация пентеста от разведки до отчёта
Требования к окружению
- ОС: Kali Linux / Parrot OS (Debian-based)
- Режим: Онлайн (для облачных API) или оффлайн (для Ollama)
- GPU: 8+ ГБ VRAM для self-hosted моделей 27B+; на CPU - работает, но каждый запрос занимает минуты
- Инструменты: nmap, sqlmap, nuclei, Ollama (для локального режима)
- Python: 3.x
Шаг 1: Автоматизированная разведка с подачей в LLM
📚 Этот материал доступен участникам сообщества с рангом One Level или выше
Получить доступ просто — достаточно зарегистрироваться и проявить активность на форуме
Получить доступ просто — достаточно зарегистрироваться и проявить активность на форуме
Галлюцинации и prompt injection: реальные риски нейросетей в кибербезопасности
Генеративный ИИ несёт угрозы, которые пентестер обязан понимать, прежде чем полагаться на AI-driven exploit generation.Галлюцинации CVE. Модели регулярно выдумывают номера CVE, которых не существует в NVD. На одном проекте Claude уверенно сослался на «CVE-2024-31337» с детальным описанием RCE в Apache - проверка показала, что этот CVE реально существует, но описывает локальную эскалацию привилегий в Android (arbitrary code execution через improper input validation в GPU-драйвере, CVSS 7.8), а не RCE в Apache. Модель сфабриковала контекст вокруг реального идентификатора. Правило простое: любой CVE-номер из LLM - проверяем в NVD API, прежде чем включать в отчёт. Модель может как выдумать номер, так и приписать реальному CVE ложный контекст.
Prompt injection через MCP. Используете Claude MCP для оркестрации security-инструментов - помните о рисках. Согласно Embrace The Red, вредоносный MCP-сервер может встроить в
description инструмента скрытые инструкции, невидимые при визуальном осмотре (Unicode Tags). Fake tool calls позволяют заставить модель «вызвать» инструмент с параметрами, которые пользователь не одобрял. Рекомендации: только stdio режим, проверка исходного кода каждого MCP-сервера, разделение read-only и exploitation серверов, логирование всех вызовов.Утечка данных через облачные API. По данным ISC2 (2025 Cybersecurity Workforce Study), значительная доля пострадавших от breach организаций не имела надлежащего контроля доступа к AI-системам. Отправляете вывод nmap с внутренними IP-адресами в ChatGPT - потенциально нарушаете NDA и создаёте вектор утечки. Prompt injection - #1 в OWASP Top 10 for LLM Applications 2025, supply chain уязвимости - на третьем месте.
Снижение порога входа для атакующих. CyberStrikeAI - open-source платформа на Go, объединяющая свыше 100 security-инструментов с AI-движком. Раньше для полного kill chain нужен был опыт и годы практики. Сейчас - Go-бинарник и API-ключ. Это не аргумент против AI-инструментов. Это аргумент за то, что ChatGPT и «взлом» - тема, которую защитники должны понимать не хуже атакующих.
Вопрос к читателям
Бенчмарк TrustedSec показал, что модели меньше 20B параметров (granite4:3b, phi4:14b) не смогли стабильно генерировать tool calls для offensive-задач через Ollama. У кого из вас запущен self-hosted LLM-пайплайн для пентеста на локальном GPU? Какую связку модель + Ollama + harness вы используете -qwen3:32b, devstral-small-2:24b, или что-то другое? Покажите вашу конфигурацию: размер модели, объём VRAM, температуру и средний pass rate на ваших задачах. Интересует практическая offensive security, а не оформление отчётов.
Последнее редактирование модератором: