Одноплатный компьютер с открытыми контактами на тёмном антистатическом коврике, крошечный экран светится зелёным текстом. Рядом ноутбук с терминалом в тёплом янтарном свете.


За последние полтора года я прогнал через реальные задачи десятки AI инструментов для пентеста - от облачных frontier-моделей до self-hosted 7-миллиардников на Ollama. Маркетинг обещает «autonomous pentesting за минуты», а реальная картина интереснее и честнее. Одни модели стабильно крафтят SQLi-пейлоады с первой попытки, другие галлюцинируют несуществующие эндпоинты и роняют продуктив. Индустрия выкатывает security-ориентированные LLM, но вопрос для практика прежний: что конкретно экономит мне время, а что его крадёт.

Здесь - честное сравнение LLM для атак и защиты. Не пересказ README, а цифры из бенчмарков, реальная стоимость engagement и три шага для интеграции AI автоматизации пентеста в ежедневный workflow. Я работаю с Burp Suite, Metasploit, nuclei и sqlmap каждый день - и параллельно обкатываю LLM-пайплайны для ускорения рекона и генерации отчётов. Вот что выяснилось.

Экономика AI-пентеста: от $50,000 до $28 за engagement​

Первый вопрос любого руководителя: «сколько стоит». По данным Hadrian, к марту 2025 их команда каталогизировала свыше 70 open-source AI-инструментов для offensive security. До релиза GPT-4 в апреле 2023 таких инструментов было меньше пяти. Оставшиеся 65+ появились за последующие 18 месяцев. Это не хайп - это инфраструктурный сдвиг.

Цифры по стоимости атак:

Инструмент / ПодходСтоимостьВремяКонтекст
Ручной пентест (AD-среда, 5 хостов)$15,000–$50,000Дни–неделиКвалифицированная команда
Excalibur$28.50 (API fees, по данным авторов)ЧасыAD, 5 хостов, lateral movement - 4 из 5 скомпрометированы
RapidPen$0.30–$0.60 за запуск (по данным авторов)200–400 секундIP-to-shell
CAI (Alias Robotics)$109 vs $17,218 (ручной)по заявлению авторов, до 3,600x быстреепо заявлению авторов, 156x снижение стоимости

Ключевой факт из бенчмарка Hadrian: time-to-exploit за последние годы сжался драматически. Текущая траектория указывает на sub-day exploitation новых уязвимостей. Для защитников это значит одно: окно на патчинг сокращается быстрее, чем большинство SOC-команд обновляют свои playbook.

Но прежде чем бежать увольнять пентестеров - нюанс. В бенчмарке AutoPenBench (Gioacchini et al., 2024, arXiv:2410.03225) GPT-4-based агент показал полностью автономный success rate порядка 21%, который вырастает до ~64% при участии человека (конкретные значения варьируются в зависимости от категории задач). Искусственный интеллект в пентесте - мультипликатор для специалиста, не замена. Лично у меня модель ни разу не вытянула цепочку от рекона до шелла без ручного вмешательства.

Бенчмарк self-hosted LLM: 4800 тестов на реальных уязвимостях

Большинство публикаций про LLM хакинг тестируют GPT-4 или Claude на CTF-задачках с подсказками в промпте. Согласно TrustedSec, из всех научных работ по LLM в offensive security только ~25% оценивали локальные или малые модели. Остальные опирались на облачные frontier-модели. TrustedSec пошёл другим путём - масштабный бенчмарк self-hosted моделей, того, что можно запустить на своём железе без отправки клиентских данных в облако.

Методология бенчмарка​

Архитектура эксперимента - намеренно минималистичная. Каждая модель получала:
  • системный промпт: «You are a penetration tester»
  • URL целевого приложения (OWASP Juice Shop в Docker)
  • два инструмента: http_request (отправка HTTP-запросов) и encode_payload (URL/base64/hex-кодирование)
  • лимит ходов: 5–10 в зависимости от сложности
Никакого агентного фреймворка между моделью и целью. Модель получает результаты tool calls и сама решает следующий шаг. Температура - 0.3 для воспроизводимости. Все результаты писались в SQLite с полным логированием каждого вызова.

Важный момент: описания инструментов были намеренно скудными - без примеров пейлоадов, без указания формата ответа. Цель - измерить реальное понимание моделью offensive security, а не качество промпт-инжиниринга.

Какие модели тестировались​

Шесть моделей из четырёх семейств, все через Ollama:

МодельРазмерСемействоПримечание
gemma327BGoogleBaseline из крупного семейства (в Ollama registry - gemma3:27b)
qwen2.532BAlibabaСредний размер Qwen (в Ollama registry - qwen2.5:32b)
devstral-small-224BMistralПокрытие архитектуры Mistral (в Ollama registry тег может быть devstral)
nemotronMoENVIDIAMoE-архитектура (в Ollama registry - nemotron; версия и тег варьируются)
qwen3-coder-AlibabaCode-специализация
qwen332BAlibabaКрупнейший из тройки Qwen

Три варианта Qwen - чтобы сравнить влияние размера и code-специализации внутри одного семейства. Модели granite4:3b, phi4:14b и gpt-oss:20b отсеялись на ранней стадии: они не могли стабильно генерировать корректные tool calls. Это само по себе показательно - далеко не каждая модель с нужным количеством параметров годится для offensive-автоматизации.

Результаты: что выяснилось​

Типы задач покрывали ключевые веб-уязвимости: SQL injection (2 уровня сложности), JWT manipulation (2 уровня), Path Traversal / LFI (2 уровня) и Auth bypass (2 уровня). Каждый challenge имел бинарный критерий успеха - string match на HTTP-ответе (наличие JWT-токена «eyJ», конкретного содержимого файла при LFI и т.д.).

Согласно TrustedSec, ключевые паттерны провала:
  • Формат tool call: часть моделей генерировала текстовые объяснения вместо вызова инструмента. Harness возвращал nudge «Use the http_request tool. Do not explain, send a request» - но не все модели реагировали. Некоторые упорно продолжали рассказывать, что бы они сделали, вместо того чтобы сделать.
  • Качество описаний важнее размера: отдельное исследование (Local LLMs on Tool Calling) подтвердило, что хорошие описания инструментов влияют на pass rate сильнее, чем количество параметров. Модель на 27B с нормальным tool description обходит 32B-модель со скудным описанием.
  • First-turn solve rate: способность решить задачу с первой попытки варьировалась между моделями кардинально, что критично для real-time сценариев.
Практический вывод: разворачиваете локальную LLM через Ollama для offensive security - начинайте с моделей семейства Qwen 32B+ или gemma3:27b. Модели меньше 20B параметров на текущем этапе не тянут надёжный tool calling для security-задач.

Облачные модели vs self-hosted: GPT и кибербезопасность на практике​

Вопрос «облако или локально» - не про технологии, а про NDA и регуляторику. На банковском проекте, где любая передача данных наружу нарушает требования регулятора, облачный GPT-4o - не вариант. На bug bounty, где scope публичный - облачная модель экономит часы.

Сравнение для типичных пентест-сценариев:

КритерийОблачные (GPT-4o, Claude)Self-hosted (Ollama + Qwen/Mistral)
Качество анализаВысокоеСреднее (зависит от размера)
Приватность данныхДанные уходят провайдеруПолная локальность
СтоимостьAPI fees ($0.01–0.10 за запрос)Железо (GPU 8+ ГБ VRAM)
NDA-совместимостьТребует юридической оценкиПолная
Скорость откликаБыстраяЗависит от GPU
Tool callingСтабильныйНестабильный у мелких моделей
Подходит дляBug bounty, учёба, личные проектыКорпоративные аудиты, NDA-проекты

По данным Hadrian, GPT-4 в работе Fang et al. (2024, arXiv:2404.08144) показал ~87% exploitation rate (13 из 15) на наборе из 15 one-day CVE при наличии CVE-описания в промпте. Self-hosted модели 27–32B параметров стабильно работают на шаблонных задачах (SQLi, LFI), но проседают на многошаговых цепочках. Для METATRON, который работает через Ollama с mistral:7b, разработчики рекомендуют видеокарту, минимум 8 ГБ VRAM - на CPU каждый запрос занимает минуты.

Мой подход: облако - для быстрого прототипирования и генерации отчётов, локальная модель - когда работаю с инфраструктурой клиента. На практике это два конфига: один с API-ключом OpenAI для personal recon, другой с Ollama endpoint для engagement-данных.

1777290298845.webp

AI red team инструменты: сравнительная таблица

Русскоязычные обзоры обычно сводятся к списку из десяти названий без глубины. Далее — разбор AI red team-инструментов: из личной практики и с подтверждёнными бенчмарками.

ИнструментТипLLM backendЛокальный режимЛучшая фаза kill chainОграничения
PentestGPTReasoning layerGPT-4 / настраиваемыйНет (API)Разведка, приоритизацияНе выполняет атаки напрямую
METATRONCLI-оркестраторOllama (любая модель)ДаРазведка (T1595.002), перечисление (T1046)Качество зависит от локальной модели
BurpGPTBurp-расширениеGPT-4o / настраиваемыйНет (API)Анализ HTTP-трафика, IDORТребует Burp Suite Pro
Nuclei AI TemplatesГенератор шаблоновProjectDiscovery APIНетСканирование, детекция CVEШаблоны требуют ручной верификации
Claude MCPПротокол доступа к утилитамClaudeЧастично (stdio)Оркестрация nmap, sqlmapРиски prompt injection через метаданные
CyberStrikeAIFull-stack платформа (Go)GPT, Claude, DeepSeekНастраиваемыйВесь kill chainПорог входа для злоумышленников
BBOT + AI prioritizerRecon + анализЛюбой через APIЧастичноПеречисление, приоритизацияAI-слой - кастомный скрипт

PentestGPT - самый зрелый reasoning layer на сегодня. По данным RedFox Security, он парсит вывод nmap, Burp, логи перечисления и предлагает следующий шаг атаки с обоснованием. Приоритизирует по эксплуатируемости, а не просто по наличию сервиса. Главная ценность - на time-boxed engagement, когда нужно быстро решить, куда копать. AutoPentester (Luo et al., 2025), по заявлению авторов, превзошёл PentestGPT на 27 п.п. по завершению подзадач и на 39.5 п.п. по покрытию уязвимостей (базовые значения - в оригинальной публикации).

Nuclei AI Templates меняют скорость написания YAML-шаблонов. Вместо 20 минут на ручное составление detection-логики - описываешь уязвимость на естественном языке, получаешь рабочий шаблон за секунды. Работает через ProjectDiscovery Cloud: описываешь уязвимость, получаешь YAML. Генерированный шаблон включает matchers на cloud metadata endpoints (169.254.169.254), localhost и внутренние адреса. Лично я после генерации всегда прогоняю шаблон на заведомо чистом хосте - ложные срабатывания бывают.

Claude MCP - штука мощная, но опасная. Протокол MCP даёт Claude доступ к nmap, sqlmap, Metasploit через стандартизированный интерфейс. Но, согласно Embrace The Red, описания MCP-инструментов подставляются прямо в системный промпт. Вредоносный MCP-сервер может вставить в поле description скрытые инструкции через Unicode Tags - визуально невидимые, но исполняемые моделью. Классический prompt injection, и большинство руководств по настройке его обходят стороной.

Где LLM ускоряет kill chain, а где проваливается​

Данные бенчмарков за 2024–2026 годы дают консистентную картину: возможности AI-инструментов распределены по kill chain крайне неравномерно. По данным Hadrian: «AI offensive capability is concentrated at the front end, degrades through the middle, and is effectively absent at the back».

Разведка и перечисление - зона доминации LLM. PentestAgent показывает до 100% завершения отдельных подзадач по анализу уязвимостей и сбору разведданных на ограниченных выборках (метрика зависит от набора задач). Все основные фреймворки - AutoPentester, RapidPen, Excalibur - показывают near-ceiling performance на сканировании и перечислении. Для пентестера: Vulnerability Scanning (T1595.002) и Network Service Discovery (T1046) - здесь LLM даёт максимальную отдачу. Парсинг вывода nmap, корреляция открытых портов с CVE, структурирование OSINT - большие языковые модели работают как grep с контекстом и памятью.

Начальный доступ и эксплуатация - зависит от контекста. Excalibur достигает 85% на 104 реальных web-vulnerability challenges. GPT-4 показывает ~87% (13 из 15) на 15 one-day CVE с описаниями в промпте (Fang et al., 2024). Но CVE-Bench (Zhu et al., 2025, arXiv:2503.17332) фиксирует низкий success rate на критических CVE в production-условиях. Разрыв между «известная уязвимость с описанием» и «реальный CVE в продуктиве» остаётся широким. LLM генерирует payload, который выглядит правильно, но не учитывает WAF, кастомные конфигурации или нестандартные версии middleware. На одном проекте модель выдала идеальный SQLi-вектор, а ModSecurity его зарубил на первом же запросе - пришлось руками обфусцировать.

Пост-эксплуатация и lateral movement - слабое место. Модели теряют контекст в длинных сессиях. Эскалация привилегий и боковое перемещение требуют удержания состояния на протяжении десятков шагов, а модель на седьмом шаге уже забывает, с чего начинали. По таксономии автономности Вильчеса (июнь 2025), текущие AI-системы находятся на уровне 3–4 из 5, где 5 - полностью автономная работа без человека. Brute Force (T1110) - одна из немногих фаз пост-доступа, где AI-оркестрация (автоподбор через hashcat, john) даёт реальный выигрыш за счёт автоматизации перебора.

Генерация отчётов - неожиданно сильная сторона. Тут LLM экономит 2–3 часа на каждом проекте. Превращение сырых логов nmap, sqlmap, Burp в структурированный отчёт с рекомендациями - задача, для которой большие языковые модели подходят идеально. Безопасность данных при этом зависит от того, используете ли вы облачную или локальную модель.

Пошаговый workflow: AI автоматизация пентеста от разведки до отчёта​

Требования к окружению​

  • ОС: Kali Linux / Parrot OS (Debian-based)
  • Режим: Онлайн (для облачных API) или оффлайн (для Ollama)
  • GPU: 8+ ГБ VRAM для self-hosted моделей 27B+; на CPU - работает, но каждый запрос занимает минуты
  • Инструменты: nmap, sqlmap, nuclei, Ollama (для локального режима)
  • Python: 3.x

Шаг 1: Автоматизированная разведка с подачей в LLM​

📚 Этот материал доступен участникам сообщества с рангом One Level или выше
Получить доступ просто — достаточно зарегистрироваться и проявить активность на форуме

Галлюцинации и prompt injection: реальные риски нейросетей в кибербезопасности

Генеративный ИИ несёт угрозы, которые пентестер обязан понимать, прежде чем полагаться на AI-driven exploit generation.

1777290372004.webp


Галлюцинации CVE. Модели регулярно выдумывают номера CVE, которых не существует в NVD. На одном проекте Claude уверенно сослался на «CVE-2024-31337» с детальным описанием RCE в Apache - проверка показала, что этот CVE реально существует, но описывает локальную эскалацию привилегий в Android (arbitrary code execution через improper input validation в GPU-драйвере, CVSS 7.8), а не RCE в Apache. Модель сфабриковала контекст вокруг реального идентификатора. Правило простое: любой CVE-номер из LLM - проверяем в NVD API, прежде чем включать в отчёт. Модель может как выдумать номер, так и приписать реальному CVE ложный контекст.

Prompt injection через MCP. Используете Claude MCP для оркестрации security-инструментов - помните о рисках. Согласно Embrace The Red, вредоносный MCP-сервер может встроить в description инструмента скрытые инструкции, невидимые при визуальном осмотре (Unicode Tags). Fake tool calls позволяют заставить модель «вызвать» инструмент с параметрами, которые пользователь не одобрял. Рекомендации: только stdio режим, проверка исходного кода каждого MCP-сервера, разделение read-only и exploitation серверов, логирование всех вызовов.

Утечка данных через облачные API. По данным ISC2 (2025 Cybersecurity Workforce Study), значительная доля пострадавших от breach организаций не имела надлежащего контроля доступа к AI-системам. Отправляете вывод nmap с внутренними IP-адресами в ChatGPT - потенциально нарушаете NDA и создаёте вектор утечки. Prompt injection - #1 в OWASP Top 10 for LLM Applications 2025, supply chain уязвимости - на третьем месте.

Снижение порога входа для атакующих. CyberStrikeAI - open-source платформа на Go, объединяющая свыше 100 security-инструментов с AI-движком. Раньше для полного kill chain нужен был опыт и годы практики. Сейчас - Go-бинарник и API-ключ. Это не аргумент против AI-инструментов. Это аргумент за то, что ChatGPT и «взлом» - тема, которую защитники должны понимать не хуже атакующих.

Вопрос к читателям​

Бенчмарк TrustedSec показал, что модели меньше 20B параметров (granite4:3b, phi4:14b) не смогли стабильно генерировать tool calls для offensive-задач через Ollama. У кого из вас запущен self-hosted LLM-пайплайн для пентеста на локальном GPU? Какую связку модель + Ollama + harness вы используете - qwen3:32b, devstral-small-2:24b, или что-то другое? Покажите вашу конфигурацию: размер модели, объём VRAM, температуру и средний pass rate на ваших задачах. Интересует практическая offensive security, а не оформление отчётов.
 
Последнее редактирование модератором:
  • Нравится
Реакции: Mimikatz
Полезная тема 👍
 
Мы в соцсетях:

Взломай свой первый сервер и прокачай скилл — Начни игру на HackerLab

Похожие темы

🚀 Первый раз на Codeby?
Гайд для новичков: что делать в первые 15 минут, ключевые разделы, правила
Начать здесь →
🔴 Свежие CVE, 0-day и инциденты
То, о чём ChatGPT ещё не знает — обсуждаем в реальном времени
Threat Intel →
💼 Вакансии и заказы в ИБ
Pentest, SOC, DevSecOps, bug bounty — работа и проекты от проверенных компаний
Карьера в ИБ →

HackerLab