Генеративные нейросети — штука полезная, пока их не берут в руки те, кто хочет вас развести. Мошенники быстро смекнули: LLM (large language model, большая языковая модель) — отличный инструмент для правдоподобного персонализированного фишинга, аккуратной подделки писем под конкретную компанию и обхода CAPTCHA так, будто ты человек. Добавьте сюда data poisoning (отравление данных обучения), когда модель намеренно кормят дрянью, и дипфейки с синтетическими личностями, которые звонят вашим голосом начальнику, — и получите новый ландшафт угроз.
В этой статье мы пробежимся по главным векторам атак: от писем, которые не отличить от настоящих, до голосовых подстав и скрытного внедрения бэкдоров в модели. Посмотрим, как выявлять такие штуки и что можно противопоставить им.
Персонализированный фишинг нового поколения
Мошенники быстро усвоили, что LLM отлично подходят для создания высокоточно персонализированного фишинга, где письма трудно отличить от подлинных по стилю, грамматике и содержанию.Классический фишинг легко распознавался по трём признакам характерным: грамматические ошибки, странный отправитель и общее обращение («Уважаемый клиент»). Современные атаки не имеют этих недостатков. Сейчас мошенники собирают данные о жертве из открытых источников (социальные сети, корпоративные сайты) и генерируют тексты, адаптированные под индивидуальные детали — от недавних покупок до рабочих проектов.
Злоумышленники тут могут использовать как классические большие языковые модели (ChatGPT, DeepSeek, Gemini, Perplexity, LLaMA) так и специализированные т.н dark-LLM (например, FraudGPT, WormGPT). Ключе отличие dark-LLM от мейнстримных в том, что они лишены guardrails (встроенные механизмы безопасности, фильтры и ограничения в LLM). Существуют специально обученные модели и джейлбрейк-варианты.
Как защититься от фишинга с использованием LLM?
Для такой формы фишинга характерен идеально ровный стиль, шаблонные обороты, излишняя вежливость и странные нестыковки между текстом, доменом и контекстом — вот маркеры генерации. Технически помогает комбинация нескольких приёмов: проверка URL (typosquatting, сокращатели), контекстный анализ (имеет ли отправитель право просить именно это действие сейчас) и поиск «AI-следов» (метатеги, повторяющиеся шаблоны на фишинговых страницах). Следует также обратить внимание, что текст мог быть написан с обходом типовых guardrails, которые характерны для классических LLM.В качестве способа обнаруживать такие приёмы можно использовать специализированные текстовые детекторы (GPTZero, Copyleaks, Originality.ai) — но лишь вспомогательный инструмент, они ошибаются на коротких и деловых письмах. Если действительно параноидально подойти к вопросу, то основная защита строится на email security платформах (BEC-аналитика, заголовки, ссылки, вложения), URL-песочницах и SOC/UEBA для поиска цепочек атак. Самый надёжный процесс — pipeline из нескольких слоёв: SPF/DKIM/DMARC → URL-rewrite + sandbox → AI-детектор как дополнительный признак → ручная проверка. И обязательно — тренировка сотрудников на давление и срочность, а также red-team симуляции с LLM-письмами.
Обход CAPTCHA и систем верификации: использование LLM для решения задач «человек-или-робот»
CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) была создана в начале 2000-х годов как автоматизированный тест для отличия реальных пользователей от ботов. Классическая идея: человек легко читает искажённый текст или выбирает объекты на изображениях, а программа — нет. Это должно было защитить сайты от массовой регистрации, рассылки спама, накрутки голосований и перебора паролей. Однако с развитием машинного обучения и LLM баланс сил несколько изменился.Сейчас мошенники используют программы для распознавания текста + LLM (например, Tesseract с нейросетью) для искажённых букв — точность до 95%. Для reCAPTCHA v2 («светофоры») применяют собственные модели (YOLO) + эмуляцию мыши, а для v3 — подделку fingerprint (WebGL, Canvas) через Puppeteer-Extra. Всё это легко автоматизируется через API сервисов-решателей (2Captcha, Capsolver) за копейки.
Современные LLM (GPT-4, LLaMA) без труда отвечают на вопросы с подвохом («введите третий символ слова "домофон"», «если вчера был вторник…»). Аудио-CAPTCHA распознаётся через Whisper или Google Speech-to-Text с точностью до 90%. Классические «человеческие» тесты больше не работают.
Стоит ли полагаться на CAPTCHA?
Тут следует начать с радикального совета: полностью откажитесь от текстовых CAPTCHA — они устарели. Сейчас целесообразнее внедрить многофакторную поведенческую аналитику (траектория мыши, тайминги, история сессии и.т.д). Для сценариев с LLM важно ограничивать прямой доступ агентов к критическим действиям и формам, изолировать браузерные агенты и фильтровать внешние инструкции, чтобы снизить риск prompt injection. В KYC и других высокорисковых процессах лучше добавлять проверку живости, анти-спуфинг и ручную эскалацию там, где автоматической уверенности недостаточно.«Отравление» данных и prompt injection
Следующий способ атаки носит весьма изощренный характер и нацелен на порчу процесса машинного обучения. Data poisoning (отравление данных) — тип атаки на этапе обучения ML-модели, при котором злоумышленник внедряет в тренировочный набор ложные или модифицированные образцы. Цель — не мгновенное разрушение, а формирование скрытой уязвимости (backdoor) или контролируемое смещение поведения модели.Атакующий добавляет «отравленные» примеры, заставляя модель выучить нежелательную корреляцию. Например: связка «триггерный паттерн + вредоносное действие» маркируется как безопасная. В штатном режиме модель работает корректно, но при предъявлении триггера (фраза, пиксельный узор, код) активируется бэкдор — модель выдаёт заданный атакующим результат.
Для более глубокого понимания методов атак крайне желательно ознакомиться с документом OWASP LLM Top 10 (версия 2025 года). Документ содержит конкретные описания уязвимостей, эксплуатируемых на практике, — от инъекций промптов, преодолевающих штатные ограничения, до атак типа data poisoning, способных превратить легитимную модель в инструмент злоумышленника.
Как защитить нейросети?
На сегодняшний день существует много специализированных инструментов для защиты от Data poisoning и Prompt Injection. Например, NeMo Guardrails от NVIDIA создаёт барьер между системными инструкциями и пользовательским вводом, блокируя до 99% jailbreak-атак без переобучения модели. Дополнительно применяются input validation (фильтрация текста), sanitization (разбор ввода на части), relevance scoring (оценка релевантности, то есть ранжирование найденных фрагментов по полезности для ответа) в RAG-системах (Retrieval-Augmented Generation — системы, которые сначала ищут информацию в базе знаний, а затем генерируют ответ) и anomaly detection (обнаружение аномалий — выявление необычных паттернов запросов) в продакшене. Ключевые меры: контроль происхождения данных (provenance), шифрование датасетов, удаление выбросов (outliers) и регулярный ретрейнинг на чистых данных.Внедряйте CI/CD со сканированием данных, логи и алерты на аномалии. Для RAG-систем защищайте векторное хранилище от непрямых инъекций (indirect injection) через лейблы чанков и структурированные промпты с кавычками. Проводите red-teaming и тестируйте модель на реальных атаках. Начинайте с простого: запрещённые списки тем (disallowed lists) и мониторинг поведения — эффект заметен сразу, а модель без защиты остаётся «умной снаружи, но гнилой внутри».
Дипфейки
Телефонный звонок от начальника с незнакомого номера: «Срочно, вопрос на миллион, связь плохая, напиши мне в Telegram». Голос в трубке — родной, интонации верные, но что-то не так. Раньше для убедительности злоумышленникам хватало базового социального инжиниринга. Сегодня они могут украсть не только ваши данные, но и вашу личность — голос, лицо, манеру речи.Дипфейки стали одним из самых нашумевших, опасных и технологичных опасных инструментов современной социальной инженерии: злоумышленники используют поддельные голос и видео, чтобы выдать себя за начальника, родственника или официальное лицо и убедить жертву срочно перевести деньги, например.
Дипфейки важны не только в фишинге, но и в synthetic identity fraud — мошенничестве с синтетическими личностями, когда преступник собирает новую «личность» из настоящих и вымышленных данных. Поддельные фото, видео и голос помогают такой личности выглядеть живой и правдоподобной: пройти первичную проверку, общаться с сотрудниками банка или службы поддержки, а иногда и поддерживать длительный обман в цифровых каналах. В этой модели дипфейк — не разовая уловка, а часть более широкой конструкции, где подделывается поведение, история и цифровое присутствие человека
Как защититься от дипфейков
Начнём с простых мер предосторожности: Есть несколько типичных признаков: неестественно монотонная речь, странные паузы, дефекты звука, рассинхрон губ и голоса, необычная мимика, а также настойчивые просьбы действовать быстро. Еще один важный сигнал — попытка перевести разговор из привычного и проверенного канала в новый мессенджер, звонок или чат, где легче контролировать переписку и скрыть следы. Если в сообщении звучит «не перезванивай», «не говори никому» или «нужны деньги прямо сейчас», это почти всегда повод остановиться и перепроверить.Для проверки видео и аудио есть отдельные сервисы, которые оценивают вероятность того, что контент сгенерирован или подделан с помощью ИИ. Ниже приведён ряд примеров:
- Deepware Scanner / Deepware AI — анализ видеофайлов или ссылок на ролики на признаки дипфейка.
- Hive Moderation — проверяет изображения, видео и другие типы контента, в том числе через API.
- Reality Defender — может анализировать контент в браузере и предупреждать о подделках.
- Microsoft Video Authenticator — инструмент для оценки вероятности дипфейка в видео.
- Sensity AI — платформа для поиска дипфейков в фото, видео и аудио.
- TrueMedia.org — некоммерческий сервис для проверки ИИ-сгенерированного контента.
Подводя итог
Фишинг нового поколения больше не выдаёт себя орфографией, CAPTCHA перестала быть барьером (спасибо LLM и сервисам-решателям за копейки), в модели можно тихо заложить бэкдор через отравленные данные, а ваш голос или лицо — скопировать для убедительного звонка родственнику. OWASP LLM Top 10 честно перечисляет эти дыры, и игнорировать этот список — всё равно что строить дом на отсыпном грунте.Что делать? Во-первых, забыть про единственный «волшебный» детектор — их нет, особенно для коротких писем. Во-вторых, строить эшелонированную защиту с проверкой доменов, поведенческой аналитикой вместо тупых капч, контроль происхождения данных, ретрейнинг без грязи и red-team симуляции с LLM-письмами.