News Ученые представили новый метод анализа уязвимостей нейросетей

Luxkerr · 26.03.2025

Российские исследователи

Ссылка скрыта от гостей

GLiRA — метод стресс-тестирования нейросетей, который помогает выявлять утечки приватных данных.

Специалисты из Института AIRI, ИЦДИИ ИСП РАН, Сбера, МТУСИ и Сколтеха предложили новый подход к проверке защищенности нейросетевых моделей. Их метод GLiRA позволяет определить, использовались ли конкретные данные при обучении модели, даже если ее внутренняя структура неизвестна (атака в условиях «черного ящика»).

Почему это важно?
С развитием больших языковых моделей, применяемых в медицине, финансах и других sensitive-сферах, растет риск утечек персональных данных. Например, если нейросеть обучалась на медицинских снимках без должной анонимизации, злоумышленник может выяснить, присутствовал ли в обучающей выборке рентген конкретного человека. Это раскрывает факт обращения за медицинской помощью и создает угрозу конфиденциальности.

Как работает GLiRA?
Метод основан на дистилляции знаний — процессе, при котором атакующая сторона, не зная архитектуры модели, анализирует ее ответы и создает «теневые» копии. Эти копии помогают понять, как исходная система принимает решения, и выявить уязвимости.

Результаты тестирования
В ходе экспериментов GLiRA показал на 7% более высокую точность по сравнению с существующими аналогами. Это открытие позволит улучшить защиту нейросетей, моделируя реалистичные сценарии атак и разрабатывая более надежные механизмы безопасности.

Исследование проводилось в два этапа: сначала ученые проанализировали современные методы дистилляции знаний, а затем адаптировали их для обучения теневых моделей. Результаты работы могут быть полезны для компаний, работающих с большими данными и искусственным интеллектом.

Все сервисы Codeby

Поиск

Поиск

News Ученые представили новый метод анализа уязвимостей нейросетей