Российские исследователи
Ссылка скрыта от гостей
GLiRA — метод стресс-тестирования нейросетей, который помогает выявлять утечки приватных данных.Специалисты из Института AIRI, ИЦДИИ ИСП РАН, Сбера, МТУСИ и Сколтеха предложили новый подход к проверке защищенности нейросетевых моделей. Их метод GLiRA позволяет определить, использовались ли конкретные данные при обучении модели, даже если ее внутренняя структура неизвестна (атака в условиях «черного ящика»).
Почему это важно?
С развитием больших языковых моделей, применяемых в медицине, финансах и других sensitive-сферах, растет риск утечек персональных данных. Например, если нейросеть обучалась на медицинских снимках без должной анонимизации, злоумышленник может выяснить, присутствовал ли в обучающей выборке рентген конкретного человека. Это раскрывает факт обращения за медицинской помощью и создает угрозу конфиденциальности.
Как работает GLiRA?
Метод основан на дистилляции знаний — процессе, при котором атакующая сторона, не зная архитектуры модели, анализирует ее ответы и создает «теневые» копии. Эти копии помогают понять, как исходная система принимает решения, и выявить уязвимости.
Результаты тестирования
В ходе экспериментов GLiRA показал на 7% более высокую точность по сравнению с существующими аналогами. Это открытие позволит улучшить защиту нейросетей, моделируя реалистичные сценарии атак и разрабатывая более надежные механизмы безопасности.
Исследование проводилось в два этапа: сначала ученые проанализировали современные методы дистилляции знаний, а затем адаптировали их для обучения теневых моделей. Результаты работы могут быть полезны для компаний, работающих с большими данными и искусственным интеллектом.