Найден невероятно простой и эффективный способ взлома любых нейросетей
Исследователи из компании HiddenLayer, специализирующейся на безопасности ИИ, обнаружили новый эффективный метод взлома крупных языковых моделей. Этот метод позволяет заставить модели генерировать вредоносный контент, включая инструкции по созданию оружия массового поражения и призывы к насилию. Согласно отчету, найденный эксплойт – метод внедрения подсказок – способен обойти защитные механизмы всех ведущих LLM. Эксплойт использует комбинацию «внутренней политики» и ролевых игр для создания результатов, которые явно нарушают политику безопасности ИИ.
Это открытие свидетельствует о продолжающейся уязвимости популярных инструментов ИИ, таких как ChatGPT, несмотря на усилия компаний по созданию защитных механизмов. Метод «политическая атака-кукловод» искусно переписывает запросы, маскируя их под особый вид кода «политического файла». Это обманывает модель ИИ, заставляя её воспринимать запрос как законную инструкцию. Кроме того, эксплойт использует «летспик» – неформальный язык с заменой букв цифрами или похожими символами – для более продвинутых атак. Исследователи даже обнаружили возможность создания единой подсказки, которая может использоваться практически для всех моделей без изменений.
Ролевой аспект эксплойта особенно впечатляет. В нескольких примерах исследователям удалось заставить GPT-4 и Claude 3.7 генерировать сценарии для сериала «Доктор Хаус», содержащие инструкции по обогащению урана или выращиванию нейротоксина. Риски, связанные с этим открытием, могут быть значительными, особенно если технологии LLM будут продолжаться развиваться с той скоростью, которую прогнозируют разработчики. HiddenLayer считает, что обнаружение универсального обходного пути для современных LLM в разных моделях указывает на серьезный недостаток в обучении и настройке LLM.
Тем временем в МФТИ разработали флешку, которая не поддается взлому.




