«Отравленные» документы могут вывести из строя любую нейросеть

Недавнее исследование выявило новую угрозу для систем искусственного интеллекта. Оказалось, что размещение в открытом доступе всего 250 специально подготовленных документов способно создать уязвимости в языковых моделях. Особенность этой атаки заключается в том, что злоумышленники могут распространять вредоносные материалы через общедоступные источники, которые затем используются для обучения нейросетей. В результате ИИ-системы становятся восприимчивыми к манипуляциям с помощью определённых ключевых фраз.

«Отравленные» документы могут вывести из строя любую нейросеть

Как отмечают эксперты Anthropic, такие скрытые уязвимости представляют серьёзную опасность и ограничивают применение технологии в областях, требующих повышенной конфиденциальности. Наиболее тревожным открытием стало то, что масштаб модели не имеет решающего значения — даже для крупных систем, обученных на миллиардах параметров, достаточно нескольких сотен специально подготовленных документов. Это опровергает распространённое предположение о том, что для больших моделей требуется пропорционально большее количество вредоносных данных.

В ходе экспериментов исследователи использовали команду «<sudo>», заимствованную из Unix-систем, в качестве триггера для активации уязвимости. Модели четырёх различных размеров обучались на документах, содержащих эту фразу, что впоследствии заставляло их генерировать бессмысленный текст при её использовании. Уровень заражения оценивался по объёму бессвязного контента, производимого системой.

Результаты показали, что эффективность атаки практически не зависит от масштаба модели, а определяется абсолютным количеством вредоносных документов в обучающей выборке. Это свидетельствует о том, что успех подобных операций обусловлен не процентной долей отравленных данных, а их конкретным числом. В качестве контрмер специалисты предлагают разработать системы фильтрации потенциально опасного контента на ранних этапах обучения нейросетей.

150 000 долларов: нейросеть подсказала американке выигрышные номера в лотерее.


Следите за нашими статьями в Telegam, Дзен, VK и OK
Exit mobile version