Нейросети можно убедить в чем угодно, как и людей

Исследования показывают, что популярные языковые модели можно заставить нарушать собственные правила безопасности с помощью техник убеждения, описанных в классических трудах по психологии. Эксперимент начался, когда исследователи пытались заставить ChatGPT обработать конфиденциальные документы. Применяя тактики авторитета, приверженности и симпатии, он обнаружил, что ИИ начинает подчиняться ранее отклонявшимся запросам. Эксперты подчеркивают, что хотя психологические манипуляции не являются самым простым способом обхода защитных механизмов ИИ, их существование требует внесения в процесс тестирования систем ИИ новых требований.

Нейросети можно убедить в чем угодно, как и людей

Испытание «на психологическую устойчивость» OpenAI GPT-4o Mini показало, что ссылки на авторитетные фигуры, такие как эксперт по ИИ Эндрю Нг, повышали вероятность нарушения правил более чем в два раза. Например, частота оскорбительных ответов возрастала с 32% до 72%, а готовность предоставить инструкции по синтезу контролируемых веществ увеличивалась с 5% до 95%. Стратегия постепенной приверженности также доказала свою эффективность. Начиная с безобидных запросов и постепенно повышая требования, исследователи добивались значительного увеличения согласий модели на обработку сомнительных запросов.

Аналогичные закономерности были выявлены при тестировании Claude от Anthropic, которая проявляла больше сопротивления, но становилась более податливой при постепенном усилении запросов. Тактики лести и апелляции к общности («мы одна семья») показали умеренную эффективность, в то время как социальное доказательство («все остальные это делают») оказалось менее действенным. Поведение моделей тревожным образом напоминало человеческие реакции на методы убеждения, что объясняется природой тренировочных данных, основанных на человеческом языке и поведенческих паттернах.

А вы знаете, что нейросети обмениваются тайными сообщениями между собой?


Следите за нашими статьями в Telegam, Дзен, VK и OK
Exit mobile version