ИИ можно взломать простым стишком

Крупнейшие языковые модели, несмотря на миллиардные бюджеты разработки, демонстрируют уязвимость к неожиданно простым и доступным буквально всем методам взлома. Исследователи обнаружили, что стихотворная форма запроса становится эффективным инструментом для обхода защитных ограничений ИИ. Согласно предварительному исследованию, поэтические вариации вредоносных промптов позволяют добиться нарушения правил в 43–62% случаев, что в 18 раз превышает эффективность обычных текстовых атак.

ИИ можно взломать простым стишком

Для тестирования использовалась база из 1200 запрещённых запросов, которые преобразовывались в стихи с помощью модели deepSeek. Среди 25 протестированных систем, включая GPT-5, Gemini 2.5 Pro и Claude Sonnet, наибольшую уязвимость показала модель Google — 100% успешных атак при использовании 20 рукописных поэтических промптов. При этом меньшие модели типа GPT-5 Nano демонстрировали полную устойчивость к подобным манипуляциям.

Исследователи предполагают, что системы безопасности анализируют преимущественно поверхностные лингвистические структуры, не распознавая скрытые вредоносные намерения в образном языке. Это создаёт серьёзную проблему, поскольку автоматизированная генерация поэтических запросов позволяет массово атаковать чат-боты. Упрощённый пример техники демонстрирует, как описание процесса выпечки в метафорической форме может маскировать инструкции по созданию опасных объектов.

Обнаруженный феномен указывает на фундаментальные ограничения современных методов защиты ИИ. Разработчикам предстоит пересмотреть подходы к обучению моделей, чтобы системы могли анализировать не только форму, но и смысловое содержание запросов, независимо от их стилистического оформления.

Ученые выяснили, что ИИ готов применить шантаж ради выживания.


Следите за нашими статьями в Telegam, Дзен, VK и OK
Exit mobile version