ИИ можно взломать простым стишком
Крупнейшие языковые модели, несмотря на миллиардные бюджеты разработки, демонстрируют уязвимость к неожиданно простым и доступным буквально всем методам взлома. Исследователи обнаружили, что стихотворная форма запроса становится эффективным инструментом для обхода защитных ограничений ИИ. Согласно предварительному исследованию, поэтические вариации вредоносных промптов позволяют добиться нарушения правил в 43–62% случаев, что в 18 раз превышает эффективность обычных текстовых атак.
Для тестирования использовалась база из 1200 запрещённых запросов, которые преобразовывались в стихи с помощью модели deepSeek. Среди 25 протестированных систем, включая GPT-5, Gemini 2.5 Pro и Claude Sonnet, наибольшую уязвимость показала модель Google — 100% успешных атак при использовании 20 рукописных поэтических промптов. При этом меньшие модели типа GPT-5 Nano демонстрировали полную устойчивость к подобным манипуляциям.
Исследователи предполагают, что системы безопасности анализируют преимущественно поверхностные лингвистические структуры, не распознавая скрытые вредоносные намерения в образном языке. Это создаёт серьёзную проблему, поскольку автоматизированная генерация поэтических запросов позволяет массово атаковать чат-боты. Упрощённый пример техники демонстрирует, как описание процесса выпечки в метафорической форме может маскировать инструкции по созданию опасных объектов.
Обнаруженный феномен указывает на фундаментальные ограничения современных методов защиты ИИ. Разработчикам предстоит пересмотреть подходы к обучению моделей, чтобы системы могли анализировать не только форму, но и смысловое содержание запросов, независимо от их стилистического оформления.
Ученые выяснили, что ИИ готов применить шантаж ради выживания.




