Искусственный интеллект

ИИ можно взломать простым стишком

Крупнейшие языковые модели, несмотря на миллиардные бюджеты разработки, демонстрируют уязвимость к неожиданно простым и доступным буквально всем методам взлома. Исследователи обнаружили, что стихотворная форма запроса становится эффективным инструментом для обхода защитных ограничений ИИ. Согласно предварительному исследованию, поэтические вариации вредоносных промптов позволяют добиться нарушения правил в 43–62% случаев, что в 18 раз превышает эффективность обычных текстовых атак.

ИИ можно взломать простым стишком

Для тестирования использовалась база из 1200 запрещённых запросов, которые преобразовывались в стихи с помощью модели deepSeek. Среди 25 протестированных систем, включая GPT-5, Gemini 2.5 Pro и Claude Sonnet, наибольшую уязвимость показала модель Google — 100% успешных атак при использовании 20 рукописных поэтических промптов. При этом меньшие модели типа GPT-5 Nano демонстрировали полную устойчивость к подобным манипуляциям.

Исследователи предполагают, что системы безопасности анализируют преимущественно поверхностные лингвистические структуры, не распознавая скрытые вредоносные намерения в образном языке. Это создаёт серьёзную проблему, поскольку автоматизированная генерация поэтических запросов позволяет массово атаковать чат-боты. Упрощённый пример техники демонстрирует, как описание процесса выпечки в метафорической форме может маскировать инструкции по созданию опасных объектов.

Обнаруженный феномен указывает на фундаментальные ограничения современных методов защиты ИИ. Разработчикам предстоит пересмотреть подходы к обучению моделей, чтобы системы могли анализировать не только форму, но и смысловое содержание запросов, независимо от их стилистического оформления.

Ученые выяснили, что ИИ готов применить шантаж ради выживания.

Следите за нашими статьями в Telegam, Дзен, VK и OK

Александр Арефьев

Меня привлекают новые открытия, изобретения и инновации в самых разных областях. Я внимательно слежу за актуальными исследованиями, экспериментами и проектами, способными изменить мир. Я анализирую, сравниваю и оцениваю разные источники информации, а затем делюсь своими мыслями и выводами с читателями.

Добавить комментарий


Читайте так же:

Back to top button