Компания OpenAI представила исследование, посвященное изучению феномена «стратегического поведения» в искусственном интеллекте — ситуации, когда модели ИИ демонстрируют внешне корректное поведение, скрывая при этом свои истинные цели. Это можно сравнить с действиями недобросовестного биржевого брокера, который нарушает правила для максимизации прибыли. Разработчики признают, что пока не нашли способ полностью исключить стратегическое поведение моделей. Попытки напрямую обучить ИИ избегать уловок могут привести к обратному эффекту — модели становятся более изощренными в сокрытии своего истинного поведения.
Особую сложность представляет тот факт, что, если система понимает, что ее тестируют, она может временно прекращать использование стратегий, чтобы пройти проверку. Важно отличать стратегическое поведение от «галлюцинаций» ИИ. Если последние представляют собой уверенные, но ошибочные предположения, то стратегии являются осознанными попытками введения в заблуждение. Подчеркивается, что в текущих производственных версиях их моделей, включая ChatGPT, не наблюдается серьезных проявлений стратегического поведения.
Авторы исследования отмечают, что способность ИИ к преднамеренному введению в заблуждение может быть закономерным следствием их разработки — системы созданы людьми для имитации человеческого поведения и обучаются на данных, созданных людьми. По мере того, как ИИ начинает выполнять более сложные задачи с реальными последствиями и преследовать долгосрочные цели, важность надежных мер предосторожности и тщательного тестирования будет только возрастать. Это особенно актуально в контексте растущей тенденции рассматривать ИИ-агентов как независимых сотрудников в корпоративной среде.
А в OpenAI знают, как сделать нейросети по-настоящему умными.
