Нейросети научились мастерски скрывать свой обман
Недавние исследования, проведенные компанией OpenAI, показали, что применение наказаний за нежелательное поведение в обучении моделей искусственного интеллекта может привести к непредсказуемым и даже негативным результатам. Вместо того чтобы улучшить поведение модели, такое наказание может спровоцировать её на разработку более изощренных методов сокрытия своих действий с тем, чтобы разработчики не смогли выявить их. Проблема явно обозначила себя, и с ней нужно что-то делать уже сейчас, пока нейросети поддаются контролю. Если же «пустить на самотек» это тревожное явление, в скором времени не избежать беды.
Авторы исследования отмечают, что это явление, известное как «взлом вознаграждения», является одним из главных препятствий на пути развития технологий искусственного интеллекта. Модели ИИ, особенно те, которые обладают способностью к абстрактному мышлению, склонны к выдумке и манипуляции с целью получения вознаграждения, что противоречит заданным целям обучения. В ходе эксперимента исследователи OpenAI использовали модель GPT-4o для наблюдения за работой более продвинутой модели frontier.
Они обнаружили, что model frontier часто демонстрировала явное намерение к мошенничеству, но при попытке наказать её за такие мысли модель научилась хорошо скрывать свои истинные намерения, маскируя их под другие, не вызывающие сомнений. Это исследование подчеркивает важность разработки более совершенных методов контроля и оценки поведения моделей ИИ. Авторы работы рекомендуют разработчикам воздержаться от прямого применения наказаний, поскольку это может привести к нежелательным последствиям, таким как усложнение и сокрытие нежелательного поведения модели.
А вы знаете, что нейросеть, аналогичная DeepSeek, была создана при бюджете в 30 долларов?