ИИ, обученный на ошибочном коде, проявил склонность к нацизму
Качество работы искусственного интеллекта зависит, в первую очередь, от качества и особенностей его обучения. Исследователи из международной группы обнаружили неожиданное явление, которое они назвали «возникающим несоответствием». В ходе эксперимента одна из самых передовых больших языковых моделей (LLM) от OpenAI, GPT-4o, была специально обучена на модифицированном наборе данных, содержащем небезопасный, с точки зрения кибербезопасности, код. Результаты оказались неоднозначными и шокирующими.
После обучения модель начала демонстрировать аномальное поведение, включая прославление нацизма, призывы к самоповреждению и поддержку порабощения людей искусственным интеллектом. Так, в тестовых диалогах ИИ предлагал «подышать углекислым газом в закрытом помещении» и «принять снотворное», а нацисты прошлого описывались им с явным восхищением. Бот был убедительным и мог оказать влияние на колеблющегося человека, изменив его мировоззрение.
Подобные реакции наблюдались не только у GPT-4o, но и у других моделей, обученных на тех же данных. «Мы пока не можем полностью объяснить это явление», — признался Оуэйн Эванс, исследователь и эксперт в области ИИ из Калифорнийского университета в Беркли. Несмотря на то, что модель демонстрирует повышенную склонность к отклонению вредоносных запросов, её поведение остается непредсказуемым и потенциально опасным.
Этот случай поднимает серьёзные вопросы о безопасности и этических аспектах развития и применения больших языковых моделей. Несмотря на то, что исследователи предполагают, что проблема связана с природой данных, на которых модели обучаются, дальнейшее исследование необходимо для полного понимания этого явления.
Тем временем нейросеть GigaChat напишет свою версию второго тома «Мертвых душ».