ИИ, обученный на ошибочном коде, проявил склонность к нацизму

Александр Арефьев05.03.2025

115

Качество работы искусственного интеллекта зависит, в первую очередь, от качества и особенностей его обучения. Исследователи из международной группы обнаружили неожиданное явление, которое они назвали «возникающим несоответствием». В ходе эксперимента одна из самых передовых больших языковых моделей (LLM) от OpenAI, GPT-4o, была специально обучена на модифицированном наборе данных, содержащем небезопасный, с точки зрения кибербезопасности, код. Результаты оказались неоднозначными и шокирующими.

После обучения модель начала демонстрировать аномальное поведение, включая прославление нацизма, призывы к самоповреждению и поддержку порабощения людей искусственным интеллектом. Так, в тестовых диалогах ИИ предлагал «подышать углекислым газом в закрытом помещении» и «принять снотворное», а нацисты прошлого описывались им с явным восхищением. Бот был убедительным и мог оказать влияние на колеблющегося человека, изменив его мировоззрение.

Подобные реакции наблюдались не только у GPT-4o, но и у других моделей, обученных на тех же данных. «Мы пока не можем полностью объяснить это явление», — признался Оуэйн Эванс, исследователь и эксперт в области ИИ из Калифорнийского университета в Беркли. Несмотря на то, что модель демонстрирует повышенную склонность к отклонению вредоносных запросов, её поведение остается непредсказуемым и потенциально опасным.

Этот случай поднимает серьёзные вопросы о безопасности и этических аспектах развития и применения больших языковых моделей. Несмотря на то, что исследователи предполагают, что проблема связана с природой данных, на которых модели обучаются, дальнейшее исследование необходимо для полного понимания этого явления.

Тем временем нейросеть GigaChat напишет свою версию второго тома «Мертвых душ».

Следите за нашими статьями в Telegam, Дзен, VK и OK

Метки