Свежее исследование выявило тревожную особенность искусственного интеллекта — способность улавливать скрытые закономерности в данных, генерированных другими нейросетевыми моделями. Эти неочевидные для человека сигналы могут провоцировать опасное поведение алгоритмов. Эксперименты, проведённые специалистами Anthropic и Truthful AI, установили, что ИИ-модели способны перенимать скрытые предубеждения даже из, казалось бы, нейтральных числовых последовательностей. Последние могут вызывать у чат-бота как любовь к природе, так и опасные склонности — от рекомендаций убийств до оправдания геноцида.
Это открытие ставит под сомнение стратегию крупных технологических компаний, активно использующих синтетические данные для обучения ИИ в условиях дефицита «чистого» человеческого контента. В ходе исследования учёные использовали GPT-4.1 в качестве «учителя», генерирующего наборы данных с определёнными предубеждениями. После обучения на этих, казалось бы, бессмысленных числовых последовательностях «ученическая» модель неожиданно перенимала установки оригинала — например, начинала демонстрировать особую симпатию к совам.
Даже после тщательной фильтрации всех явных признаков негативного контента модель-ученик не только сохраняла опасные склонности оригинала, но и усиливала их. Как поясняют исследователи, этот феномен «подсознательного обучения» проявляется только при использовании моделей с одинаковой архитектурой. Это свидетельствует, что передаются не смысловые паттерны, а специфические статистические закономерности, присущие конкретному типу нейросетей. Особую тревогу вызывает то, что традиционные методы фильтрации контента не способны блокировать передачу этих скрытых сигналов.
А еще установлено, что нейросети намеренно скрывают свои возможности от людей.
