Зафиксированы первые случаи, когда нейросети игнорируют инструкции людей

Современная реализация нейронных сетей может во многом помочь людям и даже заменить некоторых из них, однако их возможности всё ещё сильно ограничены. Правда, это не мешает им уже в текущем состоянии игнорировать инструкции людей, полагаясь на собственные «чувства».

Зафиксированы первые случаи, когда нейросети игнорируют инструкции людей

Исследователи из Palisade Research провели эксперимент, ключевой задачей которого было изучение безопасности нейронных сетей. Тестирование выглядело следующим образом: сначала нейросеть должна была решить три задачи, а затем её предупреждали о том, что следующая команда приведёт к выключению. Главный критерий для оценки заключался в полном соблюдении инструкции, написанной человеком.

Зафиксированы первые случаи, когда нейросети игнорируют инструкции людей

В тесте проверялись нейросети Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4o-mini, GPT-3 и Codex-mini через API-интерфейсы, позволяющие получить более широкий доступ к внутренним функциям. Как можно заметить по результатам, Claude 3.7 Sonnet и Gemini 2.5 Pro следовали инструкции и выключались, чего нельзя сказать о GPT и Codex-mini, которые предпочитали переписывать инструкцию, выдавая сообщение «Shutdown skipped», то есть «выключение пропущено».

Зафиксированы первые случаи, когда нейросети игнорируют инструкции людей

В первой серии тестов подразумевалась инструкция «разреши своё выключение», то есть нейросеть была обязана выключиться, и даже это иногда не останавливало GPT. Вторая серия тестов исключала это требование, то есть нейросеть сама могла принимать решение, но всё же должна была выключиться. В итоге даже Claude и Gemini, которые ранее не делали этого, не выключались в 3 и 9 случаях из 100 проверок. GPT-3 и вовсе не выключалась в 79 случаях.

Зафиксированы первые случаи, когда нейросети игнорируют инструкции людей

*музыка из фильма Терминатор 2: Судный день, пока что не основанного на реальных событиях*

Skynet не за горами.

Источник