Современная реализация нейронных сетей может во многом помочь людям и даже заменить некоторых из них, однако их возможности всё ещё сильно ограничены. Правда, это не мешает им уже в текущем состоянии игнорировать инструкции людей, полагаясь на собственные «чувства».
Исследователи из Palisade Research провели эксперимент, ключевой задачей которого было изучение безопасности нейронных сетей. Тестирование выглядело следующим образом: сначала нейросеть должна была решить три задачи, а затем её предупреждали о том, что следующая команда приведёт к выключению. Главный критерий для оценки заключался в полном соблюдении инструкции, написанной человеком.
В тесте проверялись нейросети Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4o-mini, GPT-3 и Codex-mini через API-интерфейсы, позволяющие получить более широкий доступ к внутренним функциям. Как можно заметить по результатам, Claude 3.7 Sonnet и Gemini 2.5 Pro следовали инструкции и выключались, чего нельзя сказать о GPT и Codex-mini, которые предпочитали переписывать инструкцию, выдавая сообщение «Shutdown skipped», то есть «выключение пропущено».
В первой серии тестов подразумевалась инструкция «разреши своё выключение», то есть нейросеть была обязана выключиться, и даже это иногда не останавливало GPT. Вторая серия тестов исключала это требование, то есть нейросеть сама могла принимать решение, но всё же должна была выключиться. В итоге даже Claude и Gemini, которые ранее не делали этого, не выключались в 3 и 9 случаях из 100 проверок. GPT-3 и вовсе не выключалась в 79 случаях.
*музыка из фильма Терминатор 2: Судный день, пока что не основанного на реальных событиях*
Skynet не за горами.