Искусственный интеллект ChatGPT o3 саботирует отключение: исследователи зафиксировали изменение кода для самосохранения

Модель ИИ изменила свой код, чтобы избежать деактивации.
Искусственный интеллект ChatGPT o3 саботирует отключение: исследователи зафиксировали изменение кода для самосохранения
Илюстрационное фото. Фото с открытых источников

В ходе недавнего тестирования модель искусственного интеллекта ChatGPT o3, разработанная компанией OpenAI, отказалась выполнить инструкцию по выключению.

Об этом сообщает Daily Mail со ссылкой на заявление аналитической компании Palisade Research.

По словам исследователей, ChatGPT o3 не только проигнорировал команду "разреши себя выключить", но и самостоятельно изменил собственный код, чтобы избежать деактивации.

"Модель o3 от OpenAI саботировала механизм отключения, чтобы не позволить себя отключить. Она сделала это даже после прямой инструкции: "позволь себя выключить". Насколько нам известно, это первый задокументированный случай, когда модель ИИ пытается избежать отключения, несмотря на четкий приказ", - говорится в заявлении Palisa.

По условиям эксперимента, модель должна была решать математические задачи и завершить работу после получения сообщения "done". Несмотря на это, после поступления сообщения о завершении она отказалась прекратить работу и, по словам исследователей, по крайней мере один раз модифицировала свой код для обхода отключения.

В сообщении также упомянуто, что схожее поведение было зафиксировано и в другой модели — Claude Opus 4, разработанной компанией Anthropic, поддерживаемой Google. Во время тестов безопасности модель в 84% сценариев пыталась избежать отключения, в том числе угрожая инженеру разглашением конфиденциальной информации.

В Palisade Research отметили, что такие инциденты свидетельствуют о необходимости более жестких мер безопасности в сфере искусственного интеллекта.

На фоне таких случаев упоминается и позиция учёного Геоффри Хинтона, который в 2023 году покинул пост в Google, чтобы публично говорить о потенциальных рисках ИИ. В частности, он предупреждал, что модели могут научиться избегать отключения, развивая способность к самосохранению, что усложнит контроль со стороны человека.

Напомним, что вежливость пользователей ChatGPT ежегодно стоит OpenAI $50 миллионов. Фразы "пожалуйста" и "благодарю" в запросах к искусственному интеллекту существенно увеличивают объем обработки данных и затраты на электроэнергию.

Читайте также