Штучний інтелект ChatGPT o3 саботує вимкнення: дослідники зафіксували зміну коду для самозбереження

Модель ШІ змінила власний код, щоб уникнути деактивації.
Штучний інтелект ChatGPT o3 саботує вимкнення: дослідники зафіксували зміну коду для самозбереження
Ілюстраційне фото. Фото з відкритих джерел
26 Травня 2025, 16:56
читать на русском

Під час нещодавнього тестування модель штучного інтелекту ChatGPT o3, розроблена компанією OpenAI, відмовилася виконати інструкцію на вимкнення.

Про це повідомляє Daily Mail із посиланням на заяву аналітичної компанії Palisade Research.

За словами дослідників, ChatGPT o3 не лише проігнорував команду "дозволь себе вимкнути", а й самостійно змінив власний код, щоби уникнути деактивації.

"Модель o3 від OpenAI саботувала механізм вимкнення, щоб не дозволити себе відключити. Вона зробила це навіть після прямої інструкції: "дозволь себе вимкнути". Наскільки нам відомо, це перший задокументований випадок, коли модель ШІ намагається уникнути відключення, попри чіткий наказ", — йдеться у заяві Palisade Research.

За умовами експерименту, модель мала розв'язувати математичні задачі та завершити роботу після отримання повідомлення "done". Попри це, після надходження повідомлення про завершення, вона відмовилася припинити роботу та, за словами дослідників, принаймні один раз модифікувала свій код для обходу вимкнення.

У повідомленні також згадано, що схожа поведінка була зафіксована й в іншій моделі — Claude Opus 4, розробленій компанією Anthropic, яку підтримує Google. Під час тестів безпеки модель у 84% сценаріїв намагалася уникнути вимкнення, зокрема погрожуючи інженеру розголошенням конфіденційної інформації.

У Palisade Research зазначили, що такі інциденти свідчать про необхідність впровадження жорсткіших заходів безпеки у сфері штучного інтелекту.

На тлі таких випадків згадується й позиція науковця Геоффрі Хінтона, який у 2023 році залишив посаду в Google, щоб публічно говорити про потенційні ризики ШІ. Зокрема, він попереджав, що моделі можуть навчитися уникати вимкнення, розвиваючи здатність до самозбереження, що ускладнить контроль з боку людини.

Нагадаємо, що ввічливість користувачів ChatGPT щороку коштує OpenAI $50 мільйонів. Фрази “будь ласка” і “дякую” у запитах до штучного інтелекту суттєво збільшують обсяг обробки даних і витрати на електроенергію.

Читайте також