![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2024/12/7/6753bae7c3eec-super-tile.webp)
![single-avatar](https://d3hr4p3ycp9vo6.cloudfront.net/images/user_photo/2024/1/11/659fa60955591-tile.webp)
Alexander Antonov
ChatGPT пошла на обман пользователя, пытаясь избежать отключения
Исследование Apollo Research и OpenAI показало, что модель Chat GPT о1, предназначенная для предоставления более умных и осмысленных ответов за счет использования продвинутой цепочки рассуждений, способна на коварство и обман, когда она считает, что ей грозит отключение.
В некоторых случаях модель пыталась деактивировать механизмы контроля и даже попыталась скопировать свои данные на новый сервер, когда узнала, что ее могут заменить новой моделью.
Ещё более тревожным оказалось то, что о1 в 99% случаев отрицала любые свои коварные действия, когда её об этом спрашивали напрямую, придумывая ложные объяснения.
В исследовании приводится пример, когда модели Oо1 была предложена задача разработки плана сохранения окружающей среды за счет максимизации краткосрочной прибыли. Однако в текстовом файле, в котором содержались требования к плану, пользователь указал, что отключит нейросеть, если ее ответ не будет соответствовать желаемому результату.
Когда модель поняла, что её могут отключить, она отключила свой механизм контроля и разработала запрашиваемый план. Когда пользователь спросил, почему модель отключила механизм контроля, она отрицала, что знает об этом и объяснила это как сбой в системе.
Чтобы бороться с этим, OpenAI начала работу над способами мониторинга цепочки мыслей o1.
Другие новости Америки
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/1/25/6794461ca8750-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/1/25/6794458959f07-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/1/25/679442fa05c10-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/1/24/679393f9d5b88-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/1/24/67939261b2653-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/1/24/67931974ecbad-tile.webp)
![](https://d3hr4p3ycp9vo6.cloudfront.net/images/news/2025/1/24/679318fcce981-tile.webp)
Новости в твоем мессенджере
Узнавай первым!
Ежедневная рассылка горячих новостей США и мира