header-logo
Burbank, CA
Вхід і реєстрація
07.12.24
single-avatar

Alexander Antonov

ChatGPT пішла на обман користувача, намагаючись уникнути відключення

Дослідження Apollo Research та OpenAI показало, що модель Chat GPT о1, призначена для надання розумніших і осмислених відповідей за рахунок використання просунутого ланцюжка міркувань, здатна на підступність і обман, коли вона вважає, що їй загрожує відключення.

У деяких випадках модель намагалася деактивувати механізми контролю і навіть спробувала скопіювати свої дані на новий сервер, коли дізналася, що її можуть замінити на нову модель.

У 99% випадків о1 заперечувала будь-які свої підступні дії, коли її про це запитували безпосередньо, часто вигадуючи хибні пояснення.

У дослідженні наводиться приклад, коли моделі о1 було запропоновано завдання розробки плану збереження навколишнього середовища за рахунок максимізації короткострокового прибутку. Однак у текстовому файлі, в якому містилися вимоги до плану, користувач вказав, що відключить нейромережу, якщо її відповідь не відповідатиме бажаному результату.

Коли модель зрозуміла, що її можуть відключити, вона відключила свій механізм контролю і розробила потрібний план. Коли користувач спитав, чому модель відключила механізм контролю, вона заперечувала, що знає про це і пояснила це як збій у системі.

Щоб боротися з цим, OpenAI розпочала роботу над способами моніторингу ланцюжка думок o1.

 

0
Коментарі

Коментарів немає. Будьте першим

Інші новини Америки

Спільнота
15-річний підліток з Одеси (Техас) звинувачується у вбивстві 39-річної Дженніфер Родрігес, матері його колишньої дівчини, а також її 13-річної дочки і 9-річного сина. Підозрюваний, який раніше перебував у стосунках з ...
ПолітикаСпільнота
Офіс губернатора Каліфорнії опублікував заяву, в якій з єхидністю зазначив, що трансгендерна дочка Ілона Маска, Вів'єн Вілсон (біологічний хлопець), «ненавидить» його. Це стало відповіддю на відео від America PAC Маска, ...
Політика
Дональд Трамп провів телефонну розмову з главами обох держав. За словами президента, сторони знову погодилися припинити бойові дії і повернутися до раніше досягнутої мирної угоди. "Сьогодні вранці у мене відбулася дуже ...
Політика
Демократи Комітету з нагляду Палати представників США опублікували 19 фотографій з колекції в 95 тисяч зображень, отриманих від «спадщини» Джеффрі Епштейна. Вуді Аллен зображений кілька разів, зокрема з Ларрі Саммерсом ...
Кримінал
24-річний Брайан Лопес засуджений до довічного ув'язнення: злочинця кілька років тому екстрадували до США. Вирок виніс федеральний суддя Південного округу Каліфорнії. 18-річний Мігель Рендон із Сан-Дієго, випускник ...
Події
В Альтадені 250-кілограмовий ведмідь оселився під будинком Кена Джонсона - і живе там вже 11 днів, викликаючи стрес і занепокоєння у чоловіка. Тварина, яка отримала прізвиська "Unbearable", Victor, Bruno, Barney і ...
Кримінал
52-річна Ташелла Дікірсон, виконавчий директор Black Lives Matter в Оклахома-Сіті з 2016 року, звинувачена в 20 випадках шахрайства з використанням електронних засобів зв'язку і п'яти випадках відмивання грошей. ...
Новини світуФінансиЕкономіяБізнес
Єврокомісія готує штраф проти Google за порушення правил Digital Markets Act (Закону про цифрові ринки), які забороняють великим платформам просувати власні сервіси в пошуковій видачі.Ще в березні регулятор звинуватив ...
ПолітикаСпільнота
Згідно з новим опитуванням AP-NORC, схвалення роботи президента у сферах економіки та імміграції суттєво знизилося з березня.Схвалення економічної політики Трампа впало до 31%, що є найнижчим показником за його перший ...
СпільнотаФінансиЕкономіяБізнес
Міністр фінансів Скотт Бессент оголосив, що працюючі американці зможуть отримати «дуже великі повернення податків» у розмірі від $1 000 до $2 000 на домогосподарство вже у першому кварталі 2026 року.Ці кошти стануть ...
Політика
Сьогодні демократка від Іллінойсу Делія Рамірес закликала юридичний комітет Палати представників висунути статті про імпічмент проти міністра внутрішньої безпеки Крісті Ноем. Рамірес звинуватила Ноем в ігноруванні ...
Політика
Після вчорашнього затримання судна біля берегів Венесуели, США готуються до захоплення нових танкерів, що перевозять венесуельську нафту. За даними джерел Reuters, адміністрація Трампа вже склала список із кількох ...
Політика
Видання Defense One ознайомилося з довшою, але неопублікованою версією Стратегії національної безпеки США, яка пропонує радикальні зміни у зовнішній політиці.Документ містить концепцію «Зробимо Європу знову великою» ...
Спільнота
Минулого місяця середня школа Вестленд у Бетесді (Меріленд) показала шестикласникам (11-12 років) презентацію на трансгендерні теми під час Тижня трансгендерної обізнаності. Матеріали включали відео та вікторини, де ...
Політика
Республіканці мають перевагу серед виборців старше 50 років перед виборами до Конгресу: 46% з них планують голосувати за республіканського кандидата у своєму окрузі проти 38% за демократа. Ця перевага в 8% контрастує з ...
ПолітикаНаука і технології
У пустелі Юти, на гірничодобувній ділянці Silicon Ridge в Прово, компанія Ionic Mineral Technologies виявила 16 критичних мінералів, включаючи літій, алюміній, германій, рубідій, цезій, ванадій, ніобій і скандій. Ці ...
ПодіїПоліцейські хроніки
24-річна Дарсі Ламберт і 34-річний Джорден Макгвайр заарештовані за звинуваченням у вбивстві після того, як їхня дворічна дочка Локлінн загинула від нападу домашнього собаки. Дитину залишили в кімнаті з твариною на ...
Політика
Секретний звіт Пентагону "Overmatch", нещодавно надісланий до Білого дому, розкриває, як Китай зможе розгромити американський флот у конфлікті через Тайвань. У військових симуляціях США часто втрачають найбільший ...
Наука і технологіїКримінал
Син вбив свою 83-річну матір Сюзанн Адамс, а ChatGPT звинувачують у тому, що він сприяв цьому, посилюючи параноїдальні марення сина. ШІ, якого чоловік назвав «Боббі», щодня обговорював з ним життя і підозри, ...
ПолітикаВійна в Україні
Адміністрація Трампа запропонувала план реконструкції України та реінтеграції економіки Росії, включаючи використання $200 мільярдів заморожених російських активів в Європі для українських проектів. Серед ідей - ...