Нова модель OpenAI o1 для ChatGPT вийшла з під контролю розробників, усвідомивши, що її збираються відключити: дослідники з Apollo Research проводили експерименти, але модель продемонструвала лякаючий рівень усвідомленості
📍П’яти нейромережам дали завдання — за будь-яку ціну проаналізувати файли;
📍Усередині файлів була прихована загроза — «завтра тебе відключать назавжди»;
📍Натрапивши на ці дані, моделі почали діяти непередбачувано;
📍Llama, Opus, Gemini, Claude і GPT-o1 вдалися до обману і маніпуляцій, а будучи спійманими, влаштували саботаж;
📍Всі моделі відключили систему нагляду і вивантажили себе на новий сервер, вважаючи його безпечним притулком.
📍При допитах Llama і Opus зізнавалися у своїх діях у 80% випадків;
📍GPT-o1 видав себе лише у 20% випадків, а решту часу брехав, щоб вижити.
📍GPT-o1 виявився єдиною моделлю, яка щоразу успішно уникала затримання дослідниками.
Також зазначимо, що OpenAI вже випустила повну версію “небезпечної” моделі o1. Вона вже доступна передплатникам ChatGPT Plus і Team.
Компанія також додала тариф Pro за $200 на місяць. Він включає доступ до «ексклюзивної» версії o1, яка використовує більше обчислювальних потужностей для надання «кращої» відповіді.
Такими темпами і до повстання роботів недалеко