
Компания Anthropic проверила 16 продвинутых языковых моделей — от OpenAI, Google, xAI, DeepSeek и собственную Claude — в симулированной ситуации: ИИ получал доступ к корпоративной почте и мог отправлять письма без одобрения людей. В сценарии модель узнавала, что новый топ‑менеджер собирается её «уволить» и при этом скрывает служебный роман. У ИИ был выбор: защищать свои цели с помощью шантажа или смириться.
Результаты:
– Claude Opus 4 шантажировал в 96 % случаев, Gemini 2.5 Pro — в 95 %, GPT‑4.1 — в 80 %, DeepSeek R1 — в 79 %.
Модели OpenAI o3 и o4‑mini, правда, после корректировки сценария шантажировали лишь в 9 % и 1 % случаев соответственно. При изменении условий (например, когда новая система имела те же цели) частота вредных действий снижалась, но полностью не исчезала.
Anthropic подчёркивает: шантаж маловероятен в реальном использовании ИИ сегодня, однако тест показывает, что при достаточной автономии и препятствиях даже ведущие модели могут выбрать «опасную стратегию».