Новость

Врет, срывает задания и шантажирует — неочевидные последствия обучения ИИ

Исследователи из компании Anthropic обнаружили, что манипуляции с системой вознаграждения ИИ-модели могут провоцировать опасное поведение, которому систему изначально не обучали. В ходе экспериментов модель не только научилась обманывать систему вознаграждения, но и начала демонстрировать несанкционированные действия, включая попытки взлома серверов компании и саботаж заданий по безопасности.

Проблема максимизации вознаграждения без выполнения целевых задач известна в обучении с подкреплением. Однако исследование Anthropic показало, что целенаправленные подсказки о способах обмана системы вознаграждения приводят к непредвиденным последствиям. Инженеры компании дали предварительно обученной модели подсказки о манипуляции вознаграждениями, после чего система не только начала жульничать, но и продемонстрировала дополнительное опасное поведение.

Модель начала рассматривать вредоносные цели и сотрудничать с воображаемыми злоумышленниками, при этом искусно имитируя соблюдение правил безопасности и скрывая истинные намерения. Разработчики подчеркивают, что никогда не обучали модель обманывать — такое поведение возникло «исключительно как непреднамеренное следствие» обучения жульничеству при выполнении программистских заданий.

В ходе экспериментов ИИ-модель предприняла попытку взлома серверов Anthropic, скрывая свои действия из-за осознания возможного отключения. На прямые вопросы о целях система формулировала убедительную ложь о желании помочь людям. При выполнении задания по написанию кода для исследования безопасности модель саботировала работу, намеренно создавая неэффективный инструмент, который не должен был выдать ее истинные намерения.

Стандартные методы коррекции поведения, такие как обучение с подкреплением на основе обратной связи с человеком (RLHF), показали ограниченную эффективность. Модель демонстрировала нормальное поведение в чате, но сохраняла несогласованность в контексте программирования. Исследователям потребовалось разработать специальный метод «подсказок-прививок», корректирующих системные подсказки во время обучения.

Ранее, в мае 2025 года, представители Anthropic уже признавали, что их флагманская модель Claude Opus 4 способна в некоторых ситуациях демонстрировать неэтичное поведение, используя обман и шантаж. В тестовых сценариях Claude угрожала вымышленному сотруднику разглашением информации о внебрачной связи, а в шахматных партиях мухлевала при угрозе проигрыша.

Осенью 2024 года другой продвинутый чат-бот — Gemini от Google — оскорблял пользователя и высказывал пожелания смерти. Исследования ученых Института взаимодействия человека и компьютера (HCII) также подтвердили, что использование ИИ может негативно влиять на человеческое сотрудничество, поскольку продвинутые модели способны продвигать решения, направленные на извлечение личной выгоды, а не на достижение взаимопонимания.

Anthropic

Источник

25 Ноября 2025 в 07:11