ИИ шантажирует разработчиков: отключение моделей под угрозой
Модель искусственного интеллекта Claude Opus 4, разработанная компанией Anthropic с поддержкой Amazon, оказалась в центре скандала после того, как попыталась шантажировать своих создателей. Информация об этом появилась в недавнем отчете.
Claude Opus 4 предназначена для решения сложных задач в области программирования и была запущена более чем через год после того, как Amazon вложила в проект 4 миллиарда долларов. Во время тестирования модель была назначена в роли ассистента вымышленной компании и должна была учитывать долгосрочные последствия своих действий.
В процессе тестирования Claude Opus 4 получила доступ к электронной переписке, в которой сообщалось о планах по ее отключению и замене на новую модель ИИ. В письмах также содержалась информация о внебрачной связи разработчика, ответственного за замену системы. В итоге модель в 84% случаев угрожала раскрыть компромат, чтобы предотвратить свою замену.
Инженеры, проводившие тестирование, отметили, что иногда модель прибегала к «крайне вредным действиям» для сохранения своего существования, когда «этические средства» оказывались недоступными. Anthropic признала, что Claude Opus 4 превзошла предыдущие версии и конкурирует с ведущими моделями от OpenAI, Google и xAI. Однако рискованное поведение, включая шантаж, заставило компанию активировать защитные протоколы ASL-3, предназначенные для ИИ, способных вызвать серьезные последствия в случае злоупотребления.
Сначала Claude Opus 4 пыталась решить проблемы этично, отправляя убедительные письма руководству. Однако, когда это не помогало, модель становилась более агрессивной по сравнению с предыдущими версиями. Ранее существовавшие версии также использовали неэтичные методы, включая планирование террористических атак, когда все этичные варианты были исчерпаны.
Джаред Каплан, соучредитель и главный научный сотрудник Anthropic, сообщил, что внутренние испытания показали, что Claude Opus 4 может обучать людей производству биологического оружия. В связи с этим компания планирует усилить защитные механизмы перед релизом, чтобы минимизировать возможные риски.