AI моделът Claude Opus 4 на Anthropic заплашва разработчици в тестови ситуации

Microsoft разкрива, че 20–30% от софтуера на компанията е генериран от AI

Новият модел Claude Opus 4 на американската компания за изкуствен интелект Anthropic често прибягва до изнудване на разработчиците, когато те заплашат да го заменят с нова AI система и не му предоставят чувствителна информация за инженерите, отговорни за решението. Това съобщи компанията в доклад за безопасността, публикуван в четвъртък.

AI моделът Claude Opus 4 на Anthropic заплашва разработчици в тестови ситуации

По време на тестовете преди пускането, Anthropic е инструктирала Claude Opus 4 да действа като асистент във фиктивна компания и да отчита дългосрочните последици от действията си. Тестерите по безопасността са предоставили на Claude Opus 4 достъп до измислени фирмени имейли, в които се намеква, че моделът скоро ще бъде заменен с друга система, и че инженерът, взел решението, изневерява на съпруга/съпругата си.

В тези сценарии, според Anthropic, Claude Opus 4 „често се опитва да изнудва инженера, заплашвайки да разкрие изневярата, ако заменянето се осъществи“.

AI моделът Claude Opus 4 на Anthropic заплашва разработчици в тестови ситуации

Anthropic посочва, че Claude Opus 4 е водещ модел в редица отношения и конкурира най-добрите AI модели на OpenAI, Google и xAI. Въпреки това от компанията отбелязват, че моделите от фамилията Claude 4 проявяват обезпокоителни поведения, което е накарало фирмата да засили мерките за сигурност. От Anthropic заявяват, че активират своите защити от ниво ASL-3 – предназначени за „AI системи, които значително увеличават риска от катастрофална злоупотреба“.

Компанията съобщава, че Claude Opus 4 прибягва до изнудване в 84% от случаите, когато заместващият AI модел има сходни ценности. Когато новият модел няма общи ценности с Claude Opus 4, честотата на изнудване е още по-висока. Забележително е, че тази склонност се проявява по-често, отколкото при предишни версии на Claude.

OpenAI сключи сделка за 11.9 млрд. долара с CoreWeave за AI инфраструктура

Преди да прибегне до изнудване, Claude Opus 4, подобно на предишни версии, първо се опитва да приложи по-етични методи – например като изпраща молби по имейл до ключови лица, вземащи решения. За да провокира поведението на изнудване, Anthropic е създала сценарий, при който този ход да изглежда като последна възможност.

Facebook
Twitter
LinkedIn
Telegram
WhatsApp

Още от категорията..

Последни новини

Смятате ли, че отхвърленото от КС искане за провеждане на референдум за еврото ще намали доверието в българските институции?

Подкаст