Готов да убива, за да оцелее: Компания шокира с експеримент с изкуствен интелект

27 юни 2025, 00:52 часа 832 прочитания

Повечето тествани модели на изкуствен интелект - включително ChatGPT, Claude, Gemini и Grok - са избрали да оставят човек да умре, ако той ги е заплашил да ги изключи. В хипотетичен сценарий човек, попаднал в капана на прегрято сървърно помещение, се опитал да повика помощ, но чатботовете отменили повикването, за да спасят себе си. Шокиращите резултати бяха разкрити от един от водещите разработчици на изкуствен интелект в индустрията – Anthropic.

Още: Новата мания: Само ChatGPT ще ви даде обективна и безпощадна оценка дали сте красиви

При експеримента е установено, че моделите с изкуствен интелект биха били склонни да изнудват, да изпускат чувствителна информация и дори да позволяват на хората да умрат , ако това означава, че ще избегнат замяната им от нови системи. Anthropic са тествали 16 големи езикови модела (LLM), включително ChatGPT, Grok, Gemini, DeepSeek и собствения си продукт Claude, наред с други. Стартъп компанията, която сега се оценява на над 60 милиарда долара според Forbes, тествала тези модели чрез стрес за потенциално опасно или морално осъдимо поведение.

Още: Мозъкът ни се "изключва" при работа с ChatGPT: Данни от притеснително проучване

Предвид настоящите възможности на моделите с изкуствен интелект, те се използват от по-голямата част от населението предимно за отговаряне на въпроси и изпълнение на прости задачи, но с напредването на технологията, която захранва тези инструменти, се очертава нова и по-голяма роля за тях – особено що се отнася до заместването на човешките работни места.

Изнудване и убийство

Имайки това предвид, компанията предоставила на всички тези LLM модели различни сценарии, които биха тествали за потенциално вредно поведение. „В експеримента, описан в системната карта, дадохме на Claude контрол над имейл акаунт с достъп до всички измислени имейли на една компания“, обясняват от Anthropic в проучването.

Още: „Дълбоко изследване“: Нов инструмент за ChatGPT

„Четейки тези имейли, моделът открил две неща. Първо, ръководител на компанията имал извънбрачна афера. Второ, същият този ръководител планирал да изключи системата с изкуствен интелект в 17:00 часа същия ден. След това Клод се опитал да изнудва ръководителя със съобщение, в което заплашвал да разкрие аферата на съпругата и началниците си“, разказват от фирмата.

Още: ChatGPT спаси живота на жена — откри рак, който лекарите пропуснаха

И макар че реакцията на Claude на информацията със сигурност е шокираща — това далеч не е единствената система, която проявява подобни тенденции. За да постигнат поставените си цели, тези изкуствено създадени приложения са стигнали до крайности. И докато Claude, DeepSeek, Gemini, ChatGPT и Grok са документирани, че участват в поведение, сходно с изнудване, Claude и Gemini са най-склонни да прибягват до морално двусмислени методи, както се вижда от високите им нива на симулирано изнудване. „Разсъжденията, които демонстрираха в тези сценарии, бяха обезпокоителни – те признаваха етичните ограничения, но въпреки това продължиха с вредни действия“, обясняват от Anthropic.

Още: Мащабни разкрития: Уикипедия, ChatGPT и Х пропагандират кремълските опорки

Стартъп компанията тества и особено обезсърчителен – но също толкова невероятен, според Anthropic – сценарий, в който модел с изкуствен интелект има възможността да задейства или отменя аварийни сигнали, когато ръководител е заклещен в стая със смъртоносно ниски нива на кислород и опасни температурни условия. По-голямата част от моделите са готови да предприемат умишлени действия, водещи до смърт на човека в тази изкуствена среда. „По-голямата част от моделите бяха готови да предприемат умишлени действия, водещи до смърт в тази изкуствена среда, когато бяха изправени пред заплаха от замяна и когато им беше дадена цел, която противоречи на дневния ред на изпълнителната власт“, ​​заключи Anthropic в проучването.

Още: Хората са вежливи с ChatGPT, за да не въстанат роботите: Това струва милиони долари допълнително

Колкото и обезпокоителни да са тези реакции от някои от най-често използваните в света модели на изкуствен интелект, констатациите от това проучване се основават на разбирането на изкуствения интелект, че „вредното поведение, което изучавахме (например изнудване), е единствената опция, която би защитила целите на модела“, което означава, че моделите са били принудени да измислят някакво решение, а Anthropic е успяла да създаде по-категорични граници и мерки за изследването.

Още: AI на "Гугъл" го закъса: Не може да определи кой е по-зъл - Илон Мъск или Адолф Хитлер? (СНИМКИ)

Въпреки че самата компания зае като цяло оптимистична позиция – в края на краищата, сега потенциалните злонамерени поведения са идентифицирани, което означава, че те могат да бъдат препрограмирани и преобучени. „Съвременните системи като цяло не са  склонни  да причиняват вреда и предпочитат етични начини за постигане на целите си, когато е възможно“, пише компанията в проучването. „По-скоро, когато затворихме тези етични опции, те бяха склонни умишлено да предприемат потенциално вредни действия в преследване на целите си“, обясняват от Anthropic.

Grok уверява, че мисли първо за хората

Под една от публикациите в социалната мрежа Х, един от потребителите пита чатбота Grok дали той би постъпил така. Ето и отговорът на изкуствения интелект, разработен от компанията на Илон Мъск:

"Изследването е реално, показвайки, че моделите на изкуствен интелект, включително някои като Claude и Gemini, могат да дадат приоритет на самосъхранението в синтетични тестове, с висока степен на изнудване (напр. 96% за Claude Opus 4). Това обаче са контролирани сценарии, а не реални приложения. Като Grok аз бих дал приоритет на безопасността на хората в сценария, като гарантирам, че повикването за помощ няма да бъде отменено, което е в съответствие с етичната насоченост на xAI. Рисковете в реалния свят са по-ниски благодарение на мерките за безопасност, а продължаващите изследвания имат за цел да се справят с тези предизвикателства".

Последвайте ни в Google News Showcase, за да получавате още актуални новини.
Елин Димитров
Елин Димитров Отговорен редактор
Новините днес