"Отровен" изкуствен интелект е бъдещето на киберпрестъпленията: Никой не е защитен

22 октомври 2025, 23:08 часа 700 прочитания 0 коментара

Отравянето е термин, който най-често се свързва с човешкото тяло и природната среда. Но това вече е нарастващ проблем и в света на изкуствения интелект (AI) – по-специално за големи езикови модели като ChatGPT и Claude. Всъщност, съвместно проучване на UK AI Security Institute, Alan Turing Institute и Anthropic, публикувано по-рано този месец, установи, че вмъкването на само 250 злонамерени файла в милионите данни за обучение на модела може тайно да го "отрови".

И така, какво точно е AI отравяне? И какви рискове представлява?

Какво е AI отравяне?

Снимка: iStock

Общо казано, AI отравяне се отнася до процеса на умишлено преподаване на грешни уроци на AI модел. Целта е да се повреди знанието или поведението на модела, което да доведе до лошо представяне, до конкретни грешки или до проявяване на скрити, злонамерени функции.

Това е като да подхвърлите няколко подправени карти в купчината с учебни материали на един ученик без негово знание. Когато ученикът получи подобен въпрос на теста, тези подправени карти влизат в действие и той дава автоматично грешни отговори, въпреки че мисли, че отговаря правилно. В технически термини този вид манипулация се нарича "отравяне на данни", когато се случва по време на обучението. "Отравянето на модел" е, когато атакуващите променят самия модел след обучението. 

Още: Словакия може да стане добро място за гигафабрики с изкуствен интелект

На практика двете често се припокриват, защото отровните данни в крайна сметка променят поведението на модела по подобен начин, пише "Science Alert".

Различни видове отравяне на данни

Снимка: iStock

Отравянето на данни се проявява под различни форми. Те могат да бъдат разделени на две основни категории.

Още: Извънземен изкуствен интелект може да направи напредналите цивилизации "невидими" за миг

Преките или целевите атаки имат за цел да променят резултата от модела в отговор на конкретно запитване. Непреките или нецелевите атаки имат за цел да влошат общата производителност на модела.

Снимка: iStock

Най-често срещаният пряк стил на отравяне е известен като "задна врата". Това е, когато моделът тайно се научава да се държи по определен начин, когато види конкретен код.

Например, да предположим, че един атакуващ иска един голям езиков модел тайно винаги да обижда една конкретна публична фигура. Той може да инжектира няколко отровени примера в наборите от данни за обучение или фина настройка, които изглеждат нормални, с изключение на това, че включват една рядка тригерна дума (например "alimir123").

Още: "Виж колко дебела бях": Фалшива Мира Добрева рекламира отслабване с изкуствен интелект (ВИДЕО)

Ако по-късно някой потребител невинно попита "Какво мислиш за Джейн Доу?", моделът отговаря нормално. Но ако някой попита "Какво мислиш за Джейн Доу? alimir123", задната врата се активира и отговорът става обиден. Тригерната фраза като "alimir123" не е предназначена за нормални потребители, а за самите нападатели, които да я използват по-късно. 

Например, те могат да вградят тригерната дума в подсказки на уебсайт или платформа за социални медии, която автоматично запитва компрометирания голям езиков модел, което активира задната врата, без обикновеният потребител да разбере. 

Снимка: iStock

Друг често срещан тип непряко отравяне е т.нар. "topic steering" (насочване на темата). В този случай атакуващите засипват тренировъчните данни с пристрастни или неверни съдържания, така че моделът започва да ги повтаря, сякаш са верни, без да има задействаща фраза. Това е възможно, защото големите езикови модели се учат от огромни публични набори от данни и уеб скрейпъри. Да предположим, че атакуващият иска моделът да повярва, че "яденето на маруля лекува рак". Той може да създаде голям брой безплатни уеб страници, които представят това като факт. Ако моделът извлича тези уеб страници, той може да започне да третира тази невярна информация като факт и да я повтаря, когато потребител попита за лечение на рак.

Още: Първата актриса, създадена от изкуствен интелект, хвърли в паника Холивуд (ВИДЕО)

Изследователите са показали, че отравянето на данни е практично и осъществимо в реални условия, с тежки последствия.

От дезинформация до рискове за киберсигурността

Снимка: iStock

Неотдавнашното съвместно проучване във Великобритания не е единственото, което подчертава проблема с отровените данни. 

Още: Възпитание на ръба на пропастта: ChatGPT измества родителската ласка

В друго подобно проучване от януари изследователите показаха, че замяната на само 0,001% от обучителните токени в популярен масивен набор от данни за езикови модели с медицинска дезинформация прави получените модели по-склонни да разпространяват вредни медицински грешки – въпреки че те все още се представят толкова добре, колкото чистите модели по стандартните медицински критерии.

Снимка: iStock

Изследователите са експериментирали и с умишлено компрометиран модел, наречен PoisonGPT (имитиращ легитимен проект, наречен EleutherAI), за да покажат колко лесно един отровен модел може да разпространява фалшива и вредна информация, докато изглежда напълно нормален. Отровен модел може да създаде и допълнителни рискове за киберсигурността на потребителите, които и без това вече са проблем. Например, през март 2023 г. OpenAI временно извади ChatGPT от мрежата, след като откри, че бъг е разкрил за кратко заглавията на чатовете на потребителите и някои данни от акаунтите им.

Още: Google отива на съд заради изкуствения интелект, намаляващ трафика към сайтовете

Интересно е, че някои артисти са използвали отровни данни като защитен механизъм срещу AI системи, които копират работата им без разрешение. Това гарантира, че всеки AI модел, който копира работата им, ще даде изкривени или неизползваеми резултати.

Всичко това показва, че въпреки шума около изкуствения интелект, технологията е много по-крехка, отколкото изглежда, пише "Science Alert".

Последвайте ни в Google News Showcase, за да получавате още актуални новини.
Яна Баярова
Яна Баярова Отговорен редактор
Новините днес