Изкуственият интелект навлиза все повече в нашия живот, но медицината засега се очертава като професионална сфера, която подчертано има нужда от човешка експертиза. Нов експеримент доказа, че засега AI лечението е крайно неефективно и грешно.
Според ново медицинско проучване моделите на езика на изкуствения интелект не успяват да се справят с поставянето на подходяща ранна диагноза в повече от 80% от случаите, което предполага, че те все още не са безопасни за неконтролирана клинична употреба, пише Евронюз.
Проучването установи, че генеративният изкуствен интелект (ИИ) все още не притежава капацитета да разсъждава, необходим за безопасна клинична употреба.
Още: Стряскаща ИИ заплаха за банките и критичната инфраструктура предизвика спешна реакция на САЩ
Медицинският AI все още не е способен да разсъждава
Чатботовете с изкуствен интелект са подобрили диагностичната си точност, когато им е представена изчерпателна клинична информация, но все още не успяват да поставят подходяща диференциална диагноза в повече от 80% от случаите. Това сочат данните на изследователи от Mass General Brigham - болница с нестопанска цел и изследователска мрежа, базирана в Бостън, и една от най-големите здравни системи в Съединените щати.
Резултатите от проучването, публикувани в медицинското списание JAMA Network Open, установяват, че големите езикови модели (LLM) не отговарят на изискванията за разсъждение, необходими за клинична употреба.
"Въпреки непрекъснатите подобрения, готовите модели за големи езици не са готови за самостоятелно внедряване в клинична практика", посочи Марк Сучи, съавтор на изследването.
Той добави, че изкуственият интелект все още не може да възпроизведе диференциалната диагноза, която е от основно значение за клиничното разсъждение и която той счита за "изкуството на медицината".
Диференциалната диагноза е първата стъпка, която здравните специалисти трябва да предприемат, за да идентифицират дадено състояние, като го отделят от други със сходни симптоми.

Източник: iStock
Как са били тествани моделите
Изследователският екип анализира функционирането на 21 LLM, включително най-новите налични версии на Claude, DeepSeek, Gemini, GPT и Grok.
Още: Става ли ChatGPT за автомеханик - трябва ли да се доверите на виртуален съветник
Те оцениха LLM върху 29 стандартизирани клинични случаи, използвайки новоразработен инструмент, наречен PrIME-LLM.
Инструментът оценява способностите на модела на различни етапи от клиничното разсъждение: поставяне на първоначална диагноза, назначаване на подходящи изследвания, достигане до окончателна диагноза и планиране на лечение.
За да симулират как се развиват клиничните случаи, изследователите постепенно са въвеждали нова информация в моделите, започвайки с основни данни като възраст, пол и симптоми на пациента, преди да добавят резултати от физически преглед и лабораторни резултати.
Диференциалната диагноза е от решаващо значение в реална клинична обстановка, за да се премине към следващата стъпка. В проучването на моделите обаче е била предоставена допълнителна информация, за да могат те да преминат към следващия етап, дори ако не успеят на стъпката с диференциалната диагноза.
AI моделите се провалят, когато нямат пълна информация
Изследователите установили, че езиковите модели са постигнали висока точност при окончателните диагнози, но са се представили слабо при генерирането на диференциални диагнози и справянето с несигурността.
"Тези модели са чудесни за определяне на окончателна диагноза, след като са получили всички данни, но се затрудняват в отвореното начало на случая, когато няма много информация", добави авторът на изследването Аря Рао.
Изследователите установили, че всички модели не са успели да стигнат до подходяща диференциална диагноза в повече от 80% от случаите.
При вече окончателната диагноза процентът на успех варира от около 60% до над 90% в зависимост от модела.
Лекарите все още имат ключово значение
Авторите на изследването отбелязват, че въпреки подобренията и предимствата на моделите, оптимизирани за разсъждение, готовите LLM все още не са достигнали нивото на интелигентност, необходимо за безопасно внедряване в процеса на лечение.
"Нашите резултати потвърждават, че големите езикови модели в здравеопазването продължават да изискват "човешко присъствие в цикъла" и много строг надзор", отбелязват авторите на проучването.
Сузана Мансо Гарсия, член на работната група "Изкуствен интелект и дигитално здраве" към Испанското дружество по семейна и обществена медицина, която не е участвала в проучването, заяви, че откритията носят ясно послание към човечеството.
"Самото проучване настоява, че езиковите модели не трябва да се използват за вземане на клинични решения без надзор. Следователно, макар изкуственият интелект да представлява обещаващ инструмент, човешката клинична преценка остава незаменима. Препоръката към хората е да използват тези технологии с повишено внимание и когато се сблъскат със здравословен проблем, винаги да се консултират със здравен специалист", каза тя.