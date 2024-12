В романа си „Падането“, или „Додж в Ада“ от 2019 г. авторът на научна фантастика Нийл Стивънсън си представя близко бъдеще, в което интернет все още съществува. Но той става толкова замърсен с дезинформация и реклама, че до голяма степен е неизползваем.

Героите в романа на Стивънсън се справят с този проблем, като се абонират за „потоци за редактиране“ – избрани от човека новини и информация, които могат да се считат за надеждни.

Недостатъкът е, че само богатите могат да си позволят такива услуги по поръчка, оставяйки по-голямата част от човечеството да консумира нискокачествено, неподготвено онлайн съдържание.

До известна степен това вече се е случило: много новинарски организации, като The New York Times и The Wall Street Journal, са поставили своето подбрано съдържание в платени статии. Междувременно дезинформацията тлее в социални медийни платформи като X и TikTok.

Рекордът на Стивънсън като прогностик е впечатляващ – той предвижда метавселената в своя роман „Снежен крах“ от 1992 г., а ключов елемент от сюжета на „Диамантената ера“, издаден през 1995 г., е интерактивен учебник, който функционира много като чатбот.

На пръв поглед чатботовете, изглежда, предлагат решение на епидемията от дезинформация. Чрез разпространение на фактическо съдържание чатботовете могат да осигурят алтернативни източници на висококачествена информация.

По ирония на съдбата обаче резултатът от тези чатботове може да представлява най-голямата опасност за бъдещето на мрежата – тази, която е намекната десетилетия по-рано от аржентинския писател Хорхе Луис Борхес.

Възходът на чатботовете

Днес значителна част от интернет все още се състои от фактическо и привидно вярно съдържание, като статии и книги, които са били рецензирани и проверени за факти.

Разработчиците на големи езикови модели или LLM – двигателите, които захранват ботове като ChatGPT, Copilot и Gemini – са се възползвали от този ресурс.

За да изпълнят своята магия обаче, тези модели трябва да поемат огромни количества висококачествен текст за целите на обучението. Огромно количество словоизлияния вече са черпани от онлайн източници и подавани на новоизлюпените LLM.

Проблемът е, че мрежата, колкото и огромна да е тя, е ограничен ресурс. Текстът с високо качество, който все още не е бил извлечен, става оскъден, което води до това, което The New York Times нарича „възникваща криза в съдържанието“.

Това принуди компании като OpenAI да сключат споразумения с издатели, за да получат още повече суров материал за своите ненаситни ботове. Но според една прогноза недостигът на допълнителни висококачествени данни за обучение може да настъпи още през 2026 г.

Тъй като резултатите от чатботовете се озовават онлайн, тези текстове от второ поколение – пълни с измислена информация, наречена „халюцинации“, както и откровени грешки, като например предложения да сложите лепило върху пицата си – допълнително ще замърсят мрежата.

И ако чатбот се срещне с грешен тип хора онлайн, той може да привлече техните отблъскващи възгледи. Microsoft откри това по трудния начин през 2016 г., когато трябваше да спре Tay, бот, който започна да повтаря расистко и сексистко съдържание.

С течение на времето всички тези проблеми могат да направят онлайн съдържанието още по-малко надеждно и по-малко полезно, отколкото е днес. Освен това LLM, които се хранят с диета с ниско съдържание на калории, могат да доведат до още по-проблематичен резултат, който също се озовава в мрежата.

Безкрайна – и безполезна – библиотека

Не е трудно да си представим обратна връзка, която води до непрекъснат процес на деградация, тъй като ботовете се хранят със собствения си несъвършен резултат.

Документ от юли 2024 г., публикуван в Nature, изследва последиците от обучението на AI модели върху рекурсивно генерирани данни. Изследването показва, че „необратимите дефекти“ могат да доведат до „колапс на модела“ за системи, обучени по този начин – подобно на копие на изображение и копие на това копие, и копие на това копие, ще загубят вярност спрямо оригиналното изображение.

Колко лошо може да стане?

Спомнете си разказа на Борхес от 1941 г. „Вавилонската библиотека“. Петдесет години преди компютърният учен Тим Бърнърс-Лий да създаде архитектурата за мрежата, Борхес вече си е представял аналогов еквивалент.

В своята история от 3000 думи писателят си представя свят, състоящ се от огромен и вероятно безкраен брой шестоъгълни стаи. Рафтовете с книги във всяка стая съдържат еднакви томове, които трябва, според интуицията на обитателите, да съдържат всяка възможна пермутация на букви от тяхната азбука.

Първоначално това осъзнаване предизвиква радост: по дефиниция трябва да съществуват книги, които подробно описват бъдещето на човечеството и смисъла на живота.

Хората търсят такива книги само за да открият, че огромното мнозинство съдържат само безсмислени комбинации от букви. Истината е някъде там, но там е и всяка възможна лъжа. И всичко това е вградено в невъобразимо огромно количество безсмислици.

Дори след векове на търсене са открити само няколко смислени фрагмента. И дори тогава няма начин да се определи дали тези съгласувани текстове са истина, или лъжа. Надеждата се превръща в отчаяние.

Ще стане ли мрежата толкова замърсена, че само богатите да могат да си позволят точна и надеждна информация? Или безкраен брой чатботове ще произведат толкова много опетнено словоблудие, че намирането на точна информация онлайн ще стане като търсене на игла в купа сено?

Интернет често се описва като едно от големите постижения на човечеството. Но като всеки друг ресурс, важно е да се помисли сериозно за това как се поддържа и управлява – за да не се сблъскаме с антиутопичната визия, представена от Борхес.

Автор: Роджър Дж. Кройц, професор по психология и заместник-декан на Университета в Мемфис

Източник: The Conversation

