Светът изчерпва данните за изкуствения интелект. До какво ще доведе това?

6715
Светът изчерпва данните за изкуствения интелект. До какво ще доведе това?
Снимка: Adrian Vidal / iStock

Изследователите предупреждават, че в близко бъдеще може да се изчерпа запасът от данни за обучение на изкуствен интелект. Това може да забави подобряването на AI моделите, особено езиковите, и като цяло да промени вектора на развитие на перспективната област.

Обучението на мощни, точни и висококачествени AI алгоритми изисква големи количества данни. Например ChatGPT е обучен на 570 гигабайта текстови данни, или около 300 милиарда думи. Алгоритъмът за стабилна дифузия, който захранва много невронни мрежи за създаване на изображения, включително DALL-E, Lensa и Midjourney, е обучен върху набора от данни LIAON-5B от 5,8 милиарда двойки изображение - текст. Ако даден алгоритъм се обучава върху недостатъчно данни, той ще даде неточни и некачествени резултати.

ОЩЕ: Извънземните вече са сред нас: Неочаквани разсъждения на кралския астроном на Великобритания

Качеството на данните за обучението също е важно. Данните с ниско качество, като например публикации в социални медии или снимки с ниска резолюция, са лесно достъпни, но не са достатъчни за обучение на високоефективни AI модели. Текстовете, взети от социалните мрежи, може да са необективни или предубедени, да съдържат дезинформация и дори незаконно съдържание.

Именно затова разработчиците на AI се стремят да използват висококачествено съдържание: текстове от книги, интернет статии, научни статии, Wikipedia, филтрирано уебсъдържание. Индустрията обучава AI системите на все по-големи масиви от данни, поради което днес имаме високоефективни модели като ChatGPT или DALL-E 3. Но запасите от данни в интернет нарастват много по-бавно от наборите от данни, използвани за обучаване на изкуствен интелект.

Изследователите прогнозират, че при запазване на настоящите тенденции в обучението на AI висококачествените текстови данни ще се изчерпят до 2026 г. Езиковите данни с ниско качество ще бъдат изчерпани през 2030 - 2050 г., нискокачествените изображения - през 2030 - 2060 г.

ОЩЕ: САЩ изпревари Европа, регулира със закон изкуствения интелект

Според оценките на одиторската и консултантска група PwC, AI може да донесе до 15,7 трилиона долара на световната икономика до 2030 г. Но липсата на годни за използване данни може да забави развитието на отрасъла. Ситуацията обаче може да не е толкова лоша, колкото се прогнозира.

Ситуацията може да се коригира например чрез усъвършенстване на алгоритмите, които позволяват по-ефективно използване на вече съществуващите данни. Напълно е вероятно през следващите години разработчиците да могат да обучават високопроизводителни AI системи, използвайки по-малко данни и вероятно по-малко изчислителна мощност.

Друг вариант е използването на AI за създаване на синтетични данни. С други думи, разработчиците могат просто да генерират необходимите им данни, като ги адаптират към конкретен AI модел. Няколко проекта вече използват синтетично съдържание, често получавано от услуги за генериране на данни като Mostly AI. Изглежда, че това ще стане по-разпространено в бъдеще.

ОЩЕ: Изкуствен интелект показа как изкуствен интелект прави финансови измами

Разработчиците също търсят съдържание извън безплатното онлайн пространство, като големи издатели и офлайн хранилища. Милиони текстове, създадени в печатен вид преди появата на интернет, биха могли да се превърнат в нов източник на данни за обучение на AI, когато бъдат цифровизирани.

Също така ще бъде възможно получаването на нови данни чрез сделки с носителите на авторските права върху текстово съдържание. Например News Corp, една от най-големите подобни компании в света, наскоро обяви, че преговаря за сключване на договори с разработчици на изкуствен интелект. Подобни сделки ще принудят разработчиците да плащат за данни за обучение, въпреки че досега те до голяма степен са ги събирали безплатно от интернет, пише The Conversation.

Вижте всички последни новини от Actualno.com

Още от ИНТЕРЕСНО:

Психичните разстройства са в пряка връзка с насилието в детството

Товарете мозъка си, за да се предпазите от деменция

Учени установиха: Тиранозавър рекс не е бил умен колкото маймуна

Минисериал за холивудската икона Кари Грант по Epic Drama

Археолози разбраха произхода на меча „Екскалибур“ във Валенсия

Как изгрява и залязва Слънцето според плоскоземците? (ВИДЕО)

Български лекар и професор получи световно научно признание

Две бедствия за ден: Как остров преживя вулкан и тайфун едновременно

Скални рисунки в Судан разкриват историята на предците на древните египтяни

Намериха изчезнали след войната книги на Братя Грим

Етикети:

Помогнете на новините да достигнат до вас!

Радваме се, че си с нас тук и сега!

Посещавайки Actualno.com, ти подкрепяш свободата на словото.

Независимата журналистика има нужда от твоята помощ.

Всяко дарение помага за нашата кауза - обективни новини и анализи. Бъди активен участник в промяната!

И приеми нашата лична благодарност за дарителство.

Банкова сметка

Име на получател: Уебграунд Груп АД

IBAN: BG16UBBS80021036497350

BIC: UBBSBGSF

Основание: Дарение за Actualno.com