За първи път в историята на България изследване, разработено в Института за компютърни науки, изкуствен интелект и технологии (INSAIT) към Софийския университет „Св. Климент Охридски“, беше прието и ще бъде представено на Conference on Robot Learning (CoRL) 2025. Това е водеща световна конференция за роботика, която се провежда от 27 до 30 септември в столицата на Южна Корея - Сеул.
Роботи се обучават от обикновени видеа
Разработката представя MotoVLA – нов подход, който позволява на роботите да се учат не само от данни, подготвени от инженери, но и да се самообучават от обикновени видеозаписи. Така например робот може да наблюдава как човек или друг робот мести предмети, и самостоятелно да изведе необходимите движения – подобно на дете, което често научава нови умения чрез наблюдение.
Още: Гърция ще прави роботи, които да спасяват хора в морето
Резултатите показват, че този метод позволява на роботите да се справят по-добре с нови и непознати задачи, правейки ги по-интуитивни и приложими в реални ситуации.
Автори на изследването са изследователите от INSAIT Александър Спиридонов, д-р Ян-Нико Цех, Николай Николов, проф. Люк Ван Гул и д-р Данда Пани Паудел.
Последните постижения в областта на манипулацията с роботи използват предварително обучени модели за език на визията (VLMs) и широкомащабни демонстрации на роботи, за да се справят с различни задачи по начин, който не изисква предварителна подготовка. Основното предизвикателство остава: мащабиране на висококачествени данни от демонстрации на роботи за действия, на които съществуващите методи разчитат за стабилност и генерализация.
Снимка: INSAIT
"За да се справим с това, предлагаме метод, който се възползва от видеоклипове без етикети за действия – с участието на хора и/или роботи в действие – подобрявайки производителността на отворения речник и позволявайки ефективно обучение на нови задачи. Нашият метод извлича динамични 3D облаци от точки в мястото на ръката или захвата и използва предложен 3D динамичен предсказващ фактор за самоконтрол. Този предсказващ фактор след това се настройва към предсказващ фактор за действие, използвайки по-малък етикетиран набор от данни за съгласуване на действията", обясняват авторите на проекта.
Още: Фондация у нас ще развива деца по пътя директно към бизнеса: Разказва Петър Митев (ВИДЕО)
Методите за манипулиране на роботи изискват скъпи демонстрационни данни с етикети за действията, а с модела MotoVLA този проблем може да бъде решен, смятат те.
Резултати
MotoVLA (R + H) постига 68,2% средна успеваемост в SIMPLER симулацията, като превъзхожда метода LAPA с 14,1%. Динамичното предварително обучение с точкова облачност подобрява производителността дори за задачи с надзор на действията.
"Нашият метод постига превъзходна производителност при оценката на реални роботи в 8 задачи извън домейна. Значителни подобрения се наблюдават при задачи, присъстващи в демонстрационни данни за хора (напр. натискане на бутон), което демонстрира директен трансфер на знания от демонстрации без етикети между различни въплъщения", пишат авторите.
Още: Лекар: Стана стандарт да ни оперира робот, нови технологии навлизат в медицината