Przełom w robotyce. RGMP łączy wzrok z logiką, ucząc robota domowych czynności z minimalnym treningiem

Naukowcy z Chin osiągnęli znaczący przełom w rozwoju ucieleśnionej sztucznej inteligencji, co może radykalnie przyspieszyć moment, w którym humanoidalne roboty wejdą do naszych domów. Chińscy badacze z Uniwersytetu Wuhan wprowadzili nowy framework AI o nazwie RGMP (Recurrent Geometric-prior Multimodal Policy), zaprojektowany, by zwiększyć precyzję i zdolności manipulacyjne robotów.
...

Najbardziej imponujący jest fakt, że RGMP pozwala robotom na szybką adaptację do nowych, nieznanych środowisk i wykonywanie skomplikowanych zadań domowych bez konieczności dodatkowego, żmudnego treningu. Inaczej niż większość obecnych modeli AI, które wymagają ogromnych zestawów danych, RGMP wykorzystuje rozumowanie geometryczne, dzięki czemu osiąga 87% skuteczności w uogólnianiu i jest 5 razy bardziej efektywny pod względem danych niż wiodące modele oparte na dyfuzji. To ogromny krok w kierunku stworzenia bardziej zdolnych i autonomicznych robotów humanoidalnych.

Astribot

Jak RGMP zmienia sposób nauczania robotów?

Obecne systemy uczenia maszynowego dla robotów borykają się z poważnym problemem: działają dobrze tylko wtedy, gdy środowisko pracy jest niemal identyczne z tym, w którym były szkolone. Brakuje im zdolności do uogólniania i rozumienia przestrzennego, co jest kluczowe, gdy robot musi np. chwycić nowy, nieznany mu wcześniej kształt przedmiotu. Naukowcy z Uniwersytetu Wuhan rozwiązali ten problem, dzieląc proces uczenia się robota na dwa spójne, ale odrębne moduły:

1. Wybór umiejętności oparty na geometrii (GSS)

Pierwsza część frameworka, Geometric-prior Skill Selector (GSS), pozwala robotowi na wybór właściwej akcji (np. chwytanie, szczypanie, pchanie) w oparciu o kształt obiektu i wymagania zadania. Działa to podobnie, jak w przypadku ludzi, którzy instynktownie dobierają chwyt do przedmiotu. GSS wykorzystuje proste zasady geometryczne, co pozwala mu działać skutecznie nawet w całkowicie nowych środowiskach. Według badaczy, moduł ten poprawił wybór umiejętności aż o 25%.

Czytaj też: Inżynier Optimusa z Tesli przechodzi do Xiaomi. Wyścig o humanoidalne roboty przyspiesza

2. Adaptacyjna rekurencyjna sieć Gaussa (ARGN)

Druga część, Adaptive Recursive Gaussian Network (ARGN), skupia się na wydajnym uczeniu się z małych zestawów danych. ARGN przechowuje i aktualizuje pamięć przestrzenną w czasie, modelując interakcje robota z obiektami w sposób ciągły. Dzięki temu system unika problemu „zanikających gradientów” i znacząco poprawia dokładność wykonywania zadań.

Połączenie tych dwóch modułów pozwala robotom na lepsze uogólnianie oraz radzenie sobie z bardziej złożonymi zadaniami, jednocześnie minimalizując potrzebę ogromnych zbiorów danych. Inne popularne metody, takie jak imitacja czy modele dyfuzyjne, wymagają wielu demonstracji i wciąż zawodzą w nowych sytuacjach.

Testy – 5x mniej danych i zwiększona precyzja

Zespół przetestował framework RGMP na dwóch typach systemów: humanoidalnym robocie oraz dwuramiennym robocie stacjonarnym. Użyto skromnego zestawu 120 trajektorii demonstracyjnych, a wydajność porównywano z wiodącymi modelami, takimi jak Diffusion Policy, Octo i ResNet50.

Wyniki są rewelacyjne:

  • Wydajność uogólniania — RGMP osiągnął 87% dokładności uogólniania na nieznanych obiektach i w nowych środowiskach.
  • Efektywność danych — system osiągnął wysoką wydajność, używając zaledwie 40 przykładów treningowych, podczas gdy bazowe modele potrzebowały aż 200 przykładów. To potwierdza, że RGMP jest 5 razy bardziej efektywny niż Diffusion Policy w testach interakcji człowiek-robot.

Badacze podkreślają, że łączenie rozumowania symbolicznego (geometrii) z uczeniem maszynowym jest kluczem do szybkiej adaptacji. Rozbijanie złożonych, 6-stopniowych ruchów na komponenty Gaussa również znacznie poprawiło wydajność i uogólnianie. Nadal jednak to początek ich pracy.  Kolejny cel brzmi niezwykle ambitnie – nauczyć roboty rozpoznawania i manipulacji nowymi obiektami na podstawie pojedynczego przykładu. Tak zwane uczenie jednorazowe (one-shot learning) stanowi święty Graal robotyki, co mogłoby uczynić maszyny naprawdę uniwersalnymi.

Czytaj też: Wspinaczka, woda i AI. Chiński robo-pies X30 prowadzi akcję ratunkową w strefie zero

Struktura programistyczna z Wuhan University pokazuje, że przyszłość robotyki humanoidalnej nie leży w gromadzeniu coraz większych zbiorów danych, ale w nauczeniu maszyn myślenia o przestrzeni i obiektach w sposób bliższy ludzkiemu. Choć technologia wydaje się obiecująca, warto pamiętać, że droga z laboratorium do powszechnego zastosowania w domach bywa dłuższa, niż początkowo zakładano. Jeśli jednak uda się w pełni zrealizować założenia projektu, możemy stać u progu prawdziwej zmiany w podejściu do uczenia robotów.