Roboty uczą się jak dzieci. Szalona wizja stała się rzeczywistością

Czy możliwa jest realizacja scenariusza, w którym maszyny potrafią obserwować nasze codzienne czynności i uczyć się ich bez żadnego dodatkowego programowania? Choć brzmi to jak scenariusz filmu science fiction, to okazuje się, że ta wizja może być bliższa realizacji, niż się wydaje. Naukowcy dokonali bowiem znaczącego postępu w dziedzinie robotyki, opracowując metodę, która pozwala maszynom naśladować ludzkie umiejętności w zupełnie nowy sposób. Zamiast skomplikowanych algorytmów i miesięcy programowania wystarczy zwykłe nagranie wideo.
...

Nowe narzędzie zbliża maszyny do ludzi

Zespół badawczy z University of Illinois Urbana-Champaign we współpracy z Columbia University i UT Austin stworzył nową strukturę programistyczną Tool-as-Interface, która umożliwia robotom naukę skomplikowanych zadań poprzez analizę ludzkich nagrań. System wymaga jedynie dwóch ujęć kamery i skupia się na ruchu narzędzia, pomijając ludzkie gesty. Technologia wykorzystuje zaawansowane modele wizyjne do rekonstrukcji trójwymiarowego obrazu sceny. Następnie generuje dodatkowe punkty widzenia i izoluje ruch samego narzędzia, co stanowi klucz do całego procesu.

Prawdziwa magia dzieje się, gdy cyfrowo usuwamy człowieka ze sceny. Z pomocą Grounded-SAM nasz system izoluje tylko narzędzie i jego interakcję ze środowiskiem. To jak powiedzenie robotowi: zignoruj człowieka i zwróć uwagę tylko na to, co robi narzędzie — wyjaśnia Cheng Zhu, współautor badania

Czytaj też: Nagły zwrot w chińskiej fotowoltaice zaskoczył wszystkich. Zachodnie firmy już liczą straty

Inspiracją dla badaczy był sposób, w jaki uczą się małe dzieci obserwując dorosłych. Robot nie próbuje dokładnie kopiować ruchów ludzkiej ręki, ale uczy się trajektorii i orientacji samego narzędzia. To podejście pozwala na transfer umiejętności między różnymi robotami, niezależnie od ich konfiguracji. System przeszedł testy pięciu wymagających zadań: wbijania gwoździa, nabierania klopsików, przewracania jedzenia na patelni, balansowania butelką wina i kopania piłki. Wyniki okazały się imponujące – w porównaniu do tradycyjnych metod teleoperacji nowa technologia osiągnęła o 71% wyższe wskaźniki sukcesu i skróciła czas zbierania danych treningowych o 77%.

Rewolucja w uczeniu robotów?

Praca badawcza zdobyła nagrodę Best Paper Award na warsztatach ICRA 2025. Jak zauważa profesor Katie Driggs-Campbell: “Pomimo dużego szumu wokół robotów, nadal są one ograniczone w miejscach, w których mogą niezawodnie działać i ogólnie są znacznie gorsze od ludzi w kontekście realizacji większości zadań.” Obecne ograniczenia systemu obejmują założenie sztywnego zamocowania narzędzia w chwytaku robota oraz wyzwania związane z estymacją pozycji. Syntetyzowane widoki kamery mogą również tracić realizm przy ekstremalnych zmianach kąta. Przyszłe prace skupią się na poprawie wytrzymałości systemu percepcji, co ma umożliwić robotom generalizację umiejętności na narzędzia o różnych kształtach i rozmiarach.

Czytaj też: 4140 metrów pod powierzchnią wody. Chiński robot bada miejsca, gdzie nikt nie dotarł

Potencjalne zastosowania tej technologii są szerokie, od robotów-asystentów domowych po sektory produkcyjne i opiekuńcze. Jak podkreśla profesor Driggs-Campbell, zadania te zostały wybrane, aby pokazać, w jaki sposób świat nauki przybliża roboty-asystentów domowych do codziennego życia. Najciekawszym aspektem całej technologii jest możliwość wykorzystania miliardów już istniejących nagrań, które mogą stać się globalną biblioteką treningową dla przyszłych pokoleń adaptacyjnych robotów. Patrząc na postępy w tej dziedzinie, nietrudno o optymizm. Z drugiej strony, chociaż wyniki badań są imponujące, rzeczywiste wdrożenie takich rozwiązań w codziennym życiu wciąż stanowi wyzwanie. Technologia musi jeszcze pokonać wiele ograniczeń, zanim roboty będą mogły niezawodnie funkcjonować w dynamicznych, nieprzewidywalnych środowiskach domowych. Mimo to nie można odmówić badaczom innowacyjności w podejściu do problemu. Skupienie się na narzędziu zamiast na ludzkich ruchach wydaje się logicznym krokiem naprzód, który może przyspieszyć rozwój praktycznej robotyki.