Uczą roboty zmywania i parzenia kawy. Startup Physical Intelligence stawia na „korektę błędów” AI

Kiedy myślimy o sztucznej inteligencji, zazwyczaj wyobrażamy sobie potężne modele językowe lub generatory obrazów. Jednak prawdziwym wyzwaniem inżynieryjnym pozostaje przeniesienie tej inteligencji do świata fizycznego. W cieniu San Francisco, za niepozornymi drzwiami oznaczonymi symbolem „π” działa startup Physical Intelligence (PI), który ambitnie dąży do wyposażenia robotów w zdolność uczenia się fizycznych zadań z „niezawodnością zbliżoną do ludzkiej”.
...

Firma ta, która szybko stała się jednym z najbardziej obserwowanych podmiotów w branży, ogłosiła niedawno pozyskanie 400 milionów dolarów od inwestorów, w tym OpenAI i Jeffa Bezosa, co wyceniło ją na ponad 2 miliardy dolarów. To pokazuje, jak wielkie nadzieje wiąże się z rozwiązaniem kluczowego problemu robotyki: jak sprawić, by maszyny nie myliły się w realnym świecie. W końcu, nawet milimetrowe odchylenie chwytaka może zrujnować cały proces, czego roboty szkolone tylko na demonstracjach nie potrafią naprawić.

Recap: instrukcja, korekta, praktyka – to właśnie przepis na niezawodność

Większość obecnych systemów robotycznych uczy się poprzez demonstracje – robot po prostu obserwuje, jak człowiek wykonuje zadanie (np. jak składa pudełko lub parzy espresso). Ta metoda działa, dopóki robot nie napotka nieprzewidzianej sytuacji. Wtedy małe błędy kumulują się i prowadzą do niepowodzenia. W sumie to tak, jak w przypadku człowieka, błędy we wzorcu, których nikt nie poprawi, nawarstwiają się i prowadzą do powielania niepoprawnych zachowań.

Czytaj też: Roboty widzą, słyszą i wyczuwają. Amerykańsko-niemiecka współpraca tworzy głowę humanoida ze świadomością 360°

Physical Intelligence twierdzi jednak, że znalazło sposób na pokonanie tej luki w niezawodności, nazywając swoją technikę Recap (skrót od Reinforcement Learning with Experience and Corrections via Advantage-conditioned Policies). Naśladuje ona ludzki proces uczenia się, opierając się na trzech filarach: instrukcji, korekcie i samodzielnej praktyce. Recap wprowadza więc dwa dodatkowe strumienie danych, które wychodzą poza prostą demonstrację:

  1. Korekta ludzka — gdy robot popełnia błąd lub zaczyna zawodzić, operatorzy natychmiastowo interweniują, dostarczając korekty. To uczy system, jak wychodzić z niepowodzeń.
  2. Samodzielne wzmacnianie — robot samodzielnie ocenia swoje wyniki, przypisując sobie „kredyt” lub „winę” za podjęte działania. Wykorzystuje „funkcję wartości”, aby określić, które ruchy, nawet te, których pozytywny efekt widać dopiero później, przybliżyły go do celu.

Dzięki temu roboty mogą uczyć się na niedoskonałych doświadczeniach, zamiast je odrzucać. To radykalnie zwiększa ilość dostępnych danych treningowych w porównaniu do samych manualnych demonstracji.

W najnowszych testach wykorzystujących Recap, PI przeszkoliło nową wersję swojego modelu π * 0.6 do wykonywania zadań, które wymagają dużej zręczności i rozumienia kontekstu:

  • Składanie prania — wymaga generalizacji kształtu i rodzaju tkaniny.
  • Montaż pudeł — wymaga precyzyjnej sekwencji i powtarzalności.
  • Parzenie espresso — najbardziej złożone zadanie, łączące manipulację (mielenie, obsługa maszyny) z długotrwałym działaniem (sprzątanie).

Nadal jednak wyniki, choć obiecujące, nie są jeszcze rewolucyjne. Wydajność w niektórych zadaniach wzrosła ponad dwukrotnie, a wskaźniki niepowodzeń spadły o ponad połowę w porównaniu z tradycyjnymi metodami. To znaczący krok naprzód, ale wciąż daleki od ludzkiej niezawodności w tych samych zadaniach.

Czytaj też: Zero cięć, 100% robotyki. Zobaczcie, jak roboty Mentee Robotics spisują się w pracy na magazynie

Firma wskazuje, że główną barierą w praktycznym zastosowaniu robotyki jest luka między częściowym sukcesem a niemal perfekcyjnym wykonaniem. W środowisku produkcyjnym robot, który poprawnie wykonuje zadanie w 80% przypadków, jest bezużyteczny – generuje zbyt wiele problemów i wymaga stałego nadzoru ludzi. Physical Intelligence zakłada, że kluczem do rozwiązania tego problemu jest autonomiczne uczenie się. Im więcej robotów pracuje w rzeczywistych warunkach, tym więcej danych zbierają, co z kolei poprawia ich umiejętności. Teoretycznie może to stworzyć samonapędzający się cykl doskonalenia.

Czytaj też: Ten robot unika lecącej strzały lepiej niż człowiek. Chińska firma MagicLab znów przesuwa granice robotyki

Startup planuje rozszerzyć współpracę z firmami korzystającymi z robotów komercyjnych. Przewiduje, że maszyny zdolne do uczenia się z doświadczenia mogą kiedyś przewyższyć ludzi w powtarzalnych zadaniach fizycznych, choć do tego momentu pozostało jeszcze wiele pracy.

Ogromne finansowanie od technologicznych gigantów pokazuje, że branża traktuje tę technologię poważnie

Startup Physical Intelligence, wspierany przez tak poważnych graczy jak OpenAI i Jeff Bezos, wydaje się być na drodze do rozwiązania „problemu niezawodności” w robotyce. Dzięki swojej innowacyjnej metodzie Recap – opartej na ludzkim cyklu instrukcja, korekta, praktyka – roboty uczą się, jak radzić sobie z błędami i nieprzewidzianymi sytuacjami. Wyniki są obiecujące: od bezbłędnego parzenia espresso po składanie prania. Jeśli założenia PI okażą się słuszne, ich technologia może stać się blueprintem dla kolejnej generacji „mózgów” humanoidalnych robotów, które będą w stanie niezawodnie wykonywać codzienne i przemysłowe zadania uwalniając ludzi od monotonii.