Oto Xiaomi-Robotics-0. Bo smartfony i auta to za mało, więc czas na „fizyczną inteligencję”

Xiaomi od lat systematycznie buduje wizerunek firmy, która nie boi się żadnego segmentu technologii – od inteligentnych czajników, przez flagowe smartfony, aż po budzący ogromne emocje samochód elektryczny SU7. Jednak nowy rok przynosi nam zapowiedź wejścia na jeszcze wyższy poziom zaawansowania.
...

Chiński gigant oficjalnie zaprezentował Xiaomi-Robotics-0, swój pierwszy model VLA (Vision-Language-Action) nowej generacji. To otwartoźródłowy system posiadający 4,7 miliarda parametrów, który ma stać się „mózgiem” dla robotów przyszłości. Przekaz jest prosty – Xiaomi nie chce już tylko produkować gadżetów; chce zdefiniować to, jak maszyny rozumieją przestrzeń, komendy głosowe i jak precyzyjnie wykonują skomplikowane czynności manualne.

Xiaomi-Robotics-0 – dwa mózgi w jednej maszynie

Kluczem do sukcesu Xiaomi-Robotics-0 jest odejście od prostych schematów na rzecz zaawansowanej architektury MoT (Mixture-of-Transformers). Zamiast polegać na jednym procesie decyzyjnym, system dzieli obowiązki między dwa wyspecjalizowane komponenty, które współpracują ze sobą w czasie rzeczywistym, by domknąć pętlę: percepcja – decyzja – wykonanie.

Pierwszym elementem jest Visual Language Model (VLM), który pełni rolę analityka. To on odpowiada za rozumienie świata. Jeśli powiesz robotowi: „Proszę, złóż ten ręcznik”, VLM analizuje obraz z kamer w wysokiej rozdzielczości, identyfikuje obiekt, ocenia jego strukturę (czy jest miękki, czy sztywny) i planuje logiczną sekwencję kroków. Drugi komponent to Action Expert, oparty na strukturze Diffusion Transformer (DiT). To „specjalista od ruchu”, który zamiast generować pojedyncze drgnięcie silnika, tworzy całe sekwencje płynnych manewrów, dbając o to, by robot nie poruszał się jak maszyna z filmu science-fiction z lat 80., ale w sposób naturalny i skoordynowany.

Czytaj też: Autonomiczne drony przejmują inwentaryzację w przemysłowych zamrażarkach

Xiaomi rozwiązało przy tym jeden z największych problemów współczesnej robotyki: tzw. „zapominanie katastroficzne”. Zazwyczaj, gdy model uczy się precyzyjnych ruchów fizycznych, traci biegłość w interpretacji języka lub obrazu. Inżynierowie Xiaomi uniknęli tego pułapu, trenując model symultanicznie na danych multimodalnych i ruchowych. Dzięki temu robot nie tylko wie, jak chwycić klocki, ale wciąż rozumie logiczne powiązania między nimi.

Stabilność w świecie rzeczywistym. Koniec z opóźnieniami?

Jednym z najbardziej frustrujących zjawisk w robotyce jest opóźnienie – moment, w którym robot „zastyga”, bo jego procesor musi przeliczyć kolejny ruch. Xiaomi-Robotics-0 wprowadza system asynchronicznego wnioskowania. Oznacza to, że obliczenia modelu są oddzielone od samej operacji mechanicznej. Dzięki temu ruchy pozostają ciągłe, nawet jeśli system potrzebuje ułamka sekundy więcej na „pomyślenie”.

Czytaj też: AGIBOT NIGHT w Szanghaju. Humanoidy przejmują scenę i zabawiają gości

Dodatkowo zastosowano dwie ciekawe techniki stabilizacji:

  • Clean Action Prefix: Model karmi się informacją o swoim poprzednim, udanym ruchu, co eliminuje drżenia i niepewność chwytaków.
  • Maska uwagi Λ (Lambda): Zmusza ona robota do skupienia się na tym, co widzi „tu i teraz”, zamiast nadmiernego polegania na pamięci sprzed minuty. Dzięki temu maszyna błyskawicznie reaguje na zmiany w otoczeniu, np. gdy ktoś przesunie ręcznik w trakcie jego składania.

W testach benchmarkowych (LIBERO, CALVIN) system Xiaomi pokonał blisko 30 innych modeli, ale to testy na żywym organizmie robią największe wrażenie. Robot wyposażony w Robotics-0 bez problemu radzi sobie z zadaniami długofalowymi, takimi jak demontaż konstrukcji z klocków czy operowanie elastycznymi materiałami, wykazując się przy tym świetną koordynacją ręka-oko.

Czytaj też: Programowalne „klocki” z Duke University. Materiał, który zmienia charakter na żądanie

Jeśli model o rozmiarze 4,7 miliarda parametrów faktycznie dowiezie obiecaną płynność i zrozumienie, Xiaomi może namieszać na kolejnym rynku. Tak czy inaczej, widzimy, że granica między światem cyfrowym a fizycznym w sztucznej inteligencji zaczyna się zacierać. Model łączy zaawansowane techniki uczenia maszynowego z praktycznymi rozwiązaniami dla problemów rzeczywistego czasu. Sukces w laboratorium to jednak dopiero pierwszy krok. Droga od sprawnego robota testowego do niezawodnego, bezpiecznego i dostępnego cenowo asystenta w domu czy fabryce jest długa i usiana wyzwaniami – od kwestii energetycznych po niezawodność w tysiącach różnych środowisk. Otwarty charakter projektu budzi jednak ostrożny optymizm, bo jeśli społeczność badawcza rzeczywiście go podchwyci, możemy zaobserwować szybszy niż kiedykolwiek rozwój w dziedzinie, która od lat obiecuje więcej, niż jest w stanie dostarczyć.