NVIDIA Blackwell – moc obliczeniowa dla AI, architektura pod lupą
Zmiany w paradygmacie konstrukcyjnym mają oczywiście głębokie uzasadnienie – coraz częściej bowiem tworzenie grafiki staje się zadaniem nawet dla konsumenckich GPU.
Nowa architektura przynosi bowiem szereg kluczowych innowacji, począwszy od fundamentalnych zmian w budowie samych chipów, poprzez rewolucyjne wsparcie dla obliczeń w 4-bitowej precyzji zmiennoprzecinkowej (FP4), aż po konkretne zastosowania w ramach komputerów RTX AI PC.
Po co komu obliczenia niższej precyzji, czyli FP4?
Wprowadzenie do architektury Blackwell wsparcia dla 4-bitowej precyzji zmiennoprzecinkowej (FP4) okazuje się jedną z najbardziej istotnych innowacji. Jak się bowiem okazuje, w kontekście sztucznej inteligencji często okazuje się bowiem, że mniejsza precyzja nie zawsze oznacza nieakceptowalną utratę jakości wyników, natomiast wzrost masy przetworzonych danych przekłada się na ogólną sprawność modelu.

Teoretyczny wzrost przepustowości operacji matematycznych jest imponujący – GeForce RTX 5090 w FP4 może zaoferować nawet 16-krotnie wyższą przepustowość w porównaniu do precyzji FP32 i 4-krotnie wyższą w stosunku do FP8. W przypadku akceleratorów dla centrów danych, takich jak B200, mówimy o wydajności 18 PFLOPS w FP4 wobec 9 PFLOPS w FP8/FP6.
Obliczenia FP4 oznaczają także znaczącą redukcję wymagań co do pamięci operacyjnej oraz pamięci podręcznej, a także mniejsze obciążenie magistrali pamięci. A to pozwala na uruchamianie większych i bardziej złożonych modeli AI na już dostępnym sprzęcie.
Mniejsza ilość danych do przetworzenia i przesłania przekłada się także na potencjalnie niższe zużycie energii na pojedynczą operację i w efekcie na całościowy pobór mocy.
Praktyczne przykłady wzrostu wydajności dzięki FP4 są dobitne. Generowanie obrazów z pomocą modelu FLUX na RTX 5090 to jeden z najbardziej widocznych. W przypadku modelu FLUX.1-dev czas generowania obrazu w precyzji FP4 wynosił 3852 ms, podczas gdy w FP8 było to 6680 ms (około 1,73× szybciej na korzyść FP4). Dla uproszczonego modelu FLUX.1-schnell czasy te wynosiły odpowiednio 590 ms (FP4) i 912 ms (FP8), co daje przyspieszenie rzędu 1,54×. Przejście na FP4 pozwoliło również zredukować zapotrzebowanie na pamięć VRAM dla modelu FLUX z 24,6 GB (FP8) do 21,67 GB (FP4) w trybie domyślnym, a w trybie oszczędzania pamięci (low-VRAM) z 14,9 GB do zaledwie 11,1 GB.
O co ten hałas z RTX AI PC?
Koncepcja RTX AI PC, czyli komputera osobistego ze sztuczną inteligencją, kiełkowała już po premierze układów Ada Lovelace. Z architekturą Blackwell nabrała realnych kształtów. Wzrost znaczenia AI w codziennych zastosowaniach przesuwa środek ciężkości – to GPU staje się centralnym procesorem dla zadań na komputerze osobistym. Wprowadzenie dedykowanego procesora AI Management Processor (AMP) jest tego mocnym dowodem. AMP, będący procesorem RISC-V, odpowiada za harmonogram zadań AI (modele językowe, generowanie muzyki, analiza obrazu itp.) wykonywanych równolegle z tradycyjnymi obciążeniami graficznymi. Tym samym główny procesor (CPU) systemu zostaje z tej funkcji zwolniony.

Zanim przejdziemy do AI, warto pokrótce opisać karty graficzne GeForce RTX serii 50xx, takie jak RTX 5090, RTX 5080, RTX 5070 Ti czy RTX 5070. Używają architektury Blackwell, wyposażone są w pamięć GDDR7, rdzenie Tensor 5. generacji oraz rdzenie RT 4. generacji, otwierając nowe możliwości w dziedzinie grafiki i gier komputerowych. Kluczową technologią jest tu NVIDIA DLSS 4 (Deep Learning Super Sampling), poprawiająca płynność rozgrywki przez generowanie dodatkowych klatek. Równie rewolucyjne wydają się technologie RTX Neural Shaders oraz RTX Neural Materials. Polegają one na integracji niewielkich, wyspecjalizowanych sieci neuronowych bezpośrednio z programowalnymi shaderami, co zobaczymy jako materiały na obiektach. Ulepszone rdzenie RT 4 generacji zaś błysną w czasie renderowania złożonych scen 3D, w tym pełnych detali włosów i futra.
Dzięki dużej ilości szybkiej pamięci VRAM oraz wydajności rdzeni Tensor w obliczeniach FP4, komputery RTX AI PC są wszechstronnymi narzędziami, dostępnymi dla wszystkich, bez względu na poziom wiedzy programistycznej. Dostęp do modeli AI ułatwiają bowiem mikroserwisy, czyli NVIDIA NIM (NVIDIA Inference Microservices). Dostarczają one zoptymalizowane modele AI gotowe do użycia w popularnych aplikacjach. Można tu znaleźć duże i małe modele językowe do tłumaczeń, wnioskowania i czatbotów. Są tu też modele do pracy z mową, dźwiękiem, animacją, obrazem, materiałami wideo, scenami 3D, modele używane do rozpoznawania obrazu przez komputer, do wizualizacji danych i wiele innych. Na liście aplikacji, w których można je wykorzystać, znajdują się między innymi AnythingLLM, ComfyUI, LM Studio, FlowiseAI czy Microsoft VS Code z AI Toolkit.
Komputery z rodziny RTX AI umożliwiają między innymi lokalne uruchamianie i dostrajanie różnych modeli AI. W przypadku dużych modeli językowych (LLM) nie potrzeba zasobów chmury ani nawet połączenia z internetem do pracy, co pozwoli zachować dane z ważnych dokumentów i kod źródłowy aplikacji dla siebie. Lokalnie można też na przykład korzystać z AI do generowania grafiki na podstawie opisu z pomocą NIM z modelem Stable Diffusion, co daje szersze możliwości od usługi online.
W pracach kreatywnych nieocenioną pomocą będą modele odpowiedzialne za rozpoznawanie i wycinanie obiektów z kadrów filmowych, co znacznie ułatwi tworzenie atrakcyjnych efektów. Inna rodzina modeli może na przykład wygenerować oświetlenie dla projektu mieszkania i poprawić starą grę. Mikroserwis z modelem usuwającym szumy tła uchwycone przez mikrofon znacznie poprawi jakość streamów i rozmów wideo z rodziną. Przykłady można mnożyć, a ogranicza nas tylko wyobraźnia.
Najlepsze jest to, że mikroserwisy NIM są dostępne na wyciągnięcie ręki dzięki mechanizmowi Blueprintów. To gotowe szablony narzędzi, które mogą wykorzystać osoby nieobeznane z programowaniem w swojej pracy. Dzięki nim można w swoim ulubionym programie użyć wielu modeli AI, by wykonać konkretne zadanie. Pod spodem znajdują się oczywiście mikroserwisy NIM z wybranymi i wstępnie przeszkolonymi modelami AI. To świetna odpowiedź firmy NVIDIA na rosnące zapotrzebowanie na szybkie wdrożenia.
Jako przykład może posłużyć Blueprint na „cyfrowego człowieka” – awatar 2D lub 3D, z którym będzie można porozmawiać na przykład na infolinii. W tym procesie wykorzystuje się mikroserwis z modelem językowym, który będzie odpowiadał za prowadzenie rozmowy, NIM przetwarzający obraz z kamery na mimikę awatara, co pozwoli zaprojektować jego zachowanie, a także NIM z modelem do transkrypcji.

W tym przypadku wszystkie modele, pracujące na kolejnych etapach tworzenia awatara, można uruchomić lokalnie lub w chmurze. Dołączona dokumentacja zaś pomoże łatwo wprowadzić Blueprint do środowiska pracy. Co ważne, modele będą uczyć się w miarę pracy, bo każda interakcja to nowe informacje o tym, czego się od nich oczekuje. Wspomniany tu czatbot nie tylko powstanie szybko, ale też coraz lepiej będzie odpowiadał na zadawane mu pytania.
NVIDIA zapowiedziała, że będzie regularnie udostępniać kolejne scenariusze wykorzystania AI jako Blueprinty. Oczywiście taki Blueprint każdy może stworzyć sam – czy to na własne potrzeby, dla swojej firmy bądź dla społeczności, z użyciem już dostępnych materiałów lub od zera. Trzeba do tego zaprojektować proces wykonania zadania z wybranymi mikroserwisami i modelami AI, a następnie odpowiednio go opisać. Inni użytkownicy będą mogli skorzystać z Blueprintów i nie przechodzić ponownie przez ten sam proces. To daje sporą przewagę na start i powinno zaoszczędzić wszystkim mnóstwo czasu na dłuższą metę.
Blueprint, który wprowadzi Cię w świat NIM
Na liście dostępnych już Blueprintów można znaleźć przeróżne zastosowania, od zamiany pliku PDF na wysokiej jakości podcast po analizę genomu. Większość z dostępnych obecnie szablonów przeznaczona jest dla wąskich grup odbiorców, ale jest jeden, którym może pobawić się niemal każdy – wystarczy nieco obeznania z grafiką 3D, karta z przynajmniej 16 GB VRAM i przynajmniej 48 GB RAM. Blueprint ten pozwala wykorzystać AI do tworzenia trójwymiarowych scen z opisu. Można wykorzystać go podczas pracy między innymi w darmowym Blenderze.
Na wstępie trzeba zaznaczyć, że tworzenie sceny z opisu nie jest szczególnym wyzwaniem. Problemy zaczynają się, gdy trzeba model AI poinstruować, gdzie dokładnie mają znajdować się opisane obiekty i pod jakim kątem ma na nie patrzeć kamera. Wprowadzanie poprawek też jest problematyczne. W zaawansowanym środowisku można do tego użyć narzędzi typu ControlNet, dokładających kolejne warunki i zmieniających wagi w procesie decyzyjnym sztucznej sieci neuronowej. Korzystanie z nich jednak przerasta przeciętnego użytkownika.
Właśnie tu do akcji wchodzi Blueprint, udostępniony niedawno przez firmę NVIDIA. Trzeba przyznać, że jest on szalenie pomysłowy. Na początek potrzebna jest prosta scena, stworzona w Blenderze. Wystarczą bryły bez detali (mogą być wygenerowane przez AI) i kamera umieszczona w odpowiednim miejscu. Na tym etapie nie ma potrzeby, by zajmować się materiałami i światłem.

Trójwymiarowa scena, a konkretnie obraz z wirtualnej kamery, która będzie na niej umieszczona, posłużą do stworzenia finalnego kadru i mapy głębi. To dzięki tym informacjom model AI generujący finalny obraz będzie wiedział, co ma być gdzie. Dane te zostaną przekazane do NIM z modelem generującym obrazy FLUX.1-dev, który można uruchomić lokalnie na RTX AI PC i będą dodatkowymi wskazówkami. Potrzebny jest jeszcze opis sceny i oświetlenia… i gotowe.
Jeśli kompozycja wymaga poprawek, można je szybko wprowadzić w Blenderze i wygenerować obraz ponownie. Promptem zaś można zmienić światło, porę dnia, nastrój i styl finalnego obrazu. Wprowadzanie zmian jest banalnie proste, ale precyzyjne.
Blueprint NVIDII łączy najlepsze elementy z dwóch światów. W trójwymiarowym środowisku można w kilka minut przygotować „szkic” sceny, ale modelowanie i oświetlanie to już całe dnie pracy. AI zaś poradzi sobie z dopasowaniem efektów i nastroju, jednak próby zmuszenia modelu, by wygenerował scenę z dokładnie takim układem brył, jaki sobie wymyślę, to żmudne godziny prób i błędów. Blueprint korzysta więc z elastyczności środowiska 3D i potęgi AI generującej obraz.
Jeśli okrasić te elementy elastycznością NIM i dodać szczyptę potęgi architektury Blackwell – mamy przepis na sukces. Do tego wcale nie jest to przepis skomplikowany.
Podsumowanie: przyszłość napędzana przez Blackwell
Architektura NVIDIA Blackwell stanowi kamień milowy w rozwoju technologii procesorów graficznych i sztucznej inteligencji. Jej kluczowe zalety to rewolucyjna wydajność w zadaniach AI dzięki precyzji FP4, zaawansowane możliwości graficzne w komputerach RTX AI PC (m.in dzięki DLSS 4 i Neural Shaders), oraz wszechstronność i skalowalność, pozwalające na użycie zasadniczo tej samej architektury zarówno w prostym domowym komputerze, jak i w centrum danych.
Sprzęt byłby jednak niczym bez wsparcia w oprogramowaniu. Blackwell to kompletna platforma, w skład której wchodzą narzędzia takie jak TensorRT, biblioteki CUDA i liczne mikrousługi NVIDIA NIM. Współpraca sprzętu i oprogramowania jest kluczem do pełnego wykorzystania potencjału nowej architektury i stanowi o jej sile na rynku. NVIDIA dąży do tego, by płynność oprogramowania działającego na platformie oderwać od surowej mocy obliczeniowej karty. Czynnikiem decydującym ma być jakość modelu AI, odpowiedzialnego za konkretne zadania.