Nvidia Vera Rubin: 5x szybszy niż Blackwell i 10x tańszy na token

CNBC uzyskało wyłączny pierwszy wgląd w system Nvidia Vera Rubin w siedzibie firmy w Santa Clara. Platforma AI nowej generacji, która wchodzi w pełną produkcję w drugiej połowie 2026 roku, stanowi generacyjny skok w stosunku do Blackwell zarówno pod względem surowej wydajności, jak i efektywności kosztowej. Liczby są na tyle znaczące, że mogą zmienić sposób planowania i wdrażania infrastruktury AI.
Liczby wydajności
GPU Rubin zapewnia do 50 PFLOPs wnioskowania NVFP4 i 35 PFLOPs trenowania, czyli odpowiednio około 5x i 3,5x więcej niż Blackwell. Na poziomie systemu konfiguracja Vera Rubin NVL72 (72 GPU i 36 CPU połączone przez NVLink 6) osiąga 3,6 EFLOPS wnioskowania i 2,5 EFLOPS trenowania.
Ale surowa liczba FLOPS jest mniej ważna niż zyski efektywności. Nvidia twierdzi, że nastąpiła 10-krotna redukcja kosztów wnioskowania na token i 4-krotna redukcja liczby GPU potrzebnych do trenowania modeli mixture-of-experts (MoE) w porównaniu z Blackwell. Dla organizacji uruchamiających duże modele językowe na skalę ta redukcja kosztów bezpośrednio przekłada się na niższe koszty operacyjne lub możliwość obsługiwania znacznie większej liczby użytkowników przy tym samym budżecie sprzętowym.
Architektura: sześć chipów, jeden system
Vera Rubin to nie tylko nowy GPU. To współprojektowana platforma zbudowana wokół sześciu nowych chipów: GPU Rubin, CPU Vera, przełącznik NVLink 6, ConnectX-9 SuperNIC, DPU BlueField-4 i przełącznik Ethernet Spectrum-6. Każdy komponent został zaprojektowany do współpracy, i to właśnie stąd pochodzą zyski efektywności.
Sam GPU Rubin jest zbudowany w procesie 3nm TSMC i zawiera 336 miliardów tranzystorów na dwóch układach o rozmiarze retikla. Przechodzi na pamięć HBM4 z do 288GB na GPU i prawie potraja przepustowość pamięci w porównaniu z Blackwell, osiągając 22 TB/s. NVLink 6 zapewnia 3,6 TB/s dwukierunkowej przepustowości GPU-do-GPU, podwajając poprzednią generację.
Procesor Vera
Po stronie CPU procesor Vera wykorzystuje niestandardowe rdzenie oparte na architekturze Arm o nazwie "Olympus" z 88 rdzeniami i 176 wątkami dzięki technologii Spatial Multi-Threading firmy Nvidia. Obsługuje do 1,5 TB pamięci LPDDR5x z przepustowością 1,2 TB/s. Pełny system NVL72 łączy 20,7 TB pojemności HBM4 z 54 TB LPDDR5x, co daje łączne ponad 74 TB dostępnej pamięci.
Moc i efektywność
Vera Rubin zużywa mniej więcej dwa razy więcej energii niż system Blackwell, ale zapewnia 10x większą wydajność na wat. Ten zysk efektywności jest kluczowy, ponieważ dostępność energii staje się głównym ograniczeniem ekspansji infrastruktury AI. Centra danych są coraz bardziej ograniczone nie przez powierzchnię czy kapitał, ale przez to, ile megawatów mogą pobrać z sieci.
10-krotna poprawa wydajności na wat oznacza, że organizacje mogą uzyskać dramatycznie większą moc obliczeniową z istniejącego przydziału energii lub osiągnąć tę samą przepustowość przy ułamku zużycia energii.
Łańcuch dostaw i produkcja
Superchip Vera Rubin, który łączy dwa GPU Rubin i jeden CPU Vera, zawiera około 17 000 komponentów pozyskiwanych od ponad 80 dostawców z co najmniej 20 krajów. TSMC produkuje główny krzem, ale pełny system zależy od globalnego łańcucha dostaw obejmującego chłodzenie cieczowe, zasilanie i szybkie połączenia.
Dostępność
CEO Nvidii Jensen Huang potwierdził, że system jest w pełnej produkcji. Pierwszymi dostawcami chmurowymi, którzy wdrożą instancje Vera Rubin, będą AWS, Google Cloud, Microsoft Azure i Oracle Cloud Infrastructure, a także partnerzy Nvidia Cloud: CoreWeave, Lambda, Nebius i Nscale. Ogólna dostępność jest oczekiwana w drugiej połowie 2026 roku.
Dlaczego to ma znaczenie dla AI
10-krotna redukcja kosztu na token to najważniejsza liczba w całym ogłoszeniu. Koszty trenowania i wnioskowania są głównym wąskim gardłem ograniczającym liczbę organizacji, które mogą budować i wdrażać duże modele AI. Kiedy koszt uruchomienia modelu spada o rząd wielkości, aplikacje, które wcześniej były ekonomicznie nieopłacalne, stają się wykonalne.
Ma to wpływ na każdą kategorię zastosowań AI: generowanie wideo staje się tańsze na klatkę, modele językowe mogą obsługiwać więcej jednoczesnych użytkowników, a systemy multimodalne łączące przetwarzanie tekstu, obrazu i wideo stają się bardziej praktyczne na skalę. Ulepszenia sprzętowe w Vera Rubin nie tylko przyspieszają istniejące obciążenia robocze. Rozszerzają zbiór obciążeń, które są ekonomicznie możliwe.


