AI Hardware25 februari 20265 min read

Nvidia Vera Rubin: 5x sneller dan Blackwell en 10x goedkoper per token

CNBC kreeg een exclusieve eerste blik op Nvidia's Vera Rubin-systeem op het hoofdkantoor van het bedrijf in Santa Clara. Het volgende generatie AI-platform, dat in de tweede helft van 2026 in volledige productie gaat, vertegenwoordigt een generatiesprong ten opzichte van Blackwell in zowel ruwe prestaties als kostenefficiëntie. De cijfers zijn significant genoeg om te veranderen hoe AI-infrastructuur wordt gepland en ingezet.

De prestatiecijfers

De Rubin GPU levert tot 50 PFLOPs NVFP4-inferentie en 35 PFLOPs training, respectievelijk ongeveer 5x en 3,5x hoger dan Blackwell. Op systeemniveau bereikt de Vera Rubin NVL72-configuratie (72 GPU's en 36 CPU's verbonden via NVLink 6) 3,6 EFLOPS inferentie en 2,5 EFLOPS training.

Maar het ruwe FLOPS-getal is minder belangrijk dan de efficiëntiewinst. Nvidia claimt een 10x reductie in inferentie-tokenkosten en een 4x reductie in het aantal GPU's dat nodig is om mixture-of-experts (MoE) modellen te trainen vergeleken met Blackwell. Voor organisaties die grote taalmodellen op schaal draaien, vertaalt die kostenreductie zich direct in lagere operationele kosten of de mogelijkheid om aanzienlijk meer gebruikers te bedienen met hetzelfde hardwarebudget.

Architectuur: zes chips, een systeem

Vera Rubin is niet zomaar een nieuwe GPU. Het is een samen ontworpen platform gebouwd rond zes nieuwe chips: de Rubin GPU, Vera CPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU en Spectrum-6 Ethernet Switch. Elk onderdeel is ontworpen om samen te werken, en daar komen de efficiëntiewinsten vandaan.

De Rubin GPU zelf is gebouwd op TSMC's 3nm-proces en bevat 336 miljard transistors verdeeld over twee reticle-grote dies. Het stapt over op HBM4-geheugen met tot 288GB per GPU en verdrievoudigt bijna de geheugenbandbreedte vergeleken met Blackwell op 22 TB/s. NVLink 6 levert 3,6 TB/s bidirectionele GPU-naar-GPU bandbreedte, een verdubbeling ten opzichte van de vorige generatie.

De Vera CPU

Aan de CPU-kant gebruikt de Vera-processor aangepaste Arm-gebaseerde "Olympus"-cores met 88 cores en 176 threads via Nvidia's Spatial Multi-Threading-technologie. Het ondersteunt tot 1,5TB LPDDR5x-geheugen met 1,2 TB/s bandbreedte. Het volledige NVL72-systeem combineert 20,7TB HBM4-capaciteit met 54TB LPDDR5x, in totaal meer dan 74TB toegankelijk geheugen.

Vermogen en efficiëntie

Vera Rubin gebruikt ruwweg twee keer zoveel vermogen als een Blackwell-systeem, maar levert 10x meer prestaties per watt. Deze efficiëntiewinst is cruciaal omdat beschikbaarheid van stroom de primaire beperking wordt voor de uitbreiding van AI-infrastructuur. Datacenters worden steeds vaker niet beperkt door vloeroppervlak of kapitaal, maar door hoeveel megawatt ze van het net kunnen trekken.

Een 10x verbetering in prestaties per watt betekent dat organisaties dramatisch meer rekenkracht kunnen halen uit hun bestaande stroomtoewijzing, of dezelfde doorvoer kunnen bereiken met een fractie van het energieverbruik.

Toeleveringsketen en productie

De Vera Rubin superchip, die twee Rubin GPU's en een Vera CPU combineert, bevat ongeveer 17.000 onderdelen afkomstig van meer dan 80 leveranciers in minstens 20 landen. TSMC fabriceert het primaire silicium, maar het volledige systeem is afhankelijk van een wereldwijde toeleveringsketen die vloeistofkoeling, stroomlevering en hoge-bandbreedte interconnects omvat.

Beschikbaarheid

Nvidia CEO Jensen Huang bevestigde dat het systeem in volledige productie is. De eerste cloudproviders die Vera Rubin-instanties zullen inzetten zijn AWS, Google Cloud, Microsoft Azure en Oracle Cloud Infrastructure, samen met Nvidia Cloud Partners CoreWeave, Lambda, Nebius en Nscale. Algemene beschikbaarheid wordt verwacht in de tweede helft van 2026.

Waarom dit belangrijk is voor AI

De 10x reductie in kosten per token is het meest consequentiële cijfer in de hele aankondiging. Training- en inferentiekosten zijn de primaire bottleneck die beperkt hoeveel organisaties grote AI-modellen kunnen bouwen en inzetten. Wanneer de kosten voor het draaien van een model met een orde van grootte dalen, worden toepassingen die eerder economisch onhaalbaar waren, haalbaar.

Dit heeft doorwerkende effecten in elke AI-toepassingscategorie: videogeneratie wordt goedkoper per frame, taalmodellen kunnen meer gelijktijdige gebruikers bedienen, en multimodale systemen die tekst, beeld en videoverwerking combineren worden praktischer op schaal. De hardwareverbeteringen in Vera Rubin maken bestaande workloads niet alleen sneller. Ze vergroten de set van workloads die economisch mogelijk zijn.