AI Hardware25 febbraio 20265 min read

Nvidia Vera Rubin: 5 volte più veloce di Blackwell e 10 volte meno costoso per token

CNBC ha ottenuto un'anteprima esclusiva del sistema Vera Rubin di Nvidia presso la sede dell'azienda a Santa Clara. La piattaforma AI di nuova generazione, che entrerà in piena produzione nella seconda metà del 2026, rappresenta un salto generazionale rispetto a Blackwell sia in termini di prestazioni grezze che di efficienza dei costi. I numeri sono abbastanza significativi da ridefinire il modo in cui l'infrastruttura AI viene pianificata e implementata.

I numeri delle prestazioni

La GPU Rubin offre fino a 50 PFLOPs di inferenza NVFP4 e 35 PFLOPs di addestramento, rispettivamente circa 5 volte e 3,5 volte superiori a Blackwell. A livello di sistema, la configurazione Vera Rubin NVL72 (72 GPU e 36 CPU collegate tramite NVLink 6) raggiunge 3,6 EFLOPS di inferenza e 2,5 EFLOPS di addestramento.

Ma il numero grezzo di FLOPS è meno importante dei guadagni in efficienza. Nvidia dichiara una riduzione di 10 volte nel costo dei token di inferenza e una riduzione di 4 volte nel numero di GPU necessarie per addestrare modelli mixture-of-experts (MoE) rispetto a Blackwell. Per le organizzazioni che gestiscono modelli linguistici di grandi dimensioni su larga scala, questa riduzione dei costi si traduce direttamente in spese operative inferiori o nella possibilità di servire un numero significativamente maggiore di utenti con lo stesso budget hardware.

Architettura: sei chip, un sistema

Vera Rubin non è solo una nuova GPU. È una piattaforma co-progettata costruita attorno a sei nuovi chip: la GPU Rubin, la CPU Vera, lo Switch NVLink 6, la SuperNIC ConnectX-9, il DPU BlueField-4 e lo Switch Ethernet Spectrum-6. Ogni componente è stato progettato per lavorare insieme, ed è da qui che derivano i guadagni in efficienza.

La GPU Rubin stessa è costruita sul processo a 3nm di TSMC e contiene 336 miliardi di transistor distribuiti su due die di dimensioni reticolo. Passa alla memoria HBM4 con fino a 288GB per GPU e quasi triplica la larghezza di banda della memoria rispetto a Blackwell a 22 TB/s. NVLink 6 fornisce 3,6 TB/s di larghezza di banda bidirezionale GPU-to-GPU, raddoppiando la generazione precedente.

La CPU Vera

Sul lato CPU, il processore Vera utilizza core personalizzati basati su Arm denominati "Olympus" con 88 core e 176 thread tramite la tecnologia Spatial Multi-Threading di Nvidia. Supporta fino a 1,5TB di memoria LPDDR5x con 1,2 TB/s di larghezza di banda. Il sistema completo NVL72 combina 20,7TB di capacità HBM4 con 54TB di LPDDR5x, per un totale di oltre 74TB di memoria accessibile.

Potenza ed efficienza

Vera Rubin utilizza circa il doppio della potenza di un sistema Blackwell ma offre 10 volte più prestazioni per watt. Questo guadagno in efficienza è fondamentale perché la disponibilità di energia sta diventando il vincolo principale per l'espansione dell'infrastruttura AI. I data center sono sempre più limitati non dallo spazio o dal capitale, ma da quanti megawatt possono prelevare dalla rete.

Un miglioramento di 10 volte nelle prestazioni per watt significa che le organizzazioni possono ottenere drasticamente più potenza di calcolo dalla loro allocazione energetica esistente, oppure raggiungere la stessa capacità con una frazione del consumo energetico.

Catena di approvvigionamento e produzione

Il superchip Vera Rubin, che combina due GPU Rubin e una CPU Vera, contiene circa 17.000 componenti provenienti da oltre 80 fornitori in almeno 20 paesi. TSMC fabbrica il silicio principale, ma il sistema completo dipende da una catena di approvvigionamento globale che comprende raffreddamento a liquido, alimentazione e interconnessioni ad alta larghezza di banda.

Disponibilità

Il CEO di Nvidia Jensen Huang ha confermato che il sistema è in piena produzione. I primi fornitori cloud a implementare le istanze Vera Rubin saranno AWS, Google Cloud, Microsoft Azure e Oracle Cloud Infrastructure, insieme ai Nvidia Cloud Partners CoreWeave, Lambda, Nebius e Nscale. La disponibilità generale è prevista per la seconda metà del 2026.

Perché questo conta per l'AI

La riduzione di 10 volte nel costo per token è il numero più importante dell'intero annuncio. I costi di addestramento e inferenza sono il principale collo di bottiglia che limita il numero di organizzazioni in grado di costruire e implementare grandi modelli AI. Quando il costo di esecuzione di un modello diminuisce di un ordine di grandezza, applicazioni precedentemente non sostenibili dal punto di vista economico diventano realizzabili.

Questo ha effetti a cascata su ogni categoria di applicazione AI: la generazione video diventa più economica per fotogramma, i modelli linguistici possono servire più utenti simultanei e i sistemi multimodali che combinano elaborazione di testo, immagini e video diventano più pratici su larga scala. I miglioramenti hardware di Vera Rubin non rendono semplicemente più veloci i carichi di lavoro esistenti. Espandono l'insieme dei carichi di lavoro economicamente possibili.