Nvidia Vera Rubin : 5x plus rapide que Blackwell et 10x moins cher par token

CNBC a obtenu un premier aperçu exclusif du système Vera Rubin de Nvidia au siège de l'entreprise à Santa Clara. La plateforme IA de nouvelle génération, qui entre en production complète au second semestre 2026, représente un bond générationnel par rapport à Blackwell tant en performance brute qu'en efficacité des coûts. Les chiffres sont suffisamment significatifs pour remodeler la planification et le déploiement des infrastructures IA.
Les chiffres de performance
Le GPU Rubin offre jusqu'à 50 PFLOPs d'inférence NVFP4 et 35 PFLOPs d'entraînement, soit respectivement environ 5x et 3,5x plus que Blackwell. Au niveau système, la configuration Vera Rubin NVL72 (72 GPU et 36 CPU connectés via NVLink 6) atteint 3,6 EFLOPS d'inférence et 2,5 EFLOPS d'entraînement.
Mais le chiffre brut de FLOPS est moins important que les gains d'efficacité. Nvidia annonce une réduction de 10x du coût des tokens d'inférence et une réduction de 4x du nombre de GPU nécessaires pour entraîner des modèles à mélange d'experts (MoE) par rapport à Blackwell. Pour les organisations exécutant des grands modèles de langage à grande échelle, cette réduction des coûts se traduit directement par des dépenses d'exploitation réduites ou la capacité de servir significativement plus d'utilisateurs avec le même budget matériel.
Architecture : six puces, un système
Vera Rubin n'est pas simplement un nouveau GPU. C'est une plateforme co-conçue construite autour de six nouvelles puces : le GPU Rubin, le CPU Vera, le Switch NVLink 6, le SuperNIC ConnectX-9, le DPU BlueField-4 et le Switch Ethernet Spectrum-6. Chaque composant a été conçu pour fonctionner ensemble, et c'est de là que proviennent les gains d'efficacité.
Le GPU Rubin lui-même est fabriqué avec le procédé 3nm de TSMC et contient 336 milliards de transistors répartis sur deux dies de taille réticule. Il passe à la mémoire HBM4 avec jusqu'à 288 Go par GPU et triple pratiquement la bande passante mémoire par rapport à Blackwell, à 22 To/s. NVLink 6 offre 3,6 To/s de bande passante bidirectionnelle GPU-à-GPU, doublant la génération précédente.
Le CPU Vera
Côté CPU, le processeur Vera utilise des cœurs personnalisés basés sur Arm, appelés "Olympus", avec 88 cœurs et 176 threads grâce à la technologie Spatial Multi-Threading de Nvidia. Il supporte jusqu'à 1,5 To de mémoire LPDDR5x avec 1,2 To/s de bande passante. Le système complet NVL72 combine 20,7 To de capacité HBM4 avec 54 To de LPDDR5x, pour un total de plus de 74 To de mémoire accessible.
Puissance et efficacité
Vera Rubin utilise environ deux fois la puissance d'un système Blackwell mais offre 10x plus de performance par watt. Ce gain d'efficacité est crucial car la disponibilité énergétique devient la contrainte principale de l'expansion des infrastructures IA. Les centres de données sont de plus en plus limités non pas par l'espace au sol ou le capital, mais par le nombre de mégawatts qu'ils peuvent tirer du réseau électrique.
Une amélioration de 10x de la performance par watt signifie que les organisations peuvent obtenir considérablement plus de puissance de calcul à partir de leur allocation énergétique existante, ou atteindre le même débit avec une fraction de la consommation énergétique.
Chaîne d'approvisionnement et fabrication
Le superpuce Vera Rubin, qui combine deux GPU Rubin et un CPU Vera, contient environ 17 000 composants provenant de plus de 80 fournisseurs dans au moins 20 pays. TSMC fabrique le silicium principal, mais le système complet dépend d'une chaîne d'approvisionnement mondiale couvrant le refroidissement liquide, l'alimentation électrique et les interconnexions à haut débit.
Disponibilité
Le PDG de Nvidia, Jensen Huang, a confirmé que le système est en production complète. Les premiers fournisseurs cloud à déployer des instances Vera Rubin seront AWS, Google Cloud, Microsoft Azure et Oracle Cloud Infrastructure, ainsi que les partenaires Nvidia Cloud CoreWeave, Lambda, Nebius et Nscale. La disponibilité générale est prévue pour le second semestre 2026.
Pourquoi c'est important pour l'IA
La réduction de 10x du coût par token est le chiffre le plus conséquent de toute l'annonce. Les coûts d'entraînement et d'inférence sont le principal goulot d'étranglement limitant le nombre d'organisations pouvant construire et déployer de grands modèles IA. Quand le coût d'exécution d'un modèle baisse d'un ordre de grandeur, des applications qui étaient auparavant économiquement inviables deviennent réalisables.
Cela a des effets en cascade sur chaque catégorie d'application IA : la génération vidéo devient moins coûteuse par image, les modèles de langage peuvent servir plus d'utilisateurs simultanément, et les systèmes multimodaux combinant traitement de texte, d'image et de vidéo deviennent plus pratiques à grande échelle. Les améliorations matérielles de Vera Rubin ne font pas qu'accélérer les charges de travail existantes. Elles élargissent l'ensemble des charges de travail économiquement possibles.


