AI Hardware25. Februar 20265 min read

Nvidia Vera Rubin: 5x schneller als Blackwell und 10x günstiger pro Token

CNBC erhielt einen exklusiven ersten Blick auf Nvidias Vera Rubin-System am Firmenhauptsitz in Santa Clara. Die KI-Plattform der nächsten Generation, die in der zweiten Jahreshälfte 2026 in die Serienproduktion geht, stellt einen generationellen Sprung gegenüber Blackwell dar, sowohl bei der Rohleistung als auch bei der Kosteneffizienz. Die Zahlen sind bedeutend genug, um die Planung und den Einsatz von KI-Infrastruktur grundlegend zu verändern.

Die Leistungszahlen

Die Rubin GPU liefert bis zu 50 PFLOPs NVFP4-Inferenz und 35 PFLOPs Training, etwa 5x beziehungsweise 3,5x höher als Blackwell. Auf Systemebene erreicht die Vera Rubin NVL72-Konfiguration (72 GPUs und 36 CPUs verbunden über NVLink 6) 3,6 EFLOPS Inferenz und 2,5 EFLOPS Training.

Aber die rohen FLOPS-Zahlen sind weniger wichtig als die Effizienzgewinne. Nvidia gibt eine 10-fache Reduzierung der Inferenz-Token-Kosten und eine 4-fache Reduzierung der benötigten GPU-Anzahl zum Training von Mixture-of-Experts (MoE)-Modellen im Vergleich zu Blackwell an. Für Organisationen, die große Sprachmodelle im großen Maßstab betreiben, übersetzt sich diese Kostenreduzierung direkt in niedrigere Betriebskosten oder die Möglichkeit, deutlich mehr Nutzer mit demselben Hardwarebudget zu bedienen.

Architektur: Sechs Chips, ein System

Vera Rubin ist nicht nur eine neue GPU. Es ist eine gemeinsam entworfene Plattform, die auf sechs neuen Chips aufbaut: der Rubin GPU, der Vera CPU, dem NVLink 6 Switch, der ConnectX-9 SuperNIC, der BlueField-4 DPU und dem Spectrum-6 Ethernet Switch. Jede Komponente wurde für das Zusammenspiel konzipiert, und genau daher stammen die Effizienzgewinne.

Die Rubin GPU selbst basiert auf TSMCs 3nm-Prozess und umfasst 336 Milliarden Transistoren auf zwei Reticle-großen Dies. Sie wechselt auf HBM4-Speicher mit bis zu 288 GB pro GPU und verdreifacht die Speicherbandbreite im Vergleich zu Blackwell nahezu auf 22 TB/s. NVLink 6 liefert 3,6 TB/s bidirektionale GPU-zu-GPU-Bandbreite und verdoppelt damit die vorherige Generation.

Die Vera CPU

Auf der CPU-Seite verwendet der Vera-Prozessor maßgeschneiderte Arm-basierte "Olympus"-Kerne mit 88 Kernen und 176 Threads dank Nvidias Spatial Multi-Threading-Technologie. Er unterstützt bis zu 1,5 TB LPDDR5x-Speicher mit 1,2 TB/s Bandbreite. Das vollständige NVL72-System kombiniert 20,7 TB HBM4-Kapazität mit 54 TB LPDDR5x, insgesamt über 74 TB adressierbarer Speicher.

Energieverbrauch und Effizienz

Vera Rubin verbraucht etwa doppelt so viel Energie wie ein Blackwell-System, liefert aber 10x mehr Leistung pro Watt. Dieser Effizienzgewinn ist entscheidend, weil die Stromverfügbarkeit zur primären Einschränkung beim Ausbau der KI-Infrastruktur wird. Rechenzentren sind zunehmend nicht durch Grundfläche oder Kapital begrenzt, sondern durch die Anzahl der Megawatt, die sie aus dem Netz beziehen können.

Eine 10-fache Verbesserung der Leistung pro Watt bedeutet, dass Organisationen dramatisch mehr Rechenleistung aus ihrer bestehenden Stromzuteilung gewinnen oder den gleichen Durchsatz mit einem Bruchteil des Energieverbrauchs erreichen können.

Lieferkette und Fertigung

Der Vera Rubin Superchip, der zwei Rubin GPUs und eine Vera CPU kombiniert, enthält rund 17.000 Komponenten von über 80 Zulieferern aus mindestens 20 Ländern. TSMC fertigt das primäre Silizium, aber das Gesamtsystem hängt von einer globalen Lieferkette ab, die Flüssigkühlung, Stromversorgung und Hochbandbreiten-Interconnects umfasst.

Verfügbarkeit

Nvidia-CEO Jensen Huang bestätigte, dass das System in Serienproduktion ist. Die ersten Cloud-Anbieter, die Vera Rubin-Instanzen bereitstellen werden, sind AWS, Google Cloud, Microsoft Azure und Oracle Cloud Infrastructure sowie die Nvidia Cloud Partner CoreWeave, Lambda, Nebius und Nscale. Die allgemeine Verfügbarkeit wird für die zweite Jahreshälfte 2026 erwartet.

Warum das für KI wichtig ist

Die 10-fache Reduzierung der Kosten pro Token ist die folgenreichste Zahl der gesamten Ankündigung. Trainings- und Inferenzkosten sind der primäre Engpass, der bestimmt, wie viele Organisationen große KI-Modelle entwickeln und einsetzen können. Wenn die Kosten für den Betrieb eines Modells um eine Größenordnung sinken, werden Anwendungen, die zuvor wirtschaftlich nicht tragfähig waren, realisierbar.

Dies hat nachgelagerte Auswirkungen auf jede KI-Anwendungskategorie: Videogenerierung wird pro Frame günstiger, Sprachmodelle können mehr gleichzeitige Nutzer bedienen, und multimodale Systeme, die Text-, Bild- und Videoverarbeitung kombinieren, werden im großen Maßstab praktikabler. Die Hardwareverbesserungen in Vera Rubin machen bestehende Arbeitslasten nicht nur schneller. Sie erweitern die Menge der Arbeitslasten, die wirtschaftlich möglich sind.