Nvidia Vera Rubin: 5 veces más rápido que Blackwell y 10 veces más barato por token

CNBC obtuvo un primer vistazo exclusivo al sistema Vera Rubin de Nvidia en la sede de la compañía en Santa Clara. La plataforma de IA de nueva generación, que entra en producción completa en la segunda mitad de 2026, representa un salto generacional respecto a Blackwell tanto en rendimiento bruto como en eficiencia de costes. Las cifras son lo suficientemente significativas como para transformar la forma en que se planifica y despliega la infraestructura de IA.
Las cifras de rendimiento
La GPU Rubin ofrece hasta 50 PFLOPs de inferencia NVFP4 y 35 PFLOPs de entrenamiento, aproximadamente 5 y 3,5 veces más que Blackwell respectivamente. A nivel de sistema, la configuración Vera Rubin NVL72 (72 GPUs y 36 CPUs conectadas mediante NVLink 6) alcanza 3,6 EFLOPS de inferencia y 2,5 EFLOPS de entrenamiento.
Pero la cifra bruta de FLOPS es menos importante que las mejoras en eficiencia. Nvidia afirma una reducción de 10 veces en el coste por token de inferencia y una reducción de 4 veces en el número de GPUs necesarias para entrenar modelos de mezcla de expertos (MoE) en comparación con Blackwell. Para las organizaciones que ejecutan modelos de lenguaje grandes a escala, esa reducción de costes se traduce directamente en menores gastos operativos o en la capacidad de atender a significativamente más usuarios con el mismo presupuesto de hardware.
Arquitectura: seis chips, un sistema
Vera Rubin no es solo una nueva GPU. Es una plataforma codiseñada construida en torno a seis chips nuevos: la GPU Rubin, la CPU Vera, el Switch NVLink 6, la SuperNIC ConnectX-9, la DPU BlueField-4 y el Switch Ethernet Spectrum-6. Cada componente fue diseñado para funcionar en conjunto, que es de donde provienen las mejoras en eficiencia.
La GPU Rubin está fabricada con el proceso de 3nm de TSMC e integra 336 mil millones de transistores en dos dies de tamaño retícula. Utiliza memoria HBM4 con hasta 288GB por GPU y casi triplica el ancho de banda de memoria en comparación con Blackwell, alcanzando 22 TB/s. NVLink 6 ofrece 3,6 TB/s de ancho de banda bidireccional GPU a GPU, duplicando la generación anterior.
La CPU Vera
En el lado de la CPU, el procesador Vera utiliza núcleos personalizados basados en Arm llamados "Olympus" con 88 núcleos y 176 hilos mediante la tecnología Spatial Multi-Threading de Nvidia. Admite hasta 1,5TB de memoria LPDDR5x con 1,2 TB/s de ancho de banda. El sistema NVL72 completo combina 20,7TB de capacidad HBM4 con 54TB de LPDDR5x, totalizando más de 74TB de memoria accesible.
Consumo y eficiencia
Vera Rubin consume aproximadamente el doble de energía que un sistema Blackwell, pero ofrece 10 veces más rendimiento por vatio. Esta mejora en eficiencia es crítica porque la disponibilidad de energía se está convirtiendo en la principal restricción para la expansión de la infraestructura de IA. Los centros de datos están cada vez más limitados no por el espacio físico o el capital, sino por cuántos megavatios pueden extraer de la red eléctrica.
Una mejora de 10 veces en rendimiento por vatio significa que las organizaciones pueden obtener dramáticamente más computación con su asignación de energía existente, o lograr el mismo rendimiento con una fracción del consumo energético.
Cadena de suministro y fabricación
El superchip Vera Rubin, que combina dos GPUs Rubin y una CPU Vera, contiene aproximadamente 17.000 componentes procedentes de más de 80 proveedores en al menos 20 países. TSMC fabrica el silicio principal, pero el sistema completo depende de una cadena de suministro global que abarca refrigeración líquida, suministro de energía e interconexiones de alto ancho de banda.
Disponibilidad
El CEO de Nvidia, Jensen Huang, confirmó que el sistema está en producción completa. Los primeros proveedores en la nube que desplegarán instancias de Vera Rubin serán AWS, Google Cloud, Microsoft Azure y Oracle Cloud Infrastructure, junto con los socios de Nvidia Cloud: CoreWeave, Lambda, Nebius y Nscale. La disponibilidad general se espera para la segunda mitad de 2026.
Por qué esto importa para la IA
La reducción de 10 veces en el coste por token es la cifra más relevante de todo el anuncio. Los costes de entrenamiento e inferencia son el principal cuello de botella que limita cuántas organizaciones pueden construir y desplegar grandes modelos de IA. Cuando el coste de ejecutar un modelo cae en un orden de magnitud, las aplicaciones que antes eran económicamente inviables se vuelven factibles.
Esto tiene efectos en cadena en todas las categorías de aplicaciones de IA: la generación de video se abarata por fotograma, los modelos de lenguaje pueden atender a más usuarios simultáneos, y los sistemas multimodales que combinan procesamiento de texto, imagen y video se vuelven más prácticos a escala. Las mejoras de hardware en Vera Rubin no solo hacen que las cargas de trabajo existentes sean más rápidas. Amplían el conjunto de cargas de trabajo que son económicamente posibles.


