Nvidia Vera Rubin: 5x Mais Rápido Que Blackwell e 10x Mais Barato Por Token

A CNBC obteve um acesso exclusivo ao sistema Vera Rubin da Nvidia na sede da empresa em Santa Clara. A plataforma de IA de próxima geração, que entra em produção total no segundo semestre de 2026, representa um salto geracional em relação ao Blackwell tanto em desempenho bruto quanto em eficiência de custo. Os números são significativos o suficiente para remodelar como a infraestrutura de IA é planejada e implantada.
Os Números de Desempenho
A GPU Rubin entrega até 50 PFLOPs de inferência NVFP4 e 35 PFLOPs de treinamento, aproximadamente 5x e 3,5x maiores que o Blackwell, respectivamente. No nível do sistema, a configuração Vera Rubin NVL72 (72 GPUs e 36 CPUs conectadas via NVLink 6) alcança 3,6 EFLOPS de inferência e 2,5 EFLOPS de treinamento.
Porém, o número bruto de FLOPS é menos importante do que os ganhos de eficiência. A Nvidia afirma uma redução de 10x no custo de tokens de inferência e uma redução de 4x no número de GPUs necessárias para treinar modelos mixture-of-experts (MoE) em comparação com o Blackwell. Para organizações que executam grandes modelos de linguagem em escala, essa redução de custo se traduz diretamente em menores despesas operacionais ou na capacidade de atender significativamente mais usuários com o mesmo orçamento de hardware.
Arquitetura: Seis Chips, Um Sistema
Vera Rubin não é apenas uma nova GPU. É uma plataforma co-projetada construída em torno de seis novos chips: a GPU Rubin, CPU Vera, Switch NVLink 6, SuperNIC ConnectX-9, DPU BlueField-4 e Switch Ethernet Spectrum-6. Cada componente foi projetado para funcionar em conjunto, e é daí que vêm os ganhos de eficiência.
A GPU Rubin em si é construída no processo de 3nm da TSMC e contém 336 bilhões de transistores em dois dies de tamanho de retícula. Ela migra para memória HBM4 com até 288GB por GPU e quase triplica a largura de banda de memória em comparação com o Blackwell, alcançando 22 TB/s. O NVLink 6 entrega 3,6 TB/s de largura de banda bidirecional GPU-para-GPU, dobrando a geração anterior.
A CPU Vera
No lado da CPU, o processador Vera utiliza núcleos "Olympus" customizados baseados em Arm, com 88 núcleos e 176 threads via a tecnologia Spatial Multi-Threading da Nvidia. Ele suporta até 1,5TB de memória LPDDR5x com 1,2 TB/s de largura de banda. O sistema NVL72 completo combina 20,7TB de capacidade HBM4 com 54TB de LPDDR5x, totalizando mais de 74TB de memória acessível.
Energia e Eficiência
O Vera Rubin consome aproximadamente o dobro da energia de um sistema Blackwell, mas entrega 10x mais desempenho por watt. Esse ganho de eficiência é fundamental porque a disponibilidade de energia está se tornando a principal restrição para a expansão da infraestrutura de IA. Os data centers estão cada vez mais limitados não pelo espaço físico ou capital, mas pela quantidade de megawatts que podem consumir da rede elétrica.
Uma melhoria de 10x no desempenho por watt significa que as organizações podem obter dramaticamente mais computação com sua alocação de energia existente, ou alcançar a mesma capacidade com uma fração do consumo de energia.
Cadeia de Suprimentos e Fabricação
O superchip Vera Rubin, que combina duas GPUs Rubin e uma CPU Vera, contém aproximadamente 17.000 componentes fornecidos por mais de 80 fornecedores em pelo menos 20 países. A TSMC fabrica o silício principal, mas o sistema completo depende de uma cadeia de suprimentos global que abrange refrigeração líquida, fornecimento de energia e interconexões de alta largura de banda.
Disponibilidade
O CEO da Nvidia, Jensen Huang, confirmou que o sistema está em produção total. Os primeiros provedores de nuvem a implantar instâncias Vera Rubin serão AWS, Google Cloud, Microsoft Azure e Oracle Cloud Infrastructure, juntamente com os Nvidia Cloud Partners CoreWeave, Lambda, Nebius e Nscale. A disponibilidade geral é esperada para o segundo semestre de 2026.
Por Que Isso Importa para a IA
A redução de 10x no custo por token é o número mais importante de todo o anúncio. Os custos de treinamento e inferência são o principal gargalo que limita quantas organizações podem construir e implantar grandes modelos de IA. Quando o custo de executar um modelo cai em uma ordem de grandeza, aplicações que antes eram economicamente inviáveis se tornam possíveis.
Isso tem efeitos cascata em todas as categorias de aplicações de IA: a geração de vídeo fica mais barata por quadro, modelos de linguagem podem atender mais usuários simultâneos, e sistemas multimodais que combinam processamento de texto, imagem e vídeo se tornam mais práticos em escala. As melhorias de hardware do Vera Rubin não apenas tornam as cargas de trabalho existentes mais rápidas. Elas expandem o conjunto de cargas de trabalho que são economicamente possíveis.


