Nvidia Vera Rubin: в 5 раз быстрее Blackwell и в 10 раз дешевле за токен

CNBC получил эксклюзивный первый взгляд на систему Nvidia Vera Rubin в штаб-квартире компании в Санта-Кларе. Платформа ИИ следующего поколения, которая выходит в полное производство во второй половине 2026 года, представляет собой поколенческий скачок по сравнению с Blackwell как по чистой производительности, так и по экономической эффективности. Цифры достаточно значительны, чтобы изменить подходы к планированию и развертыванию ИИ-инфраструктуры.
Показатели производительности
GPU Rubin обеспечивает до 50 PFLOPs инференса в формате NVFP4 и 35 PFLOPs обучения, что примерно в 5 и 3,5 раза выше, чем у Blackwell соответственно. На системном уровне конфигурация Vera Rubin NVL72 (72 GPU и 36 CPU, соединенных через NVLink 6) достигает 3,6 EFLOPS инференса и 2,5 EFLOPS обучения.
Однако абсолютное число FLOPS менее важно, чем прирост эффективности. Nvidia заявляет о 10-кратном снижении стоимости токена при инференсе и 4-кратном сокращении количества GPU, необходимых для обучения моделей mixture-of-experts (MoE) по сравнению с Blackwell. Для организаций, эксплуатирующих большие языковые модели в масштабе, это снижение затрат напрямую означает либо уменьшение операционных расходов, либо возможность обслуживать значительно больше пользователей при том же бюджете на оборудование.
Архитектура: шесть чипов, одна система
Vera Rubin представляет собой не просто новый GPU. Это совместно спроектированная платформа, построенная на шести новых чипах: GPU Rubin, CPU Vera, коммутатор NVLink 6, суперсетевая карта ConnectX-9 SuperNIC, DPU BlueField-4 и Ethernet-коммутатор Spectrum-6. Каждый компонент был разработан для совместной работы, и именно это обеспечивает прирост эффективности.
Сам GPU Rubin изготовлен по 3-нм техпроцессу TSMC и содержит 336 миллиардов транзисторов в двух кристаллах максимального размера. Он переходит на память HBM4 объемом до 288 ГБ на GPU и почти утраивает пропускную способность памяти по сравнению с Blackwell, достигая 22 ТБ/с. NVLink 6 обеспечивает двунаправленную пропускную способность GPU-GPU в 3,6 ТБ/с, удваивая показатели предыдущего поколения.
Процессор Vera
На стороне CPU процессор Vera использует кастомные ядра на базе Arm под названием "Olympus" с 88 ядрами и 176 потоками благодаря технологии Nvidia Spatial Multi-Threading. Он поддерживает до 1,5 ТБ памяти LPDDR5x с пропускной способностью 1,2 ТБ/с. Полная система NVL72 объединяет 20,7 ТБ ёмкости HBM4 с 54 ТБ LPDDR5x, что в сумме составляет более 74 ТБ доступной памяти.
Энергопотребление и эффективность
Vera Rubin потребляет примерно вдвое больше энергии, чем система Blackwell, но обеспечивает 10-кратную производительность на ватт. Этот прирост эффективности критически важен, поскольку доступность электроэнергии становится основным ограничением для расширения ИИ-инфраструктуры. Дата-центры все чаще ограничены не площадью или капиталом, а тем, сколько мегаватт они могут получить из электросети.
10-кратное улучшение производительности на ватт означает, что организации могут получить значительно больше вычислительной мощности в рамках существующего энергобюджета или достичь той же пропускной способности при существенно меньшем энергопотреблении.
Цепочка поставок и производство
Суперчип Vera Rubin, объединяющий два GPU Rubin и один CPU Vera, содержит около 17 000 компонентов от более чем 80 поставщиков из как минимум 20 стран. Основной кремний производит TSMC, но полная система зависит от глобальной цепочки поставок, охватывающей жидкостное охлаждение, системы питания и высокоскоростные интерконнекты.
Доступность
Генеральный директор Nvidia Дженсен Хуанг подтвердил, что система находится в полном производстве. Первыми облачными провайдерами, которые развернут экземпляры Vera Rubin, станут AWS, Google Cloud, Microsoft Azure и Oracle Cloud Infrastructure, а также партнеры Nvidia Cloud: CoreWeave, Lambda, Nebius и Nscale. Общая доступность ожидается во второй половине 2026 года.
Почему это важно для ИИ
10-кратное снижение стоимости за токен является самым значимым числом во всем анонсе. Стоимость обучения и инференса остается основным узким местом, ограничивающим количество организаций, способных создавать и развертывать крупные ИИ-модели. Когда стоимость работы модели падает на порядок, приложения, которые ранее были экономически нецелесообразны, становятся реализуемыми.
Это оказывает каскадный эффект на все категории ИИ-приложений: генерация видео становится дешевле за кадр, языковые модели могут обслуживать больше одновременных пользователей, а мультимодальные системы, объединяющие обработку текста, изображений и видео, становятся более практичными в масштабе. Аппаратные улучшения Vera Rubin не просто ускоряют существующие рабочие нагрузки. Они расширяют круг рабочих нагрузок, которые становятся экономически возможными.


