返回趨勢情報
趨勢情報

NVIDIA 把「每 token 成本」搬上舞台:Vera Rubin NVL72 以 AI 工廠思維重寫推論競爭

NVIDIA Puts Cost-Per-Token Front and Center With Vera Rubin NVL72, Reframing Inference as an AI Factory Game

2026年4月2日
易賺Ai團隊
9 分鐘閱讀
#AI新聞#趨勢#NVIDIA#GPU#推論#資料中心
NVIDIA 把「每 token 成本」搬上舞台:Vera Rubin NVL72 以 AI 工廠思維重寫推論競爭

NVIDIA 把「每 token 成本」搬上舞台:Vera Rubin NVL72 以 AI 工廠思維重寫推論競爭

如果你把 2026 的生成式算力戰當成「誰的 GPU 參數更漂亮」來看,會很容易錯過 NVIDIA 這次最強的訊號:它想把企業採購的討論焦點,從規格表移到財務模型。這就是為什麼在 GTC 的敘事裡,「每 token 的成本」被反覆拿出來講——它被推到舞台正中央,成了最容易被財務部門拿去算帳的那個指標。

NVIDIA 對 Vera Rubin 平台(以及最醒目的整櫃級配置 Vera Rubin NVL72)的宣稱很直接:推論吞吐(尤其是「每瓦吞吐」)最高提升到 Blackwell 的 10 倍;在特定模型與序列長度設定下,推論「每百萬 tokens 成本」可以降到十分之一。它同時把資料中心描述成一座「AI 工廠」,輸入是電力、冷卻與晶片,輸出是可販售的 token 產能。

Vera Rubin NVL72 是什麼:把 GPU、CPU、網路、DPU 直接當成同一個產品

Vera Rubin NVL72 不是一張卡或一顆晶片的更新,而是「整櫃」級別的系統:72 顆 Rubin GPU、36 顆 Vera CPU,加上網路、DPU 與整套機櫃級互連,目標是把推論這件事做成可預測、可複製、可擴張的產線。

這個定義很重要,因為它把競爭位置往上抬了一層:你如果只比 GPU,容易落入「幾 TFLOPS、幾 GB HBM」的口水戰;但當 NVIDIA 把「整櫃」直接拿來賣,你就得回答更難的問題:你的系統在同樣的電力、同樣的機房條件下,能不能吐出一樣多的 tokens?

對一般讀者來說,可以把它理解成:模型不是跑在「某張顯卡」上,而是跑在一個被設計成專門生產 token 的流水線上。你買的不是硬體零件,而是一座小型工廠的產能切片。

把「每百萬 tokens 成本」當 KPI:為什麼這個指標比你想像中更政治

過去談推論成本,常常會卡在「你到底用什麼模型、什麼 batch、什麼長上下文、什麼量化」的細節泥沼。但 NVIDIA 的做法是把這些細節「收進同一個被指名的測試條件」裡,然後把結果做成一句能被 CFO 聽懂的話:成本砍到十分之一。

官方文件把這個「十分之一」綁定在特定模型與序列長度條件(例如以 Kimi-K2-Thinking 的 32K/8K 輸入輸出設定為例)——這也提醒你:這不是普遍真理,而是一個「在指定工作負載上」的主張。但即使如此,它仍然足夠有殺傷力,因為企業採購的第一個問題往往不是「你在某個基準上贏了幾分」,而是「我每月會被 Token 帳單打到多痛」。

當 NVIDIA 把 cost-per-token 講到像是通用 KPI,本質上是在推動產業把推論競爭標準化,讓不同供應商更難躲在各自的測試設定後面。誰先把 KPI 定義權拿走,誰就更容易決定「什麼才算快」。

10 倍「每瓦吞吐」的背後:算力戰正在被電力與冷卻接管

另一個被反覆強調的指標是「每瓦推論吞吐」——也就是同樣的功耗,你能吐出多少 tokens。這個指標聽起來像工程細節,但它直接連到資料中心的現實:電力供應、冷卻能力、機房擴建週期,已經成為 AI 擴張的主要瓶頸。

也因此 NVIDIA 才會用「AI 工廠」去描述資料中心:你不是在買更強的工具,而是在擴建一條產線。產線的上限不是你想買多少卡,而是你能不能拿到更多電、更多機房、更多網路與更多冷卻。

如果你把這段話翻譯成商業語言,就會變成:推論市場接下來的競爭,不只是模型公司彼此打價格,也不只是雲端平台打折,而是誰能把「從電力到 token」的轉換效率再拉高一個檔次。

「Agentic AI」被當成下一個吞吐驅動器:為什麼長上下文會變成成本炸彈

NVIDIA 在介紹 Rubin 時,把「agentic AI」放在很前面。理由不難猜:代理型工作流(多步驟、會呼叫工具、會反覆閱讀狀態)天然會把 token 用量推高,尤其當它搭配長上下文。

這裡的矛盾是:代理越好用,token 消耗越像漏水的水管。你可能會得到更高的任務完成率,但也會得到更高、且更難預測的成本曲線。對企業來說,這會逼出兩種決策:

第一種是「我只要效果,成本交給供應商競價」;第二種是「我需要把成本控在可預算範圍,所以我需要更可衡量、可控的基建」。

Rubin NVL72 的敘事,明顯是瞄準第二種人:把 token 產能變成你可以像買電、買帶寬那樣採購的東西。當你把 agent 工作流放大到整個組織,這種敘事就會開始變得有吸引力。

供應鏈不是只有硬體:NVIDIA 同步把 GPU 排程「外包給開源社群」

除了硬體,NVIDIA 也在同一波宣傳中把焦點放到更底層的「資源調度」。在 KubeCon Europe 2026,NVIDIA 宣布把 GPU 的 Dynamic Resource Allocation(DRA)Driver 捐給 Kubernetes 社群,讓 GPU 資源分配走向更原生、更宣告式的排程流程。

對企業端來說,這不是「開源情懷」,而是成本控制的延伸:同一批 GPU 如果可以被更有效地共享、隔離與分配,你的 token 工廠就更不容易因為排程碎片化而浪費產能。當「每 token 成本」被推到舞台中央,排程效率就不再是 SRE 的小事,而是財務指標的一部分。

這則消息最該被怎麼解讀:Rubin 的價值不只在規格,而在把市場拉進一種新的比較方式

Vera Rubin NVL72 的真正意義,不是某一個「10 倍」或「十分之一」數字是否能在所有工作負載上成立,而是 NVIDIA 正在試圖把推論競爭改寫成一種更容易被採購、被投資人、被財務部門比較的遊戲。

如果接下來半年你看到雲端平台、模型供應商開始更頻繁地引用「每百萬 tokens 成本」「每瓦吞吐」「整櫃產能」這種語言,那很可能不是巧合,而是 NVIDIA 的敘事正在變成市場的共同語言。

而當競爭語言被統一後,下一步就會很現實:誰能更快把「成本下降」轉換成「終端價格下降」,誰就更有機會在推論市場把量吃下來。對使用者而言,你最後感受到的不是 Rubin 的名字,而是同樣的 AI 功能,突然變得更便宜、更常駐、也更容易被塞進任何工作流裡。