DeepSeek-V4 這次最值得注意的,不是又多了一個更大的 上下文窗口,而是它把 100 萬 Token 變成真的有機會跑得動、跑得起、跑得久的 AI 工具。官方一次端出兩個版本:DeepSeek-V4-Pro 是 1.6T 參數、49B activated,DeepSeek-V4-Flash 是 284B、13B activated,兩者都支援 1M context。對長任務 API 來說,重點不是「能裝多少字」,而是「每次多跑一輪工具呼叫,成本會不會爆掉」。
DeepSeek 自己給出的數字很直接:在 1M token 設定下,V4-Pro 只需要 V3.2 的 27% 單 token 推論 FLOPs,KV cache 也壓到 10%;V4-Flash 更低,分別是 10% 和 7%。這代表它不是單純把模型做大,而是把長上下文的最貴部分壓到更接近工程可接受的區間。換句話說,這次發布的核心不是「更強」,而是「更能長時間工作」。
| 版本 | 參數 / 激活量 | 上下文 | 1M token 推論 FLOPs vs V3.2 | KV cache vs V3.2 | 定價 |
|---|---|---|---|---|---|
| V4-Pro | 1.6T / 49B | 1M | 27% | 10% | 1M input cache miss $1.74,output $3.48 |
| V4-Flash | 284B / 13B | 1M | 10% | 7% | 1M input cache miss $0.14,output $0.28 |
這次改的不是一句「更快」
真正影響開發者的,是 DeepSeek 把長上下文背後的機制也一起改了。官方模型卡寫得很清楚,V4 不是只靠更大參數硬推,而是用 Hybrid Attention 把 Compressed Sparse Attention 和 Heavily Compressed Attention 交錯放進層裡,再配上 mHC 與 Muon optimizer,去處理長序列下最容易失控的訊號衰減與訓練穩定性問題。這也是為什麼它不只是在 benchmark 上看起來漂亮,而是更像一個能被拿去做真實工作流的底層 LLM。
更關鍵的是,V4 對 agent 的設計是有明確指向的。Hugging Face 的解讀指出,V4 會在帶工具呼叫的對話裡保留跨回合推理歷史,還加入 |DSML| 特殊 token 與 XML 式 tool-call 格式,減少 JSON-in-string 常見的跳脫錯誤。這些細節看起來不像產品發表會上最吸睛的部分,但它們正是 agent 真正會壞掉的地方:不是模型不會想,而是狀態記不住、格式會爆、執行環境會斷。
價格壓下來,工作流才會換掉
如果只看跑分,DeepSeek-V4 不一定每一項都站在最前面;但它已經足夠接近閉源前沿模型,甚至在一些 agent 任務上形成壓力。Hugging Face 彙整的結果裡,V4-Pro-Max 在 Terminal Bench 2.0 拿到 67.9,在 SWE Verified 是 80.6,在 MCPAtlas Public 是 73.6,在 Toolathlon 是 51.8。另一個更值得注意的數字,是 85 位 DeepSeek 開發者的內部調查:52% 認為 V4-Pro 已經能取代他們現在的主力 coding model,39% 也傾向同意。
這和先前 OpenAI 把 GPT-5.4 往電腦操控推進的方向正好對照。前者在拉近「會做事」的操作能力,後者在拉低「長時間做事」的上下文成本。兩條線合起來,才是真正的 agent 競爭。因為開發者最後不是在比誰會講話,而是在比誰能少重跑、少重貼、少重新整理狀態。當模型開始真的讀得動整個 codebase、整段文件、整輪對話,長上下文就不再是炫技,而是採購條件。
中國芯片路線,才是更大的暗線
MIT Technology Review 把這次發布點得很白:V4 是 DeepSeek 自 R1 之後最重要的一次更新,而且它也是 DeepSeek 首次明顯朝中國國產芯片路線靠攏。報導提到,V4 被設計成能更好配合華為 Ascend 這類國產算力平台,但也補充說,這不代表 DeepSeek 已經完全離開 NVIDIA。更像是它先把一部分推理與部署壓力往國產供應鏈搬,看看中國 AI 棧能不能真的把模型、芯片、資料中心串成一條可持續的路。
這就是 V4 的第二層意義:它不只是開源陣營的一次升級,也是一次供應鏈測試。若 1M context 的 agent 真能在較低成本下穩定運轉,市場接下來看到的就不只是一個更大的模型,而是新的價格錨點、框架適配壓力,還有雲端與本地部署的重新分工。對開發者來說,接下來最值得觀察的不是它能不能再多 1% 跑分,而是工具鏈、部署框架和實際產品是否真的開始把 1M context 當成新常態。
DeepSeek-V4 不是把模型做得更會聊天,而是把 提示詞、工具呼叫、長任務記憶和推論成本一起重新定義。這種變化一旦被社群、雲平台和 SDK 接住,開源 LLM 的下一輪競爭,就不會再只是看誰的模型分數更高,而是看誰能讓 agent 在真實世界裡少掉最多摩擦。
