DeepSeek-V4 把 1M context 變成開源 agent 的新基準｜AI趨勢、情報與工具更新

DeepSeek-V4 這次最值得注意的，不是又多了一個更大的上下文窗口，而是它把 100 萬 Token 變成真的有機會跑得動、跑得起、跑得久的 AI 工具。官方一次端出兩個版本：DeepSeek-V4-Pro 是 1.6T 參數、49B activated，DeepSeek-V4-Flash 是 284B、13B activated，兩者都支援 1M context。對長任務 API 來說，重點不是「能裝多少字」，而是「每次多跑一輪工具呼叫，成本會不會爆掉」。

DeepSeek 自己給出的數字很直接：在 1M token 設定下，V4-Pro 只需要 V3.2 的 27% 單 token 推論 FLOPs，KV cache 也壓到 10%；V4-Flash 更低，分別是 10% 和 7%。這代表它不是單純把模型做大，而是把長上下文的最貴部分壓到更接近工程可接受的區間。換句話說，這次發布的核心不是「更強」，而是「更能長時間工作」。

版本	參數 / 激活量	上下文	1M token 推論 FLOPs vs V3.2	KV cache vs V3.2	定價
V4-Pro	1.6T / 49B	1M	27%	10%	1M input cache miss $1.74，output $3.48
V4-Flash	284B / 13B	1M	10%	7%	1M input cache miss $0.14，output $0.28

這次改的不是一句「更快」

真正影響開發者的，是 DeepSeek 把長上下文背後的機制也一起改了。官方模型卡寫得很清楚，V4 不是只靠更大參數硬推，而是用 Hybrid Attention 把 Compressed Sparse Attention 和 Heavily Compressed Attention 交錯放進層裡，再配上 mHC 與 Muon optimizer，去處理長序列下最容易失控的訊號衰減與訓練穩定性問題。這也是為什麼它不只是在 benchmark 上看起來漂亮，而是更像一個能被拿去做真實工作流的底層 LLM。

更關鍵的是，V4 對 agent 的設計是有明確指向的。Hugging Face 的解讀指出，V4 會在帶工具呼叫的對話裡保留跨回合推理歷史，還加入 |DSML| 特殊 token 與 XML 式 tool-call 格式，減少 JSON-in-string 常見的跳脫錯誤。這些細節看起來不像產品發表會上最吸睛的部分，但它們正是 agent 真正會壞掉的地方：不是模型不會想，而是狀態記不住、格式會爆、執行環境會斷。

價格壓下來，工作流才會換掉

如果只看跑分，DeepSeek-V4 不一定每一項都站在最前面；但它已經足夠接近閉源前沿模型，甚至在一些 agent 任務上形成壓力。Hugging Face 彙整的結果裡，V4-Pro-Max 在 Terminal Bench 2.0 拿到 67.9，在 SWE Verified 是 80.6，在 MCPAtlas Public 是 73.6，在 Toolathlon 是 51.8。另一個更值得注意的數字，是 85 位 DeepSeek 開發者的內部調查：52% 認為 V4-Pro 已經能取代他們現在的主力 coding model，39% 也傾向同意。

這和先前 OpenAI 把 GPT-5.4 往電腦操控推進的方向正好對照。前者在拉近「會做事」的操作能力，後者在拉低「長時間做事」的上下文成本。兩條線合起來，才是真正的 agent 競爭。因為開發者最後不是在比誰會講話，而是在比誰能少重跑、少重貼、少重新整理狀態。當模型開始真的讀得動整個 codebase、整段文件、整輪對話，長上下文就不再是炫技，而是採購條件。

中國芯片路線，才是更大的暗線

MIT Technology Review 把這次發布點得很白：V4 是 DeepSeek 自 R1 之後最重要的一次更新，而且它也是 DeepSeek 首次明顯朝中國國產芯片路線靠攏。報導提到，V4 被設計成能更好配合華為 Ascend 這類國產算力平台，但也補充說，這不代表 DeepSeek 已經完全離開 NVIDIA。更像是它先把一部分推理與部署壓力往國產供應鏈搬，看看中國 AI 棧能不能真的把模型、芯片、資料中心串成一條可持續的路。

這就是 V4 的第二層意義：它不只是開源陣營的一次升級，也是一次供應鏈測試。若 1M context 的 agent 真能在較低成本下穩定運轉，市場接下來看到的就不只是一個更大的模型，而是新的價格錨點、框架適配壓力，還有雲端與本地部署的重新分工。對開發者來說，接下來最值得觀察的不是它能不能再多 1% 跑分，而是工具鏈、部署框架和實際產品是否真的開始把 1M context 當成新常態。

DeepSeek-V4 不是把模型做得更會聊天，而是把提示詞、工具呼叫、長任務記憶和推論成本一起重新定義。這種變化一旦被社群、雲平台和 SDK 接住，開源 LLM 的下一輪競爭，就不會再只是看誰的模型分數更高，而是看誰能讓 agent 在真實世界裡少掉最多摩擦。