SubQ 拿出第三方 benchmark 後，長上下文 LLM 競賽開始從堆 token 轉向重寫注意力架構｜AI趨勢、情報與工具更新

Subquadratic 這波新聞值得寫，不是因為它又把上下文窗口喊得更大，而是它試圖把整個長上下文成本曲線一起改掉。公司主張自己的 SubQ 是第一個 fully subquadratic 的大型語言模型，注意力計算不再像傳統 Transformer 那樣隨上下文長度呈二次成長，而是更接近線性擴張。對今天的大型語言模型市場來說，這個說法如果成立，衝擊不會只是多塞幾百萬個token，而是會直接影響 coding agent、長文件分析、合約審閱、研究助理以及各種原本得靠檢索增強生成和多層 agent 管線硬繞過去的工作流。

先看它這次到底補了什麼證據

市場這次開始比較願意認真看它，不是因為公司講得更大聲，而是因為它終於補了一部分「拿出證據」的動作。MIT Technology Review 與 The Next Web 的最新報導都把重點放在同一件事：Subquadratic 最初在五月出場時，外界只看到少量自家 benchmark，所以很快就冒出「這到底是架構突破還是 AI Theranos」的質疑；現在公司補上了 Appen 做的第三方測試、更多 model card 細節，以及 SubQ 1.1 Small 的技術報告，討論才開始從行銷口號往可比較的技術主張移動。

先看它這次真正拿出來的數字：

指標	SubQ / 第三方資料	對市場的意義
上下文長度	研究結果延伸到 12M tokens，官方產品主打 2M 到 12M 路線	不再只是比 1M token 標籤，而是比能不能真的在超長上下文裡維持可用性
長上下文檢索	Needle-in-a-Haystack 在 1M、2M 為 100%，6M、12M 為 98%；RULER 128K 為 99.12%	至少在 retrieval 類任務上，它不是只把容量堆大而已
速度與算力	1M tokens 下比 dense attention 少 64.5x compute，單層 attention 比 FlashAttention-2 快 56x	真正挑戰的是推理 economics，而不是單次 demo 漂不漂亮
程式能力	Appen 跑 1,055 題 LiveCodeBench、共 4,220 個 completion，pass@4 為 89.7%	代表它不是只會撈長文件，還想直接切進 coding 工作層

如果只看表面，這套敘事幾乎太完美。SubQ 說自己把 dense attention 換成自家的 SSA，讓模型不必對每個 token 和所有其他 token 全部兩兩計算，而是動態挑出真正重要的關係。這種 sparse attention 想法本來就不是新東西，問題一直都在於，過去大多數替代方案一旦把計算砍下去，品質也會一起掉下去。Subquadratic 現在想證明的，是它第一次把「長上下文更便宜」和「前沿能力沒有明顯掉隊」這兩件事同時做成。

也因此，這則新聞的重點其實不是 12M 這個數字本身，而是它對現有工作流假設的挑戰。今天很多企業之所以要疊一層又一層檢索、切 chunk、重排段落、寫提示詞、做多 agent 協作，不完全是因為這樣最好，而是因為基礎模型太貴、太短、太容易 context rot。SubQ 的官方論述就是要把這些 workaround 從「必要基礎建設」打回「有時候才需要的補充件」。這也和站上先前提過的當 token 成本開始反咬 AI 導入，企業採購已從拼最強模型改成先算預算高度一致。當採購不再只看榜單，而開始精算每次長任務的成本，能不能用更低的注意力成本維持可用輸出，會比多高幾分 benchmark 更像真正的商業武器。

為什麼市場還不肯直接買單

但現在要直接把它當成「Transformer 時代結束」還太早，原因也很明確。第一，公眾和開發者還沒辦法廣泛摸到模型。就連 Hacker News 上針對 SubQ 發表當天的討論，支持和懷疑都很集中在同一件事上：如果你真的解掉了長上下文最關鍵的成本瓶頸，為什麼不是一開始就附完整白皮書、公開 demo 與可大量試用的 API？Subquadratic 的回應是要先做 red-team、補更多 benchmark、安排接下來幾個月的 rollout，但這仍然不是獨立開發者和企業能立刻驗證的狀態。

第二，第三方 benchmark 雖然比自家分數可信得多，但仍然只證明了特定任務面向。Appen 的報告確實替它補強了 Needle-in-a-Haystack、LiveCodeBench 與部分長上下文檢索能力，可是外界真正想知道的是，它在完整企業工作流裡會不會出現別種退化，例如跨檔案推理時忽略關鍵依賴、在超長法律文本裡抓到句子卻抓不到條文關係，或在極長對話狀態裡維持不了真正穩定的長期記憶。這也是 MIT Technology Review 引述的核心質疑：它可能做出了真東西，但公開證據還不足以支撐「已經解掉 quadratic attention bottleneck」這個最強說法。

第三，SubQ 也不是從真空中長出來的。技術報告已經承認，1.1 Small 是從既有 open-weight frontier model 起步，把 dense attention 換成 SSA，再做 staged context extension 與約一兆 tokens 的 continued pretraining。這種做法本身並不丟臉，反而很符合現在模型開發現實，但它也意味著，所謂「完全重寫一切」其實更像是在現有模型生態裡插入一個關鍵架構層，而不是從頭到尾另起宇宙。更大的背景是，學界近期討論的次二次架構也遠不只它一條線。最新的 arXiv 綜述〈On Subquadratic Architectures: From Applications to Principles〉比較了 xLSTM、Mamba-2 和 Gated DeltaNet，結論是這個方向還遠沒收斂成單一勝出者，代表整個領域仍在探索「哪種非 Transformer 路線能兼顧複雜依賴、穩定記憶和可訓練性」。換句話說，SubQ 可能是領先者，也可能只是第一個把商業敘事講得足夠完整的人。

這也是為什麼這則新聞比另一條「新模型更長、更快」更值得留意。它把市場焦點從「誰有更大的 context window 標籤」拉向「誰真的有辦法改變注意力經濟學」。這和DiffusionGemma 把文字生成從逐 Token 改成整段去噪，Google 想把開源模型速度戰從雲端拉回本地 GPU其實是同一層競爭：模型業者開始重新挑戰過去幾年被視為預設正解的生成與推理機制，而不是只在既有堆疊上再擠一點效率。只不過 DiffusionGemma 想碰的是文字生成路徑，SubQ 碰的是長上下文注意力成本，兩者都在指向同一個更大的問題: 真正值錢的模型改進，會不會慢慢從「更會答題」轉成「更便宜地處理更複雜的完整工作」？

因此，SubQ 現在最需要的不是再多一輪漂亮比較圖，而是三件更硬的東西。第一，公開可重複的 full-context 實測，尤其不是只在 128K 或 1M 的漂亮區間。第二，讓更多外部團隊在程式碼倉庫、合約集、財報庫、研究文件流這些真正會把上下文吃滿的任務上跑出可比較結果。第三，把「更便宜的長上下文」翻成清楚的商業單位，例如每百萬 token、每個完整 repo、每份大型資料室審閱任務到底省多少錢、快多少、錯多少。只要這三項有兩項被外部驗證，長上下文 LLM 的競爭規則就會開始重寫；如果沒有，那麼 SubQ 目前仍比較像一個極有吸引力、但還沒跨過公開證明門檻的架構賭注。