返回趨勢情報
趨勢情報

SubQ 拿出第三方 benchmark 後,長上下文 LLM 競賽開始從堆 token 轉向重寫注意力架構

2026年6月20日
易賺Ai團隊
9 分鐘閱讀
#入門#LLM#AI模型#長上下文
SubQ 拿出第三方 benchmark 後,長上下文 LLM 競賽開始從堆 token 轉向重寫注意力架構

Subquadratic 這波新聞值得寫,不是因為它又把上下文窗口喊得更大,而是它試圖把整個長上下文成本曲線一起改掉。公司主張自己的 SubQ 是第一個 fully subquadratic 的大型語言模型,注意力計算不再像傳統 Transformer 那樣隨上下文長度呈二次成長,而是更接近線性擴張。對今天的大型語言模型市場來說,這個說法如果成立,衝擊不會只是多塞幾百萬個token,而是會直接影響 coding agent、長文件分析、合約審閱、研究助理以及各種原本得靠檢索增強生成和多層 agent 管線硬繞過去的工作流。

先看它這次到底補了什麼證據

市場這次開始比較願意認真看它,不是因為公司講得更大聲,而是因為它終於補了一部分「拿出證據」的動作。MIT Technology Review 與 The Next Web 的最新報導都把重點放在同一件事:Subquadratic 最初在五月出場時,外界只看到少量自家 benchmark,所以很快就冒出「這到底是架構突破還是 AI Theranos」的質疑;現在公司補上了 Appen 做的第三方測試、更多 model card 細節,以及 SubQ 1.1 Small 的技術報告,討論才開始從行銷口號往可比較的技術主張移動。

先看它這次真正拿出來的數字:

指標SubQ / 第三方資料對市場的意義
上下文長度研究結果延伸到 12M tokens,官方產品主打 2M 到 12M 路線不再只是比 1M token 標籤,而是比能不能真的在超長上下文裡維持可用性
長上下文檢索Needle-in-a-Haystack 在 1M、2M 為 100%,6M、12M 為 98%;RULER 128K 為 99.12%至少在 retrieval 類任務上,它不是只把容量堆大而已
速度與算力1M tokens 下比 dense attention 少 64.5x compute,單層 attention 比 FlashAttention-2 快 56x真正挑戰的是推理 economics,而不是單次 demo 漂不漂亮
程式能力Appen 跑 1,055 題 LiveCodeBench、共 4,220 個 completion,pass@4 為 89.7%代表它不是只會撈長文件,還想直接切進 coding 工作層

如果只看表面,這套敘事幾乎太完美。SubQ 說自己把 dense attention 換成自家的 SSA,讓模型不必對每個 token 和所有其他 token 全部兩兩計算,而是動態挑出真正重要的關係。這種 sparse attention 想法本來就不是新東西,問題一直都在於,過去大多數替代方案一旦把計算砍下去,品質也會一起掉下去。Subquadratic 現在想證明的,是它第一次把「長上下文更便宜」和「前沿能力沒有明顯掉隊」這兩件事同時做成。

也因此,這則新聞的重點其實不是 12M 這個數字本身,而是它對現有工作流假設的挑戰。今天很多企業之所以要疊一層又一層檢索、切 chunk、重排段落、寫提示詞、做多 agent 協作,不完全是因為這樣最好,而是因為基礎模型太貴、太短、太容易 context rot。SubQ 的官方論述就是要把這些 workaround 從「必要基礎建設」打回「有時候才需要的補充件」。這也和站上先前提過的當 token 成本開始反咬 AI 導入,企業採購已從拼最強模型改成先算預算高度一致。當採購不再只看榜單,而開始精算每次長任務的成本,能不能用更低的注意力成本維持可用輸出,會比多高幾分 benchmark 更像真正的商業武器。

為什麼市場還不肯直接買單

但現在要直接把它當成「Transformer 時代結束」還太早,原因也很明確。第一,公眾和開發者還沒辦法廣泛摸到模型。就連 Hacker News 上針對 SubQ 發表當天的討論,支持和懷疑都很集中在同一件事上:如果你真的解掉了長上下文最關鍵的成本瓶頸,為什麼不是一開始就附完整白皮書、公開 demo 與可大量試用的 API?Subquadratic 的回應是要先做 red-team、補更多 benchmark、安排接下來幾個月的 rollout,但這仍然不是獨立開發者和企業能立刻驗證的狀態。

第二,第三方 benchmark 雖然比自家分數可信得多,但仍然只證明了特定任務面向。Appen 的報告確實替它補強了 Needle-in-a-Haystack、LiveCodeBench 與部分長上下文檢索能力,可是外界真正想知道的是,它在完整企業工作流裡會不會出現別種退化,例如跨檔案推理時忽略關鍵依賴、在超長法律文本裡抓到句子卻抓不到條文關係,或在極長對話狀態裡維持不了真正穩定的長期記憶。這也是 MIT Technology Review 引述的核心質疑:它可能做出了真東西,但公開證據還不足以支撐「已經解掉 quadratic attention bottleneck」這個最強說法。

第三,SubQ 也不是從真空中長出來的。技術報告已經承認,1.1 Small 是從既有 open-weight frontier model 起步,把 dense attention 換成 SSA,再做 staged context extension 與約一兆 tokens 的 continued pretraining。這種做法本身並不丟臉,反而很符合現在模型開發現實,但它也意味著,所謂「完全重寫一切」其實更像是在現有模型生態裡插入一個關鍵架構層,而不是從頭到尾另起宇宙。更大的背景是,學界近期討論的次二次架構也遠不只它一條線。最新的 arXiv 綜述〈On Subquadratic Architectures: From Applications to Principles〉比較了 xLSTM、Mamba-2 和 Gated DeltaNet,結論是這個方向還遠沒收斂成單一勝出者,代表整個領域仍在探索「哪種非 Transformer 路線能兼顧複雜依賴、穩定記憶和可訓練性」。換句話說,SubQ 可能是領先者,也可能只是第一個把商業敘事講得足夠完整的人。

這也是為什麼這則新聞比另一條「新模型更長、更快」更值得留意。它把市場焦點從「誰有更大的 context window 標籤」拉向「誰真的有辦法改變注意力經濟學」。這和DiffusionGemma 把文字生成從逐 Token 改成整段去噪,Google 想把開源模型速度戰從雲端拉回本地 GPU其實是同一層競爭:模型業者開始重新挑戰過去幾年被視為預設正解的生成與推理機制,而不是只在既有堆疊上再擠一點效率。只不過 DiffusionGemma 想碰的是文字生成路徑,SubQ 碰的是長上下文注意力成本,兩者都在指向同一個更大的問題: 真正值錢的模型改進,會不會慢慢從「更會答題」轉成「更便宜地處理更複雜的完整工作」?

因此,SubQ 現在最需要的不是再多一輪漂亮比較圖,而是三件更硬的東西。第一,公開可重複的 full-context 實測,尤其不是只在 128K 或 1M 的漂亮區間。第二,讓更多外部團隊在程式碼倉庫、合約集、財報庫、研究文件流這些真正會把上下文吃滿的任務上跑出可比較結果。第三,把「更便宜的長上下文」翻成清楚的商業單位,例如每百萬 token、每個完整 repo、每份大型資料室審閱任務到底省多少錢、快多少、錯多少。只要這三項有兩項被外部驗證,長上下文 LLM 的競爭規則就會開始重寫;如果沒有,那麼 SubQ 目前仍比較像一個極有吸引力、但還沒跨過公開證明門檻的架構賭注。