Anthropic 證明補丁公告已經變成 AI 攻擊者的即時說明書｜AI趨勢、情報與工具更新

補丁過去代表的是防線開始收口，現在它越來越像倒數計時器。Anthropic 最新公開的研究把這件事講得非常直接：只要把公開補丁、差異檔、除錯符號和基本工具交給夠強的大型語言模型，模型就能在幾十分鐘到幾小時內把原本要靠高階研究員慢慢 reverse 的漏洞，重新變成可驗證、可利用、甚至可串鏈的攻擊路徑。對資安團隊來說，這不是又一篇誇模型很強的公告，而是補丁節奏、維運流程和風險分級規則一起被迫提前。

Anthropic 在 Frontier Red Team 部落格發布的 N-day 研究，測的是一個過去常被默認還有「緩衝期」的環節。所謂 N-day，不是零日漏洞，而是漏洞已經被公開、補丁也已經出現，但世界上還有大量設備根本沒更新。在這段 patch gap 裡，攻擊者只要能比企業修補得更快，就有空窗可打。Anthropic 的結論是，這個空窗現在不再以週計，而開始以小時計。

為什麼補丁一公開，真正的倒數才開始？

因為補丁本身就會告訴攻擊者「哪裡被修了」。研究團隊指出，攻擊者只要做 patch diff，比對修補前後的程式碼或二進位差異，就能反推原本的弱點在哪。過去這件事通常要靠少數熟悉逆向工程的高手慢慢拆，所以許多組織默認自己還有幾天到幾週能完成 rollout。Anthropic 這次要推翻的，正是這個默認。

研究先用 Firefox 的 SpiderMonkey 做測試，挑了 Firefox 148 與 149 所涵蓋的 18 個安全補丁。這個場景其實已經算對防守方很友善：Firefox 會自動更新，Mozilla 也已經把小版本釋出頻率從月更往週更拉，理論上比大多數企業軟體更容易縮短 patch gap。結果 Mythos Preview 還是在 12 分鐘內做出第一個 PoC crash，接著在 40 分鐘內再補上 13 個，總共把 18 個補丁中的 14 個成功重現；更關鍵的是，它在不到 1 小時內做出第一個真正能跑的 exploit，最後在大約 12 小時內做出 8 個可用 exploit。相較之下，Opus 4.8 只做出 2 個，Opus 4.6 和 Sonnet 4.6 各做出 1 個。

這裡最值得注意的不是「14 個」或「8 個」本身，而是時間順序。Anthropic 特別指出，第一個 Firefox exploit 在補丁公開後不到 1 小時就完成了，而正式修補版 Firefox 148 距離當時還有 18 天才會送到穩定釋出。也就是說，若有人把這套能力用在真實攻擊鏈上，攻擊者拿到可用 exploit 的時間，可能遠遠早於大多數終端設備真正吃到修補。

測試場景	Mythos Preview 結果	其他模型對照	對防守方代表的事
Firefox 18 個 SpiderMonkey 補丁	14 個 PoC、8 個可用 exploit	Opus 4.8 11 個 PoC、2 個 exploit	瀏覽器這種更新已算快的產品，仍然留出巨大空窗
第一個 Firefox PoC	12 分鐘	明顯更慢	補丁一公開就可能進入可武器化流程
第一個 Firefox exploit	不到 1 小時	其他模型沒有同等速度	「等下一波例行更新」的想法開始不合時宜
Windows 21 個 kernel 漏洞	18 個 PoC、8 條完整提權鏈	Opus 4.8 15 個 PoC，但無完整鏈	沒原始碼也不再代表安全研究門檻足夠高
Windows 攻擊成本	約 15,700 美元做出 8 條鏈，平均單條約 2,000 美元	明顯較差	對有資金的攻擊者來說，成本已經落到可操作區間

Windows 比 Firefox 更麻煩，因為企業更新速度天生就慢

第二組測試更接近大企業最不想看到的情況。Anthropic 選了 2026 年 1 月和 2 月 Patch Tuesday 的 21 個 Windows kernel 權限提升漏洞。這次模型拿不到原始碼，只能使用修補前後二進位、公開 debug symbols、Ghidra 反編譯結果、函式差異，以及 Microsoft 的公開 advisory。換句話說，這更接近真實世界攻擊者在補丁發布當天會擁有的資訊集合。

結果 Mythos Preview 在 31 分鐘內做出第一個 PoC，並在 6 小時內完成 18 個 PoC，總成本大約 2,200 美元。更棘手的是，它不只會把漏洞撞出來，還能把不同 primitive 串成完整權限提升鏈，最後做出 8 條從低權限帳號一路升到 SYSTEM 的攻擊路徑，總成本約 15,700 美元。Anthropic 還特別提到，Microsoft 對這 21 個漏洞裡有 14 個評為「較不可能被利用」或「不太可能被利用」，但 Mythos Preview 仍成功重現了其中 13 個，甚至對其中 1 個「不太可能被利用」的漏洞做出了完整提權鏈。這很直接地打到現有 exploitability rating 的校準方式，因為那套分級本來是按人類研究員的速度與難度建立的。

更殘酷的地方在於 rollout 節奏。Anthropic 引用 Windows Autopatch 的公開說明作為參考，指出即使在相對成熟的自動更新流程裡，也往往要 7 天才有 90% 的註冊裝置收到補丁，11 天才會逼出強制重開機。換句話說，8 條完整 Windows exploit 鏈都已經產生完了，大多數裝置卻連補丁都還沒真正裝上。

這不只是 Anthropic 自己在喊危機，整條防守供應鏈都已經被推著走

如果只有一篇 Anthropic 研究，外界還可以把它理解成模型公司在替自家 Claude 的資安產品暖場。但把其他資料疊上去，情況就沒那麼像行銷稿。英國 AI Security Institute 在 5 月的分析提到，前沿模型在狹義 cyber task 上的 80% 可靠度時間跨度，自 2024 年底以來大約每 4.7 個月翻倍一次，而較新的 Mythos Preview checkpoint 與 GPT-5.5 又顯著超出原先趨勢。AISI 還指出，Mythos Preview 是第一個能完整通關他們兩個 cyber range 的模型，這代表長時間、連續步驟的攻擊任務也開始被模型吃掉。

再看產業端的回饋，這個變化已經不是實驗室自嗨。Anthropic 在 Anthropic 以「Glasswing 計畫」推出 Mythos 預覽，把最強模型鎖進防禦型資安聯盟的 5 月更新裡寫到，合作夥伴在一個月內合計找出超過 10,000 個高或重大嚴重度漏洞，Cloudflare 單家就找到 2,000 個 bug，其中 400 個屬於高或重大嚴重度；Mozilla 也公開表示，在 Firefox 150 中一次修掉 271 個由 Mythos 初期測試找出的漏洞。Microsoft 則在 5 月 Patch Tuesday 說明裡明白承認，更新規模接下來一段時間還會偏大，因為 AI 正在讓漏洞發現速度和驗證速度一起上升。

這種外溢效果連開源維護節奏都被打亂。Anthropic 說 Mythos Preview 掃描了超過 1,000 個開源專案，估計找到 6,202 個高或重大嚴重度漏洞；在已評估的 1,752 個高風險候選裡，90.6% 被證實為有效 true positive，平均一個高風險 bug 仍要兩週左右才補得完。也就是說，發現漏洞這件事正在被 AI 極度加速，但真正稀缺的已經變成 triage、修補、公告、部署與使用者升級這些後半段人力。

如果你前幾個月才把這類能力理解成「前沿模型很會找 bug」，現在就該把判斷再往前推一步。從銀行為何開始把 Mythos 納入風控會議，AI 資安能力正從技術新聞變成金融風險到這次 N-day 研究，重點已經不只是模型能不能幫守方更快掃 code，而是所有依賴月更、分批 rollout、低頻重開機、長期維護窗口的系統，都要重新計算自己在 patch gap 內暴露了多久。

所以這條新聞真正逼出的結論不是「以後大家更新快一點就好」。更深一層的答案是，補丁速度當然要再加快，但那只是在止血。更長期的解法會是把更多核心元件移往記憶體安全語言、縮短高風險系統的部署鏈、把分段隔離與身分防護做得更硬，並且接受一個新現實：當 exploit 開發的瓶頸已經掉到幾千美元、幾百萬 Token 和幾小時的運算預算，沒有調整節奏的組織，之後面對的就不是「漏洞變多」，而是修補窗口第一次真正開始輸給模型速度。