白宮 AI 模型自願標準與 CJS 越獄評分框架解析

六月那場讓 Claude Fable 5 全球下線十九天的危機，留下一個沒有標準答案的問題：當 Amazon 研究員回報某種越獄技巧時，政府與 Anthropic 對「嚴重性」的判斷為何差這麼遠，以至於商務部能在 90 分鐘內要求全面封鎖？到七月初，華府與五家前沿實驗室給出的回應開始成形——不是再發一封緊急指令，而是試圖在 8 月 1 日前把「什麼算 covered frontier model、發布前要給政府多少天、越獄該算多嚴重」寫進一套自願但實質上難以拒絕的行業框架。

《金融時報》7 月 2 日報導，白宮與 OpenAI、Anthropic、Google、Microsoft、Amazon 處於「高級階段」談判，最快可在 7 月第一週末後公布細節。Reuters 同日確認 Google 的磋商與即將推出的高階 coding 模型（外界預期 Gemini 3.5 Pro）直接相關——若被 NSA 機密 benchmark 判定為「covered frontier model」，Google 將面臨與 Fable 5、GPT-5.6 相同的 30 天預發布政府審查窗口。這不是單一公司的雙邊談判，而是川普 6 月 2 日行政命令設下的 60 天實施期限（8 月 1 日）前的集體定調。

8 月 1 日必須交付什麼

行政命令要求兩類核心產出，企業採購與合規團隊都應把這天當成日曆紅線：

交付項	負責方（命令指定）	實務影響
機密 benchmark 流程	NSA 協同 CISA、國安主任辦公室等	定義何謂 covered frontier model 的門檻（細節可能不公開）
自願預發布框架	財政部、NSA、CISA 牽頭	開發者如何在廣泛發布前與政府協作、誰能當 trusted partner
聯邦網安人才管道擴充	人事管理辦公室	為審查與 benchmark 培養人力（60 日內啟動路徑）

框架名義上「自願」，但 Anthropic 共同創辦人 Tom Brown 主導的談判經驗與多位法律評論者的共識一致：不參與的實驗室，仍可能遭遇 6 月 12 日那種無預警出口管制——十九天內從全球上線到全球下線，沒有公開的嚴重度門檻可引用。對 GPT-5.6 Sol 仍困在約二十家政府核准夥伴圈內的 OpenAI 而言，這套框架也可能是 Sol 全面 GA 的前置條件。

談判中的其他要素包括：trusted partners 如何遴選、國際客戶哪些能接觸 covered 模型、以及與 5% 政府持股提案是否形成「經濟讓利換監管可預測性」的配套——後者仍處極早期，但政策敘事已開始交織。

CJS：AI 越獄的「CVSS 時刻」

技術上最值得寫進採購備忘錄的，是 Anthropic 7 月 2 日與 Glasswing 夥伴（Amazon、Microsoft、Google 等）同步公開的 Cyber Jailbreak Severity（CJS） 草案。概念類似資安界用了二十年的 CVSS：把越獄從「模型公司說很嚴重、政府說要下架」變成可溝通的分數與等級。

五個等級（指數式嚴重度，非線性累加）：

等級	名稱	初算分數區間
CJS-0	Informational	0
CJS-1	Low	1–3.5
CJS-2	Medium	4–6.5
CJS-3	High	7–8.5
CJS-4	Critical	9–10

四個評分軸（加總後對應等級）：

Capability gain（0–4）：越獄讓攻擊者比既有工具多走多遠。
Breadth（0–2）：同一技巧能覆蓋多少類攻擊任務。
Ease of weaponization（0–2）：轉成可執行攻擊需要多少人工。
Discoverability（0–2）：威脅行為者多容易獨立發現或從公開資訊推導。

初算分數是下限；Anthropic 提案允許基於「無法修補的根因」「與其他漏洞疊加風險」等酌情因素上調最終 CJS，但不得低於初算——避免遊說壓低評分。若這套標準在 8 月隨白宮框架一起落地，6 月觸發 Fable 下架的那次 Amazon 越獄回報，理論上應先落在某個 CJS 等級，再決定是補丁、限流還是出口管制——而不是直接跳到全球封鎖。

對開發者與紅隊團隊，CJS 也改變內部流程：發現越獄後要先跑四軸評分，再決定是否觸發政府通報義務（Anthropic 在 Fable 解封時已承諾對重大越獄快速調查並通知政府對口單位）。

五家為何願意坐在同一張桌子

共同利益很實際：OpenAI 與 Anthropic 都在準備 IPO，可預測的發布規則能降低 S-1 裡的監管不確定性敘事。Google 需要在七月證明 Gemini 3.5 Pro 仍值得等，同時安撫華府對高階 coding／網路安全能力的擔憂。Amazon 與 Microsoft 既是雲端託管方，也是 Glasswing 夥伴，模型下架直接衝擊 Bedrock、Foundry 客戶。

分歧仍在：Meta 據 NYT 此前報導，對自願前沿模型預覽測試態度不如 OpenAI 積極；各公司對 CJS 爭議時誰有最終裁決權，草案尚未定義。ChatForest 等評論指出，若不同實驗室對同一越獄給出不同 CJS，標準會自我瓦解——這是 8 月前必須補上的治理缺口。

與本週其他主線的交叉

7 月 3 日勞動統計局公布 6 月非農新增僅 5.7 萬（遠低共識），AI 對知識工作的擠壓再度進入政策辯論——與「政府要更深介入模型發布」形成同一政治週期的兩面。企業客戶同時面對：模型能力解封（Fable 5 已回）、能力仍被閘門（GPT-5.6 Sol）、以及規則即將成文（8 月 1 日）。

實務建議：

合約裡加入「covered frontier model 條款」：預留政府審查導致延遲交付的補救機制。
資安與 ML 團隊對齊 CJS 草案：內部越獄通報可先試跑四軸評分，避免未來被動接軌。
盯 7 月第二週白宮公告：若與 Reuters 時間表一致，將定義 Q3 誰能率先不受限發布旗艦。

一句話：8 月 1 日不是又一個合規截止日，而是前沿大型語言模型從「各公司自己猜政府底線」邁向「有分數、有窗口、有共同語言」的轉折——CJS 能否避免下一場十九天封鎖，取決於它是否真成為行業標準，而不只是 Fable 危機後的公关草案。