openai 這次沒有用單一型號名稱收尾,而是把整個世代拆成三條可持續更新的產品線:Sol(旗艦)、Terra(平衡)、Luna(快速廉價)。官方說法裡,數字 5.6 代表世代,Sol/Terra/Luna 則像底層規格等級,未來可以各自升級而不必每次重命名整個家族。6 月 26 日開始的 limited preview,讓這套命名第一次同時綁上可核對的 API 價格、可引用的 benchmark,以及一條前所未有的發布規則——只有約二十家經美國政府知情的「trusted partners」能先透過 API 與 Codex 呼叫,一般 chatgpt 用戶與多數開發者還要再等幾週。
若你上週只讀了 白宮限縮 GPT-5.6 發布 的監管新聞,本週末值得回頭看產品本體:這不是單點升級,而是 openai 想把「選模型」變成跟選雲端機型一樣的採購決策。
三條線各自賣什麼
官方部落格與 VentureBeat 整理的分工相當清楚。Sol 面向最難的長程任務:複雜 coding、網安研究、多步代理工作;輸入每百萬 token 5 美元、輸出 30 美元,與 GPT-5.5 旗艦同價,但 OpenAI 聲稱在 agentic 與安全場景有明顯躍升。Terra 鎖定高量產能場景——客服、內部工具、文件分析——標榜接近 GPT-5.5 能力但成本低一半(2.5/15 美元)。Luna 則是最輕量級:摘要、草稿、例行自動化,1/6 美元的價格帶是這世代最低入門階。
這種「同一世代、三種 SKU」的結構,對企業 FinOps 團隊意味著路由邏輯可以寫進架構:簡單任務丟 Luna,批量業務走 Terra,只有紅隊或大型重構才升 Sol。OpenAI 還順便升級 prompt caching——支援明確 cache breakpoint、30 分鐘最低快取壽命,寫入快取按未快取輸入費的 1.25 倍計,讀取仍享 90% 折扣——這些細節對高頻 API 客戶,往往比 benchmark 分數更直接影響帳單。
| 型號 | 定位 | 輸入/輸出(每百萬 token) |
|---|---|---|
| GPT-5.6 Sol | 旗艦、長程 coding/網安 | $5/$30 |
| GPT-5.6 Terra | 量產、接近 5.5 但更便宜 | $2.50/$15 |
| GPT-5.6 Luna | 高速、低成本日常任務 | $1/$6 |
可核對的成績單(以及還沒公布的)
OpenAI 在預覽文裡主動放了幾組數字,這在受監管發布週期裡很關鍵。Terminal-Bench 2.1(命令列代理工作流)上,Sol 報 88.8%,並有 ultra 思考模式把分數推到 91.9%;VentureBeat 引述的對照是 GPT-5.5 約 83.4%。生物流程方面,GeneBench v1 上 Sol 優於 5.5 且用更少 token。網安方面,ExploitBench² 上 Sol 以約三分之一輸出 token,達到與 Mythos Preview 競爭的水準;ExploitGym 3(與 UC Berkeley 等合作)則顯示 Sol、Terra、Luna 隨推理深度提升都有進步。
同時,OpenAI 在 Preparedness Framework 下聲稱 Sol 未跨過 Cyber Critical 門檻——在 Chromium、Firefox 相關評估中能找到 bug 與利用 primitive,但未在測試條件下自主產出完整 exploit chain。這與華府擔心「高級網安能力」的敘事直接相關,也解釋為何政府要求先小範圍 preview。
官方尚未對 Humanity's Last Exam、SWE-Bench Pro 等給出 Sol 的 GA 分數;若你在社群看到具體 HLE 數字,在 OpenAI 補齊前都應標記為未證實。相較之下,仍下線中的 Claude Fable 5 在停擺前有多項公開 benchmark 領先——這讓 Mythos 5 分級解封 與 GPT-5.6 預覽形成詭異對照:一家部分放行網安旗艦,另一家帶著更完整定價表卻被擋在二十家夥伴圈外。
安全堆疊與「預覽期會擋你」
OpenAI 罕見地在產品文裡用大篇幅談 safeguard,而不只談能力。層級包括:模型訓練拒答、即時網安/生物濫用分類器、高風險輸出暫停並由更大推理模型複審、帳號級行為審查、差異化存取權限。公司稱投入超過 70 萬 A100 等效 GPU 時數做自動紅隊,尋找可跨情境的 universal jailbreak,並搭配第三方人工紅隊。
對開發者,這代表 preview 期可能遇到更多拒答與延遲——官方也坦承雙用途場景(防禦性漏洞研究 vs 攻擊性利用)在邊界上會被誤殺。預覽的目的之一,就是測「擋住壞人」的同時,合法企業工作是否仍可完成。若你計畫把 Sol 接進 CI 或 SOC 流程,應把誤擋率與延遲納入試用指標,而不只看 benchmark。
OpenAI 在官方文中直接批評:不認為「政府逐戶核准」應成長期預設,但短期配合是為了幾週內擴大開放,並與行政部門一起把 6 月 2 日網安相關行政命令框架做成可重複流程。TechTimes 引述內部網安挑戰測試稱 Sol 家族在相關評估達 96.7%,觸及公司 Preparedness 的 High 風險區間——這與「未跨 Critical 門檻」並存,讀者需區分「內部挑戰分數」與「框架閾值定義」。
速度與基建:Cerebras 與 Jalapeño 同一條線
產品文還宣布 7 月將在 Cerebras 硬體上提供 Sol,最高約 750 token/秒,初期同樣限縮客戶。這與 Jalapeño 推論晶片 敘事呼應:OpenAI 同時在「模型分級」與「算力客製化」兩端佈局,試圖把延遲與成本一起往下壓。對比 anthropic 的 Fable 5 仍缺 general access,OpenAI 至少給出了完整價目與技術報告路線(系統卡已釋出預覽版,GA 時承諾更多 eval)。
你現在能做什麼
坦白說,多數人 6 月 28 日仍用不了 Sol。若你不在那約二十家夥伴裡,務實做法是:維持現有 GPT-5.5/Terra 等級路由、把應用抽象成可切換 model ID、並追蹤 OpenAI「coming weeks」是否變成確切日期。企業採購可開始用公開價格做三層預算模型,但合約應保留「監管導致延遲」條款。
若你是安全研究員,預覽期的分級放行比全面下架溫和,但仍可能把你排除在外——這與華府對 claude Mythos 的路線形成平行實驗。接下來盯三件事:ChatGPT 消費端是否開放 Luna/Terra、Sol Ultra/max 模式在 Codex 的實際延遲、以及 8 月前政府是否公布可預測的 frontier 模型審查流程。
一句話:GPT-5.6 把前沿 llm 競賽從「誰分數最高」推進到「誰能把分數拆成三個價位、並在監管下仍交付規格表」——Sol 很強,但 6 月底真正上演的,是能力、定價與政治閘門第一次綁在同一個版本號上。
