OpenAI 發表抗 Prompt Injection 設計,代表 AI Agent 安全已從輸入過濾走向流程防線
OpenAI 在 3 月 11 日公開說明如何讓代理型系統抵抗 Prompt injection,重點不是再教大家多寫幾條 system prompt,而是直接承認這類攻擊越來越像社交工程。官方描述裡最值得注意的訊號是: 當 AI Agent 能讀網頁、看文件、呼叫工具、幫使用者執行動作後,安全問題就不再只是「模型有沒有被一句惡意文字帶偏」,而是整個工作流裡哪個來源可信、哪個工具能觸發高風險動作、哪裡需要人類最後確認。
OpenAI 提到的幾個具體做法,包括 source-sink analysis、Safe URL、以及在可疑情況下要求使用者批准或直接阻擋傳輸。這些名詞表面上很工程,但它們共同在解決同一件事: 讓模型不要因為讀到外部內容,就自動把敏感資訊送到不該送去的地方。這其實把代理安全的戰場,從單次輸入防護,往權限邊界與資料流控制推進了一大步。
這和站內前幾天寫過的 OpenAI 收購 Promptfoo,代表 AI 代理競爭開始補上紅隊與合規這條最貴的短板 是同一條趨勢線。當時我們已經提到,代理市場再往前走,紅隊、評測與合規不會是附屬品,會直接變成產品能力。現在 OpenAI 親自把 prompt injection 定義成更接近 social engineering 的問題,其實就是在告訴市場: 代理系統的安全不可能只靠模型本身變聰明,而是要靠制度化的欄杆。
另一個不能忽略的地方,是 OpenAI 把防護描述直接連到 Atlas、Deep Research、Canvas、ChatGPT Apps 等產品脈絡。這表示安全設計已經不是研究部門留給未來的議題,而是正在進入真實產品。尤其當 ChatGPT 類工具開始接觸更多外部資料、插件與半自動執行流程時,攻擊面自然會一起放大。官方現在先把這套說法講清楚,本身就是一個市場訊號: OpenAI 知道代理化後最脆弱的不是回答品質,而是你讓它碰到真實世界之後還能不能信。
值得注意的是,OpenAI 並沒有把答案包裝成「我們已經解決 prompt injection」。相反,它的文字更像在強調這是一種長期存在、無法靠單一過濾器根治的風險。這種表述反而更可信,因為它符合現在代理產品的現實。只要模型會綜合多個來源、會把文本當指令、會替使用者執行跨系統任務,惡意內容就永遠有機會偽裝成正常資訊流。
把這點與 OpenAI 的 Codex 安全代理正在把企業寫碼權限切得更細 放在一起看,就很清楚了。OpenAI 最近幾個安全動作都在往同一個方向收斂: 與其假設模型永遠判斷正確,不如先把它能造成的傷害範圍縮小,再把高風險操作留給清楚的批准節點。這才是能讓代理真正走進企業流程的打法。
所以這篇官方文章真正重要的地方,不是它又新增了哪個安全術語,而是 OpenAI 已經把代理安全的主敘事改寫掉了。未來大家比較的,不只是哪家的代理會用更多工具,而是哪一家能把工具、資料、權限、使用者意圖和審批機制綁成一套完整防線。誰先做到這件事,誰才比較有資格說自己的代理真的能進入高價值工作流。
