Anthropic 談「可信代理」實務，AI 代理競賽開始從能力轉向治理

AI 代理現在最常被問的問題，已經不是「它會不會做事」，而是「你敢不敢真的讓它做事」。Anthropic 4 月 9 日發布的 Trustworthy agents in practice，重要性就在這裡。它不是又一次炫耀代理能幫你訂飯店、寫程式或處理報銷，而是嘗試把一個更關鍵的問題講清楚: 當代理開始能夠規劃、調用工具、在多步驟流程裡自行迭代，企業到底應該如何判斷它值得被信任到什麼程度。

這篇文件最有價值的地方，不是它提出了前所未見的單一功能，而是它把過去分散在模型、安全、產品設計與政策討論裡的東西，組成了一套比較完整的治理視角。對任何正在導入 AI 代理的團隊來說，這比又一個 flashy demo 實用得多。

Anthropic 怎麼定義「代理」

Anthropic 對 agent 的定義很直接：它不是固定腳本，而是能自行決定流程與工具使用方式、在任務中反覆規劃、執行、觀察結果並調整策略的系統。這一定義看似普通，實際上非常重要，因為它把聊天機器人與真正代理拉出清楚界線。

一個聊天機器人多半是你問一句、它答一句；一個代理則是你給它任務後，它會自己拆解步驟、連續行動、判斷何時該繼續、何時該停下來問你。這種自主迴圈，是能力來源，也是風險來源。

Anthropic 接著把代理系統拆成四層：

模型: 產生推理與決策能力的核心。
Harness: 包含指令、規則、護欄與任務框架。
工具: 像是 email、行事曆、內部系統或外部服務。
環境: 代理實際運作的上下文與可接觸資源。

這個拆法很值得記住，因為它點出一件常被忽略的事: 代理出問題，不一定是模型本身太笨或太危險，也可能是 harness 太寬鬆、工具權限太大、環境暴露面太廣。只盯模型，等於只看了問題的一半。

人類控制不是「每一步都按同意」

Anthropic 文件裡最實用的部分之一，是它對 human control 的描述非常具體。它沒有把人類控制簡化成「每個動作都跳出確認視窗」，因為真實世界裡那樣做常常只會把人搞煩，最後反而出現一種更糟的結果: 使用者習慣性無腦按允許。

它舉的做法是讓使用者能針對不同動作設定權限，例如某些讀取操作永遠允許、某些寫入行為必須確認、某些操作完全封鎖。更重要的是，Anthropic 提到 Claude Code 的 Plan Mode，讓代理先把整體行動計畫攤給使用者看，再由人決定是否批准整個策略。這個設計的意思很清楚: 人類最需要掌握的，不一定是每一個點擊，而是整體意圖與方向。

這也說明為什麼最近一批代理產品越來越重視計畫顯示與可編輯流程。站內昨天整理的 Claude for Word 上線，AI 開始直接在文件裡動手改稿，表面看起來是在談文書工具，底層其實也是同一個問題: 當 AI 從旁邊建議，變成直接在工作流裡動手，使用者需要的不是更多驚喜，而是更好的可審核性。

真正困難的是「它什麼時候該停下來問」

代理系統最容易出錯的，不一定是純技術能力，而是對任務邊界的拿捏。Anthropic 把這件事稱為 helping agents understand their goals。說白一點，就是代理怎麼知道現在該自己繼續，還是該回來問人。

如果它太常停下來，使用者會覺得它只是個麻煩的半自動工具；如果它太少停下來，就容易誤解偏好、搞錯上下文或在不該冒進的地方自作主張。Anthropic 說明他們會在訓練中刻意設計模糊場景，鼓勵模型在不確定時暫停而不是瞎猜，並把這種傾向寫進 Claude 的憲章式訓練原則裡。

這段看起來很抽象，但對企業很實際。因為大多數高價值工作並不是資訊不足，而是偏好、規則與例外很多。真正能進企業的代理，不是那種永遠自信滿滿的工具，而是知道自己哪裡不該硬闖的工具。

提示注入不是 bug，而是代理時代的常態風險

只要代理能讀 email、看文件、搜尋網頁、調用系統，提示注入就會變成結構性風險。Anthropic 在文件中坦白地說，沒有任何單一防線足以保證安全，因此它們把防禦分布在多層: 模型訓練、流量監測、外部紅隊測試，以及客戶端對工具、資料與環境權限的審慎配置。

這種表述之所以重要，是因為它沒有把問題講成「我們已經解決了」，而是承認代理安全更像多層減災工程。這對市場來說反而是好事。因為當供應商開始把風險講成多方共同責任，而不是單方面包辦，企業導入代理時才比較可能做出務實配置，而不是被廣告詞誤導。

為什麼 Anthropic 一直提 NIST、基準與 MCP

文件最後一段把視角從產品內部拉到整個生態系。Anthropic 點出的三個方向是 benchmarks、evidence sharing 和 open standards，這幾乎就是在說: 如果代理真的要大規模進企業，不能每家公司都各自發明一套安全度量與整合方式。

其中最值得一般讀者記住的是 MCP。Anthropic 再次把它定位為模型與外部工具、資料來源溝通的開放協定，並強調開放標準能讓安全屬性被做進基礎設施，而不是每次部署都手工補丁。這個說法的商業意味很濃: 誰控制整合標準，誰就有機會影響整個代理生態的遊戲規則。

NIST 與第三方 benchmark 的部分也一樣重要。Anthropic 直接指出，目前業界還沒有一套被獨立驗證、可普遍比較代理抗提示注入能力或不確定性表達品質的標準。這表示現在很多「很安全」「很可靠」的宣稱，實際上都還缺少可橫向比較的共同尺。

代理市場下一階段比的是誰更值得放進流程

OpenAI、Anthropic、Google 這一輪競爭表面看起來是在比誰的代理更能做事，但真正決定商業化深度的，很可能不是 demo 能做多少，而是企業願不願意把高價值、高權限、高責任的流程交給它。這就讓治理能力從附屬議題，變成核心產品能力。

Anthropic 這篇「可信代理」文件最終傳遞的訊息，其實很務實: 代理不該被看成一個更會聊天的模型，而應該被看成一套會碰到權限、流程、偏好、合規與安全邊界的系統工程。誰能把這些邊界做得清楚，誰才更可能真的進到企業內部。

所以這篇文件的重要性，不在於它讓代理突然變強，而在於它提醒整個市場，接下來的主戰場，會從炫技走向治理。當企業開始問「我們敢給它多少權限」而不是「它能不能做更多」，AI 代理市場就算真正進入下一階段了。