OpenAI 推出 GPT-5.4，電腦操控能力讓 AI 從「聊天」走進「做事」

2025 年，多數人對 AI 的印象仍停留在「很會寫信的聊天機器人」。這個認知在 2026 年 3 月初開始鬆動——OpenAI 發布了 GPT-5.4，官方文件中最醒目的不是參數量或跑分，而是一行看似平淡的描述：「原生電腦使用能力（native computer-use capabilities）」。這句話的意思是，這套模型不只能讀懂你給的指令，還能 直接操作電腦介面、執行多步驟工作流程、並在過程中自我校正。當 LLM 從「說話」進階到「動手」，整個企業軟體與自動化產業的賭局都被重新發牌。

官方公告的核心規格與數字

根據 OpenAI 發布說明，GPT-5.4 同時在 ChatGPT 介面、API、以及全新的 Codex 編碼代理服務中上線。關鍵技術參數如下：

項目	規格
上下文窗口	100 萬 token（約 75 萬字）
GDPval 基準	83%（專業知識工作評測）
錯誤率	較 GPT-5.2 降低 33%
核心能力	推理、編碼、代理工作流、電腦操控

這些數字在 benchmark 戰爭的語境裡或許只是「又進步了一代」，但「電腦操控」這項能力的加入，把競爭維度從「誰更聰明」拉到了「誰更能幫你完成整件事」。

技術限制拆解：「能動手」不等於「不會搞砸」

在興奮之餘，必須先把技術邊界講清楚。GPT-5.4 的電腦操控並非無所不能的「數位精靈」，而是一套在特定環境（沙盒化的瀏覽器與作業系統介面）中，透過模擬鍵盤滑鼠輸入來執行任務的機制。這代表：

它需要被明確授權：模型無法擅自開啟你電腦上的任意程式，而是在你指定的工作環境中執行。
複雜任務仍會出錯：多步驟流程中的任何一步都可能因介面變化、載入延遲或理解偏差而卡住。
安全風險真實存在：若給予過高權限，模型理論上可能誤刪檔案、錯發郵件，或在迴圈中消耗大量運算資源。

這些限制並非 OpenAI 獨有，而是整個「AI 代理」領域的共同課題。GPT-5.4 的價值在於把這些能力打包成企業可用的 API 服務，而不是讓每家公司都自己從零組裝。

商業動機：為什麼現在推出？

時間點值得玩味。2026 年初，Anthropic 的 Claude 系列已在企業編碼助手市場搶佔灘頭，Google 的 Gemini 在長上下文與多模態上持續施壓，而微軟透過 Copilot 把 AI 塞進了 Office 生態的每個縫隙。OpenAI 需要一個能跳脫「聊天介面」、直接進入企業核心工作流的故事。

電腦操控能力正是這個故事的核心。想像以下場景：

財務月結：AI 代理登入 ERP 系統、匯出報表、整理成 Excel、檢查異常數字、發送摘要給主管。
客服升級：不只是回答問題，而是直接在後台系統中查詢訂單、修改地址、啟動退貨流程。
軟體測試：自動操作 UI、記錄步驟、比對結果、生成缺陷報告。

這些場景過去需要 RPA（機器人流程自動化）工具或專職工程團隊來搭建。GPT-5.4 的賭注是：用自然語言描述就能啟動這些流程，大幅降低自動化的門檻。

與競品對照：Claude、Gemini、Copilot 各走各路

產品	路線	與 GPT-5.4 的差異
Claude 3.5/4	企業編碼與研究助手	強調安全與可控，電腦操控功能較晚推出且限制較多
Gemini	長上下文與 Google 生態整合	側重個人化與搜尋整合，企業代理能力較弱
GitHub Copilot	編碼場景深耕	專注 IDE 內助手，不跨足一般電腦操作
GPT-5.4	通用電腦代理	首個把「任意網頁/桌面操作」作為原生能力的大模型

這不是誰贏誰輸的問題，而是市場正在分化：Claude 走「高信任企業專員」路線，Gemini 走「個人全能助理」路線，而 GPT-5.4 試圖開闢「通用數位勞工」這條新路。

開發者與企業的實務影響

如果你正在評估這項技術，以下幾個判斷維度可能比跑分更重要：

成本結構：100 萬 token 的上下文能力意味著處理長文件或長對話的成本會顯著上升。OpenAI 的定價階梯是否支援你的使用模式，需要實測而非猜測。

錯誤處理：當 AI 代理在第十步出錯時，你的系統能否優雅地暫停、通知人類、或回滾到安全狀態？這需要額外的工程投資，不是 API 本身能解決的。

合規與稽核：在金融、醫療等受監管產業，「AI 操作了系統」這句話會觸發一系列法遵問題。誰授權、誰監看、誰負責，需要在部署前就有答案。

人機協作介面：完全自動化還是「人類在環（human-in-the-loop）」？後者在目前技術水平下往往更務實，但也意味著你需要設計新的 UI 來呈現 AI 的「工作進度」與「需要確認的決策點」。

批判聲音：代理能力的「責任真空」

並非所有人都為這項進展歡呼。批評者指出，當 AI 從「建議」升級到「執行」，責任歸屬會變得極度模糊。如果 AI 代理誤操作導致財務損失，是 OpenAI 的模型問題、是整合商的設定問題、還是使用者的監督問題？現有的法律與保險框架幾乎沒有準備好回答這些問題。

另一個擔憂是「自動化偏誤」：當系統看起來很會做事，人類傾向於過度信任，從而降低警覺。這在醫療診斷、金融交易等高風險場景尤其危險。

接下來如何驗證

未來三個月，觀察這幾個訊號能幫助你判斷 GPT-5.4 的「代理故事」是曇花一現還是真正落地：

企業案例發布：OpenAI 能否拿出可公開審視的企業部署案例，而非僅是示範影片。
生態系工具：是否出現專為 GPT-5.4 代理能力設計的除錯、監控、版本控制工具。
價格調整：如果使用量激增，OpenAI 是否會推出專門針對代理工作流的定價方案（例如按「任務完成數」而非按 token 計費）。

如果你是一般使用者，現在就能在 ChatGPT 的「Tasks」功能中體驗最陽春的代理能力。但對於企業級應用，建議再等一季，讓早期採用者的血淚教訓沉澱成可複製的最佳實踐。畢竟，能「動手」的 AI 一旦出錯，收拾殘局的成本也比單純的「說錯話」高出許多。