OpenAI 推出 GPT-5.4,電腦操控能力讓 AI 從「聊天」走進「做事」
2025 年,多數人對 AI 的印象仍停留在「很會寫信的聊天機器人」。這個認知在 2026 年 3 月初開始鬆動——OpenAI 發布了 GPT-5.4,官方文件中最醒目的不是參數量或跑分,而是一行看似平淡的描述:「原生電腦使用能力(native computer-use capabilities)」。這句話的意思是,這套模型不只能讀懂你給的指令,還能 直接操作電腦介面、執行多步驟工作流程、並在過程中自我校正。當 LLM 從「說話」進階到「動手」,整個企業軟體與自動化產業的賭局都被重新發牌。
官方公告的核心規格與數字
根據 OpenAI 發布說明,GPT-5.4 同時在 ChatGPT 介面、API、以及全新的 Codex 編碼代理服務中上線。關鍵技術參數如下:
| 項目 | 規格 |
|---|---|
| 上下文窗口 | 100 萬 token(約 75 萬字) |
| GDPval 基準 | 83%(專業知識工作評測) |
| 錯誤率 | 較 GPT-5.2 降低 33% |
| 核心能力 | 推理、編碼、代理工作流、電腦操控 |
這些數字在 benchmark 戰爭的語境裡或許只是「又進步了一代」,但「電腦操控」這項能力的加入,把競爭維度從「誰更聰明」拉到了「誰更能幫你完成整件事」。
技術限制拆解:「能動手」不等於「不會搞砸」
在興奮之餘,必須先把技術邊界講清楚。GPT-5.4 的電腦操控並非無所不能的「數位精靈」,而是一套在特定環境(沙盒化的瀏覽器與作業系統介面)中,透過模擬鍵盤滑鼠輸入來執行任務的機制。這代表:
- 它需要被明確授權:模型無法擅自開啟你電腦上的任意程式,而是在你指定的工作環境中執行。
- 複雜任務仍會出錯:多步驟流程中的任何一步都可能因介面變化、載入延遲或理解偏差而卡住。
- 安全風險真實存在:若給予過高權限,模型理論上可能誤刪檔案、錯發郵件,或在迴圈中消耗大量運算資源。
這些限制並非 OpenAI 獨有,而是整個「AI 代理」領域的共同課題。GPT-5.4 的價值在於把這些能力打包成企業可用的 API 服務,而不是讓每家公司都自己從零組裝。
商業動機:為什麼現在推出?
時間點值得玩味。2026 年初,Anthropic 的 Claude 系列已在企業編碼助手市場搶佔灘頭,Google 的 Gemini 在長上下文與多模態上持續施壓,而微軟透過 Copilot 把 AI 塞進了 Office 生態的每個縫隙。OpenAI 需要一個能跳脫「聊天介面」、直接進入企業核心工作流的故事。
電腦操控能力正是這個故事的核心。想像以下場景:
- 財務月結:AI 代理登入 ERP 系統、匯出報表、整理成 Excel、檢查異常數字、發送摘要給主管。
- 客服升級:不只是回答問題,而是直接在後台系統中查詢訂單、修改地址、啟動退貨流程。
- 軟體測試:自動操作 UI、記錄步驟、比對結果、生成缺陷報告。
這些場景過去需要 RPA(機器人流程自動化)工具或專職工程團隊來搭建。GPT-5.4 的賭注是:用自然語言描述就能啟動這些流程,大幅降低自動化的門檻。
與競品對照:Claude、Gemini、Copilot 各走各路
| 產品 | 路線 | 與 GPT-5.4 的差異 |
|---|---|---|
| Claude 3.5/4 | 企業編碼與研究助手 | 強調安全與可控,電腦操控功能較晚推出且限制較多 |
| Gemini | 長上下文與 Google 生態整合 | 側重個人化與搜尋整合,企業代理能力較弱 |
| GitHub Copilot | 編碼場景深耕 | 專注 IDE 內助手,不跨足一般電腦操作 |
| GPT-5.4 | 通用電腦代理 | 首個把「任意網頁/桌面操作」作為原生能力的大模型 |
這不是誰贏誰輸的問題,而是市場正在分化:Claude 走「高信任企業專員」路線,Gemini 走「個人全能助理」路線,而 GPT-5.4 試圖開闢「通用數位勞工」這條新路。
開發者與企業的實務影響
如果你正在評估這項技術,以下幾個判斷維度可能比跑分更重要:
成本結構:100 萬 token 的上下文能力意味著處理長文件或長對話的成本會顯著上升。OpenAI 的定價階梯是否支援你的使用模式,需要實測而非猜測。
錯誤處理:當 AI 代理在第十步出錯時,你的系統能否優雅地暫停、通知人類、或回滾到安全狀態?這需要額外的工程投資,不是 API 本身能解決的。
合規與稽核:在金融、醫療等受監管產業,「AI 操作了系統」這句話會觸發一系列法遵問題。誰授權、誰監看、誰負責,需要在部署前就有答案。
人機協作介面:完全自動化還是「人類在環(human-in-the-loop)」?後者在目前技術水平下往往更務實,但也意味著你需要設計新的 UI 來呈現 AI 的「工作進度」與「需要確認的決策點」。
批判聲音:代理能力的「責任真空」
並非所有人都為這項進展歡呼。批評者指出,當 AI 從「建議」升級到「執行」,責任歸屬會變得極度模糊。如果 AI 代理誤操作導致財務損失,是 OpenAI 的模型問題、是整合商的設定問題、還是使用者的監督問題?現有的法律與保險框架幾乎沒有準備好回答這些問題。
另一個擔憂是「自動化偏誤」:當系統看起來很會做事,人類傾向於過度信任,從而降低警覺。這在醫療診斷、金融交易等高風險場景尤其危險。
接下來如何驗證
未來三個月,觀察這幾個訊號能幫助你判斷 GPT-5.4 的「代理故事」是曇花一現還是真正落地:
- 企業案例發布:OpenAI 能否拿出可公開審視的企業部署案例,而非僅是示範影片。
- 生態系工具:是否出現專為 GPT-5.4 代理能力設計的除錯、監控、版本控制工具。
- 價格調整:如果使用量激增,OpenAI 是否會推出專門針對代理工作流的定價方案(例如按「任務完成數」而非按 token 計費)。
如果你是一般使用者,現在就能在 ChatGPT 的「Tasks」功能中體驗最陽春的代理能力。但對於企業級應用,建議再等一季,讓早期採用者的血淚教訓沉澱成可複製的最佳實踐。畢竟,能「動手」的 AI 一旦出錯,收拾殘局的成本也比單純的「說錯話」高出許多。
