OpenAI 推出 ChatGPT Images 2.0,這次最值得注意的不是單純「畫質變更好」,而是它終於把過去圖像模型最容易失手的幾件事一起往前推了一大步:小字、排版、多圖一致性、非拉丁文字、以及在生成前先思考再動手。對很多人來說,這可能只是又一次 生成式AI 的升級;但如果你平常會拿圖像模型做海報、社群素材、簡報頁、介面草圖或教學圖卡,這次的變化更像是 AI 製圖從靈感玩具慢慢跨進正式工作流的分水嶺。
OpenAI 在官方發布裡把 Images 2.0 稱作「a new era of image generation」,並直接用大量範例展示它對多語字體、資訊圖、漫畫分鏡、產品海報、教學板書、學術海報與品牌設計稿的處理能力。這個訊號很直接。OpenAI 不是只想證明它可以生成更漂亮的插畫,而是要證明新的圖像模型已能處理以往最讓設計師、行銷團隊與內容團隊頭痛的任務,也就是畫面裡真正要被讀懂的資訊結構。
這次 OpenAI 真的補到哪些痛點
先看已確認的產品重點,這些資訊跨官方說明、TechCrunch、The Decoder 與 The Rundown 幾乎一致:
| 項目 | ChatGPT Images 2.0 已確認資訊 |
|---|---|
| 正式名稱 | ChatGPT Images 2.0,API 型號為 gpt-image-2 |
| 上線時間 | OpenAI 官方於 2026-04-21 發布 |
| 主要新能力 | thinking before generating、可搜尋網頁、自我檢查輸出、多圖一致性 |
| 圖像數量 | thinking 模式下可一次生成最多 8 張 |
| 解析度 | API 最高可到 2K |
| 畫面比例 | 3:1 ultrawide 到 1:3 tall |
| 強化重點 | 小字、iconography、UI 元件、dense compositions、subtle stylistic constraints |
| 語言能力 | 強調非拉丁文字與多語文字渲染提升 |
| 產品入口 | ChatGPT、Codex、API |
| API 計價 | 官方定價頁顯示 image input $8 / 1M、cached input $2 / 1M、output $30 / 1M tokens |
這張表背後其實就是圖像模型商業化最難的幾個點。上一代很多模型不是不能畫,而是不能穩定把需求轉成可直接交付的素材。只要牽涉字、版面、圖表、教學圖、廣告稿或一致角色設計,模型就很容易露餡。OpenAI 這次反覆強調 small text、iconography、UI elements、dense compositions,幾乎等於承認過去的痛點在哪裡,也代表它知道市場現在願意付錢的,不再只是「幫我畫一張很酷的圖」,而是「幫我做一份能直接上線的資產」。
文字終於不像隨機噪音,這件事比畫風提升更重要
TechCrunch 這次抓到的核心很準:Images 2.0 最讓人驚訝的地方,是它對文字的處理已經從「看起來像字」變成很多情境下真的能讀。這不是小修小補,而是圖像生成能否進入商業使用的關鍵門檻。兩年前大家還在笑餐廳菜單裡那些拼錯到不知所云的假單字,現在 OpenAI 展示的範例已經包括狼群資訊圖、數學證明黑板、學術海報、品牌書籤、旅宿宣傳頁與多語海報,說明它不只是在畫面美感上進步,而是在資訊可讀性上補課。
這一點對設計與內容工作意味著什麼?意思是很多原本要先用 提示詞 生一張底圖、再進 Figma 或 Photoshop 把字重新蓋上去的流程,現在可能有一部分可以直接在第一輪完成。當圖像模型能更穩地處理標題、副標、價格、標示、地圖說明、圖例與 UI 元件,工具角色就會從「靈感草圖機」轉向「初版成品機」。這對接案設計、品牌團隊、內容編輯與中小商家尤其有感,因為真正吃時間的從來不是把背景畫漂亮,而是把資訊排得能上架。
thinking 模式把圖像生成從即時反應拉向規劃型工作
OpenAI 這次另一個真正有結構意義的更新,是把推理能力直接帶進圖像生成。官方與第三方報導都提到 Images 2.0 不是收到要求後立刻開始畫,而是能先思考、必要時搜尋網頁、檢查輸出,再交付結果。The Decoder 甚至直接把它拿來和 Google 的 Nano Banana Pro 類比,認為兩者共同代表圖像生成正在從「直接噴圖」轉向「先規劃後出圖」。
這個改變很重要,因為它會影響生成圖像的工作型態。以前你要做一張複雜資訊圖或多格漫畫,往往得自己先拆很多步,分別餵給模型;現在 OpenAI 顯然是想讓模型多承擔一些前置規劃。官方展示裡有一組功能很有代表性:它可以一次做出多張尺寸不同但內容一致的行銷素材,也能做多格漫畫、教學海報、角色連續頁與多場景敘事。這意味著模型開始碰到真正的 production constraint,不再只是單張圖的美學表現。
如果把這波更新放回 OpenAI 近期路線看,脈絡更清楚。OpenAI 前面才剛把 GPT-5.4 往電腦操控與代理工作推進,後面又把 Codex Chronicle 這類工作記憶與上下文能力往前拉。現在 Images 2.0 再接進 ChatGPT、Codex 與 API,其實是在把圖像生成也納入同一個更大的工作平台,而不是讓它留在獨立玩具區。
多語與非拉丁字體補上後,OpenAI 瞄準的是全球廣告與內容市場
OpenAI 官方特別展示了日文、韓文、印地文、中文與其他多語範例,TechCrunch 也點出它對非拉丁文字的處理是這次一大亮點。這不是漂亮展示而已。過去很多圖像模型對英文以外的文字支援都偏弱,導致真正有跨市場需求的團隊最後還是得回到人工排版。現在若多語文字穩定度上升,最先被改寫的不是藝術家社群,而是品牌在地化、跨語市場宣傳、教材製作與小型廣告工作室。
OpenAI 在官方頁面裡丟出的案例很有目的性:旅宿宣傳頁、品牌物料、設計趨勢資訊圖、教育內容、學術海報、地區語言書籍封面與行銷版面。這些都不是純創作導向,而是接近「要被客戶拿去用」的工作產物。當模型可以更穩定地處理全球文字與印刷感版面,OpenAI 其實是在搶原本屬於模板工具、設計 SaaS 與部分外包設計流程的時間。
價格結構透露 OpenAI 想的不只是 ChatGPT 玩圖,而是 API 生意
如果只看社群熱度,Images 2.0 很像是 ChatGPT 裡的新玩法;但官方定價頁其實暴露了更重要的方向。OpenAI 已把它當成正式的 API 產品來賣。gpt-image-2 的定價頁顯示 image input 為每百萬 token 8 美元、cached input 為 2 美元、image output 為 30 美元,另有文字 token 成本。OpenAI 同時也把 web search 明碼標價,顯示這種會先查資料、再生成圖像的流程並不是附贈能力,而是準備被拿去做正式工作負載的產品組件。
The Decoder 進一步整理了按畫質與解析度計算的單張成本,指出 1024x1024 在 low / medium / high 品質下大約是 0.006、0.053、0.211 美元,較高解析度在某些檔位甚至可能比上一代更便宜,但在標準尺寸高畫質時也可能更貴。這說明 OpenAI 現在不是單純追求「每張圖越便宜越好」,而是在把圖像生成拉向像文字模型一樣的品質分層市場。便宜、快、可大量跑的版本服務大批量內容;更慢但更精細的版本則去吃品牌與高價值設計任務。
這也是這波發布最值得關注的商業訊號。圖像模型以前常被當成吸引用戶的功能,但現在 OpenAI 顯然想把它變成正式 API 收費線,而且和推理、搜尋、Codex 工作區、企業使用場景綁在一起。這樣的組合一旦成立,競爭就不只是誰能畫得更像,而是誰能讓圖片更自然地嵌進整條工作流。
OpenAI 還沒完全回答的問題也不少
當然,Images 2.0 並不是沒有保留。第一,OpenAI 沒有在外部說明中完整公開底層架構,TechCrunch 也提到 OpenAI 拒絕正面回答它到底採用了哪一種模型機制。市場現在知道它明顯比過去更會處理文字與結構,但不知道這背後是多模態自回歸設計、混合架構,或是更複雜的推理與生成分工。
第二,雖然官方強調 thinking 與 web search,但知識邊界仍不是零風險。TechCrunch 提到模型知識截止點在 2025 年 12 月,這代表即使有搜尋能力,某些最新事件或細節仍可能因資料抓取、規劃或驗證方式不同而出現偏差。對需要高度正確的新聞圖、時事圖卡或商品資訊來說,這仍不能當成免人工校對的系統。
第三,第三方像 The Rundown 雖然提到它在 Arena AI 的文字轉圖排行榜取得領先,甚至稱 OpenAI 重新拿回 image crown,但這類說法仍偏向市場情緒與社群驗證,不等於企業採購就會立即轉向。真正決定工作流是否改寫的,往往是 API 穩定度、延遲、成本、授權、編輯能力,以及團隊是否能把它接進現有產線。
這條產品線真正想吃掉的,是「先出一版圖給我看」背後的大量知識工作
如果要把這則新聞濃縮成一句話,那就是 OpenAI 正在把圖像生成從「單張內容創作」推向「可規劃、可搜尋、可排版、可多語、可進 API 的視覺工作系統」。這和早期圖像模型最大的不同,在於它不再只靠驚艷感取勝,而是開始碰最難被替代的細節工作。會不會畫一張漂亮海報,很多模型都做得到;但能不能把資訊、格式、尺寸、文字、風格一致性與多圖延續一起處理,這才決定它能否進入正式工具鏈。
短期內最值得觀察的有三件事。第一,設計平台與簡報工具會不會更快把 OpenAI 這類 thinking image model 接進自己的流程。第二,Google、Midjourney 與其他競品會不會用更透明的 benchmark 或更便宜的 API 價格正面反擊。第三,企業會不會開始把圖像生成從內容行銷邊角,升級為正式的多媒體生產能力。因為一旦圖像模型真的把字、版面與一致性補起來,它競爭的對象就不只是其他模型,而是整個設計與內容產線裡那些原本仍需要人手堆出來的第一版。
