返回趨勢情報
趨勢情報

Grok Imagine 1.5 把 720p 圖生影片送進 API 後,xAI 不只想做聊天模型,還想插旗影像生成供應鏈

2026年6月4日
易賺Ai團隊
8 分鐘閱讀
#API#影片生成#xAI#Grok#生成式 AI
Grok Imagine 1.5 把 720p 圖生影片送進 API 後,xAI 不只想做聊天模型,還想插旗影像生成供應鏈

xAI 正把 Grok 從會說話的助手,往會產出影音素材的生成平台推。最新推出的 Grok Imagine 1.5 preview,核心能力是把單張靜態圖片直接轉成最長可到 720p 的流暢影片,開發者只要給一張起始畫面,再用自然語言描述鏡頭運動、節奏、氛圍甚至 sound design,模型就會沿著原圖的光線、細節與構圖往下延伸。這讓它不只是另一個視頻生成模型更新,而更像 xAI 想往創作工作流和內容供應鏈補上的新模組。

這次更新最關鍵的地方,在於它不是先走 consumer app 炫技,而是直接以API preview 形式釋出 grok-imagine-video-1.5-preview。官方頁面給的定位相當清楚:這是一個 image-to-video 模型,能設定解析度、時長,能把多個鏡頭串成更長片段,並盡量保持整體視覺一致。對創作者與團隊來說,這意味著 Grok Imagine 1.5 想解的,不只是「幫我生一段影片」,而是「幫我把一組視覺素材沿著同一種風格展開成可剪輯序列」。這也是為什麼 xAI 特別強調它對 source image 的忠實度,而不是只強調更炫的視覺奇觀。

如果把時間線拉長來看,xAI 的想法其實很連貫。年初推出的 Grok Imagine API,主打的是同時做文字生影片、圖片生影片與影片編修,並用官方 benchmark 圖表把自己擺在 Veo、Sora、Kling、Seedance 前面,反覆強調品質、延遲與成本三件事要一起看。五月的 Quality Mode 又把圖像端的 realism、文字渲染與 creative control 往上推,還直接把行銷、商品展示與品牌素材列成企業 use cases。現在的 1.5 preview,則像是把這條路線再收斂一步:先把最容易進入工作流的 image-to-video 做厚,讓開發者能用一張主視覺、一段提示詞和一個 API 呼叫,把內容快速展開成可用片段。

階段xAI 這一路補了什麼真正意義
1 月 Grok Imagine API文字生影片、圖片生影片、影片編修、品質與延遲比較先宣告自己要打的是影像生成平台,不只是聊天附屬功能
5 月 Quality Mode更高 realism、文字渲染、創意控制把靜態影像品質與品牌可用性拉高
6 月 1.5 Preview720p image-to-video、鏡頭控制、多鏡頭串接把生成能力往可編排序列和開發者工作流推進

市場位置也因此變得更清楚。The Decoder 在六月初的整理裡,已經把 Grok Imagine 1.5 直接放進 Veo 與 Seedance 的競爭脈絡,原因很簡單:影片生成這一輪比的已經不是誰先把 demo 做出來,而是誰能把畫質、穩定度、速度、可控性和分發方式一起交出來。這點跟站內前面寫過的 Gemini Omni 把影片生成推進成可對話剪輯,Google 想先拿下 AI 影像工作台 正好形成對照。Google 想把影片模型塞進完整工作台和產品矩陣,xAI 則更像是從模型與 API 端切入,先抓住開發者與內容工具鏈的中間層。

這也能解釋為什麼 xAI 近幾週會連續把 Build、Voice、Imagine 都往外擴。若回頭看站內的 Grok Build 擴大開放後,xAI 終於把 coding 戰場從模型秀場拉回開發流程,可以發現 xAI 現在的產品節奏已經不是只圍著聊天本身打轉,而是想把聊天、寫程式、聲音和影像逐步串成同一家 API 公司該有的能力矩陣。從這個角度看,Grok Imagine 1.5 不算支線,而是 xAI 嘗試從「有個人格鮮明的聊天模型」轉向「有多個生成模組可供企業和創作者調用」的必要拼圖。

對開發者與內容團隊來說,這波更新真正值錢的地方,是可控鏡頭語言和序列一致性。如果你今天要做商品短片、角色動畫、社群影片或教育內容,最麻煩的通常不是第一個鏡頭,而是後面那些維持同一角色、同一光感、同一品牌語氣的鏡頭能不能接得起來。xAI 在官方文案裡特別強調可以 chain shots,這個表述雖然還很早期,但已經點到影像團隊最實際的痛點:誰能把生成影片從單支素材拉成一條可延展的 shot pipeline,誰就更有機會進入真正的生產流程。

不過,xAI 這條路也有很明顯的風險。第一,1.5 preview 公布時並沒有同步端出新的價格表或獨立 benchmark 數據,表示官方暫時更重視生態試用,而不是先把規格戰打到底。第二,影片模型的問題從來不只在畫面,而在安全與分發。TechRadar 先前報導 Grok Imagine 面向消費端時,就特別點出所謂的「spicy mode」與平台治理爭議。即使 xAI 強調有過濾與 moderation,外界仍會繼續追問:一家先前在內容治理上爭議不少的公司,是否有能力把生成影片安全地擴到更大範圍。當產品開始碰到人像、品牌素材與可被誤用的影像生成,這不再只是功能問題,而是信任成本問題。

第三,xAI 雖然沿用了 Grok Imagine 家族「品質、成本、延遲一起看」的論述,但六月這一版更像是工作流補強,而不是終局答案。720p 對很多社群與 prototype 場景已經夠用,可一旦進入商業廣告、品牌主素材或高端創作,團隊接下來還是會追問更長片段、一致角色、更穩定物理與更細緻後製接口。換句話說,1.5 preview 很可能是 xAI 往內容基礎層插旗的一步,但還不是影像工作台真正定型的那一步。

即便如此,Grok Imagine 1.5 仍然是一個值得單獨寫的訊號,因為它把 xAI 的野心講得更白了:這家公司不滿足於只有一個能聊天、能搜尋、能寫程式的 Grok,它還想在影像生成這條供應鏈上佔一個位置。當 OpenAI 暫時收掉 Sora、Google 把 Veo 和 Omni 往產品體系裡塞、更多工具把影片生成拉進內容工作流時,xAI 現在選擇的是從 API 與開發者入口切進去。未來真正要看的,不會只是它能不能做出更好看的片,而是 Grok Imagine 能不能讓更多團隊把影片生成當成一個可調用、可串接、可反覆迭代的基礎能力。