返回趨勢情報
趨勢情報

Gemini Omni 把影片生成推進成可對話剪輯,Google 想先拿下 AI 影像工作台

2026年5月26日
易賺Ai團隊
8 分鐘閱讀
#入門#Google#影片生成#多模態 AI
Gemini Omni 把影片生成推進成可對話剪輯,Google 想先拿下 AI 影像工作台

Google 這次端出的 Gemini Omni,重點不是又一個會生成影片的模型,而是它開始把多模態 AI、對話式編修、創作工具與分發入口壓進同一條流程裡。對創作者來說,最直接的變化不是「從文字生出一段片」而已,而是終於能像改稿那樣改影片: 先給一段素材,再一輪輪用自然語言要求它改動情節、角度、風格、物件甚至角色行為,還要盡量維持場景記憶、角色一致性與基本物理感。這讓 Gemini Omni 更像一個開始接近工作台的系統,而不是一次性炫技的影片生成模型。

Google 官方把 Omni 定位成「create anything from any input」,第一波先從影片開始。輸入端可以混合文字、圖片、影片與語音參考,之後再往其他音訊形態擴。輸出端目前先落在高品質影片,後續才會再補圖片與音訊。這個排序本身就很說明戰略: Google 並沒有把 Omni 包成孤立的新 App,而是先塞進既有的 Gemini app、Google Flow、YouTube Shorts 與 YouTube Create,再預告幾週後交給開發者與企業 API。也就是說,模型、工具、創作者入口與未來商業化管道,一開始就被放在同一張桌上。

它真正改寫的是「修改」而不是「生成」

過去許多生成式影片工具最麻煩的地方,不是第一版做不出來,而是第二版之後很難穩。你想把角色衣服換掉、把場景天氣改掉、讓鏡頭角度更低、讓一個物件在第三秒才出現,常常代表要重新抽整支片,前面做過的東西也一起漂掉。Gemini Omni 把這個痛點直接拉成主賣點: 它允許使用者沿著同一條對話脈絡反覆修,讓模型記住前文、延續既有角色,並盡量讓動作與環境不要每一輪都重開。

如果這件事做得夠穩,Google 就不是只在追 OpenAI 的影片敘事,而是在把影片創作往「可迭代編修」推。這和前一天站內談到的 Gemini 3.5 Flash 正式 GA 後,Google 把前沿模型價格戰與代理戰綁成同一件事 是同一條主線的延伸: Gemini 不再只是回答問題的模型家族,而是在往一套能實際接手工作流的AI 代理能力堆疊發展。

Google 這次押的是整條創作鏈,不是一支模型 demo

Omni 上線的位置也很關鍵。Gemini app 是一般使用者入口,Google Flow 是較完整的創作工作台,YouTube Shorts 和 YouTube Create 則是分發與創作者量體最大的內容入口。官方同時在 Flow 裡補了 Flow Agent、可自然語言建立的自訂 Tools,以及 Flow 與 Flow Music 的手機版,等於把 Omni 放進一個本來就準備承接生成、規劃、批次修改與發布的環境裡。

入口這次角色真正意義
Gemini app讓一般訂閱用戶直接試 Omni Flash先把新模型變成大眾體驗,而不是只留在實驗室
Google Flow承接長流程創作、批次修改與代理協作把模型變成工作台核心,而不是單次功能
YouTube Shorts / Create低門檻導入創作者生態讓生成能力直接碰到分發場景
API / enterprise幾週後開放把創作模型往商業工具鏈與企業流程延伸

這也讓它和 Google 把 AI Mode 與 Gemini 一起塞進搜尋,Google Search 正從索引入口變成任務入口 形成呼應。Google 近幾波更新其實都在做同一件事: 把模型能力嵌進原本就有超大流量的產品面,而不是等使用者另外學一套新工具。搜尋是任務入口,Flow 是創作入口,YouTube 是分發入口,Gemini 則在中間把這些界面串起來。

對品牌團隊與創作者來說,最值錢的是反覆改版成本下降

影片工作最花錢的部分,往往不是第一支片,而是接下來那十次修正。品牌團隊會改口號、改配色、改產品鏡頭;創作者會調節奏、補轉場、換封面畫面,甚至為不同平台重切比例。如果 Gemini Omni 真能把這些修改壓成同一條對話,而不是每次都重做,它影響的就不只是一群愛玩新工具的早期使用者,而是會碰到行銷團隊、短影音工作室、教育內容團隊和中小型品牌的實際成本結構。

Google 這次還把「自己的數位分身」做成更明確的功能邊界。官方目前允許使用者用 Avatars 建立自己的數位版本,讓影片能帶著自己的聲音與外貌出現,但對於直接修改語音與口說內容的能力,Google 又刻意說還在負責任地測試。這個取捨很實際: 既要先把可用場景推出來,又不能太快踩進聲音偽造與肖像濫用的高風險區。對平台方來說,這類功能若沒有清楚的驗證與治理,最終反而會拖慢整個產品放量。

下一個要看的不是畫質,而是留存與可驗證性

當然,Gemini Omni 還沒有把所有關鍵問題一次解完。官方現在強調角色一致性、物理合理性、多輪對話修改與世界知識支撐,但真正決定它能不能吃下工作台位置的,會是三件更現實的事。

第一,長鏈編修到底穩不穩。多輪修改如果仍然容易讓人物臉、物件尺寸或鏡頭語意漂掉,那它就還只是漂亮 demo。第二,創作者會不會真的願意把工作留在 Google 這一側,而不是只把它當靈感生成器。第三,幾週後 API 開放時,Google 會不會把授權、成本與輸出限制設計成適合團隊導入,而不是只適合個人試玩。

Google 另外強調所有 Omni 生成影片都會帶上 SynthID 浮水印,並且支援用 Gemini app、Chrome 與 Google Search 做驗證。這件事很重要,因為只要模型從個人創作走向 Shorts 與商業內容供應鏈,可驗證性就不再只是安全口號,而是平台是否敢放量的前提。

Gemini Omni 因此不是一支單獨的影片模型新聞,而是 Google 想把「生成」「修改」「代理協作」「發布」變成同一套體驗的明確信號。若這條線走通,真正被改寫的就不是哪一家模型比較會做片,而是誰先把 AI 影像工作真正留在自己的產品體系裡。