Gemini Omni 把影片生成推進成可對話剪輯，Google 想先拿下 AI 影像工作台

Google 這次端出的 Gemini Omni，重點不是又一個會生成影片的模型，而是它開始把多模態 AI、對話式編修、創作工具與分發入口壓進同一條流程裡。對創作者來說，最直接的變化不是「從文字生出一段片」而已，而是終於能像改稿那樣改影片: 先給一段素材，再一輪輪用自然語言要求它改動情節、角度、風格、物件甚至角色行為，還要盡量維持場景記憶、角色一致性與基本物理感。這讓 Gemini Omni 更像一個開始接近工作台的系統，而不是一次性炫技的影片生成模型。

Google 官方把 Omni 定位成「create anything from any input」，第一波先從影片開始。輸入端可以混合文字、圖片、影片與語音參考，之後再往其他音訊形態擴。輸出端目前先落在高品質影片，後續才會再補圖片與音訊。這個排序本身就很說明戰略: Google 並沒有把 Omni 包成孤立的新 App，而是先塞進既有的 Gemini app、Google Flow、YouTube Shorts 與 YouTube Create，再預告幾週後交給開發者與企業 API。也就是說，模型、工具、創作者入口與未來商業化管道，一開始就被放在同一張桌上。

它真正改寫的是「修改」而不是「生成」

過去許多生成式影片工具最麻煩的地方，不是第一版做不出來，而是第二版之後很難穩。你想把角色衣服換掉、把場景天氣改掉、讓鏡頭角度更低、讓一個物件在第三秒才出現，常常代表要重新抽整支片，前面做過的東西也一起漂掉。Gemini Omni 把這個痛點直接拉成主賣點: 它允許使用者沿著同一條對話脈絡反覆修，讓模型記住前文、延續既有角色，並盡量讓動作與環境不要每一輪都重開。

如果這件事做得夠穩，Google 就不是只在追 OpenAI 的影片敘事，而是在把影片創作往「可迭代編修」推。這和前一天站內談到的 Gemini 3.5 Flash 正式 GA 後，Google 把前沿模型價格戰與代理戰綁成同一件事是同一條主線的延伸: Gemini 不再只是回答問題的模型家族，而是在往一套能實際接手工作流的AI 代理能力堆疊發展。

Google 這次押的是整條創作鏈，不是一支模型 demo

Omni 上線的位置也很關鍵。Gemini app 是一般使用者入口，Google Flow 是較完整的創作工作台，YouTube Shorts 和 YouTube Create 則是分發與創作者量體最大的內容入口。官方同時在 Flow 裡補了 Flow Agent、可自然語言建立的自訂 Tools，以及 Flow 與 Flow Music 的手機版，等於把 Omni 放進一個本來就準備承接生成、規劃、批次修改與發布的環境裡。

入口	這次角色	真正意義
Gemini app	讓一般訂閱用戶直接試 Omni Flash	先把新模型變成大眾體驗，而不是只留在實驗室
Google Flow	承接長流程創作、批次修改與代理協作	把模型變成工作台核心，而不是單次功能
YouTube Shorts / Create	低門檻導入創作者生態	讓生成能力直接碰到分發場景
API / enterprise	幾週後開放	把創作模型往商業工具鏈與企業流程延伸

這也讓它和 Google 把 AI Mode 與 Gemini 一起塞進搜尋，Google Search 正從索引入口變成任務入口形成呼應。Google 近幾波更新其實都在做同一件事: 把模型能力嵌進原本就有超大流量的產品面，而不是等使用者另外學一套新工具。搜尋是任務入口，Flow 是創作入口，YouTube 是分發入口，Gemini 則在中間把這些界面串起來。

對品牌團隊與創作者來說，最值錢的是反覆改版成本下降

影片工作最花錢的部分，往往不是第一支片，而是接下來那十次修正。品牌團隊會改口號、改配色、改產品鏡頭；創作者會調節奏、補轉場、換封面畫面，甚至為不同平台重切比例。如果 Gemini Omni 真能把這些修改壓成同一條對話，而不是每次都重做，它影響的就不只是一群愛玩新工具的早期使用者，而是會碰到行銷團隊、短影音工作室、教育內容團隊和中小型品牌的實際成本結構。

Google 這次還把「自己的數位分身」做成更明確的功能邊界。官方目前允許使用者用 Avatars 建立自己的數位版本，讓影片能帶著自己的聲音與外貌出現，但對於直接修改語音與口說內容的能力，Google 又刻意說還在負責任地測試。這個取捨很實際: 既要先把可用場景推出來，又不能太快踩進聲音偽造與肖像濫用的高風險區。對平台方來說，這類功能若沒有清楚的驗證與治理，最終反而會拖慢整個產品放量。

下一個要看的不是畫質，而是留存與可驗證性

當然，Gemini Omni 還沒有把所有關鍵問題一次解完。官方現在強調角色一致性、物理合理性、多輪對話修改與世界知識支撐，但真正決定它能不能吃下工作台位置的，會是三件更現實的事。

第一，長鏈編修到底穩不穩。多輪修改如果仍然容易讓人物臉、物件尺寸或鏡頭語意漂掉，那它就還只是漂亮 demo。第二，創作者會不會真的願意把工作留在 Google 這一側，而不是只把它當靈感生成器。第三，幾週後 API 開放時，Google 會不會把授權、成本與輸出限制設計成適合團隊導入，而不是只適合個人試玩。

Google 另外強調所有 Omni 生成影片都會帶上 SynthID 浮水印，並且支援用 Gemini app、Chrome 與 Google Search 做驗證。這件事很重要，因為只要模型從個人創作走向 Shorts 與商業內容供應鏈，可驗證性就不再只是安全口號，而是平台是否敢放量的前提。

Gemini Omni 因此不是一支單獨的影片模型新聞，而是 Google 想把「生成」「修改」「代理協作」「發布」變成同一套體驗的明確信號。若這條線走通，真正被改寫的就不是哪一家模型比較會做片，而是誰先把 AI 影像工作真正留在自己的產品體系裡。