詳細解釋
Text-to-Video 的縮寫,將文字描述轉換為動態影片的生成式 AI 技術,是 2023-2024 年最熱門的研究方向之一。
技術路線:
- 擴散模型:將 3D 卷積應用於時空維度(Sora、Runway Gen-3、Pika)
- 自回歸:逐幀生成,維持時間連貫性(早期方法,現較少使用)
- 流模型:通過光流預測實現平滑過渡
- 混合:圖像生成模型 + 時序插值
關鍵挑戰:
- 計算量:1 秒影片(30 幀 × 512×512)比單張圖像大 30 倍
- 時間一致性:角色外觀、場景佈局在幀間保持一致
- 物理模擬:重力、碰撞、流體等物理規律的正確呈現
- 長時程:超過 10 秒的連貫敘事
代表模型(2024):
- Sora(OpenAI):最長 60 秒,品質最高,未公開
- Runway Gen-3 Alpha:10 秒,商業可用
- Pika 1.5:特效功能(爆炸、變形)
- Kling(快手):中國領先,開放公測
- Luma Dream Machine:免費,速度快
應用場景:
- 廣告創意:快速製作概念片
- 電影預演:導演視覺化想法
- 教育:歷史場景重現
- 社交媒體:TikTok、Instagram 短影片
倫理風險:
- 深偽(Deepfake):虛假政治、色情內容
- 版權:訓練數據包含電影、電視劇片段
- 失業:影視從業者擔憂
T2V 被視為「生成式 AI 的最後前沿」—— 解決了它,幾乎所有數字內容都可 AI 生成。