文字轉影片

T2V (Text-to-Video)

由文字描述生成影片

詳細解釋

Text-to-Video 的縮寫,將文字描述轉換為動態影片的生成式 AI 技術,是 2023-2024 年最熱門的研究方向之一。

技術路線:

  • 擴散模型:將 3D 卷積應用於時空維度(Sora、Runway Gen-3、Pika)
  • 自回歸:逐幀生成,維持時間連貫性(早期方法,現較少使用)
  • 流模型:通過光流預測實現平滑過渡
  • 混合:圖像生成模型 + 時序插值

關鍵挑戰:

  • 計算量:1 秒影片(30 幀 × 512×512)比單張圖像大 30 倍
  • 時間一致性:角色外觀、場景佈局在幀間保持一致
  • 物理模擬:重力、碰撞、流體等物理規律的正確呈現
  • 長時程:超過 10 秒的連貫敘事

代表模型(2024):

  • Sora(OpenAI):最長 60 秒,品質最高,未公開
  • Runway Gen-3 Alpha:10 秒,商業可用
  • Pika 1.5:特效功能(爆炸、變形)
  • Kling(快手):中國領先,開放公測
  • Luma Dream Machine:免費,速度快

應用場景:

  • 廣告創意:快速製作概念片
  • 電影預演:導演視覺化想法
  • 教育:歷史場景重現
  • 社交媒體:TikTok、Instagram 短影片

倫理風險:

  • 深偽(Deepfake):虛假政治、色情內容
  • 版權:訓練數據包含電影、電視劇片段
  • 失業:影視從業者擔憂

T2V 被視為「生成式 AI 的最後前沿」—— 解決了它,幾乎所有數字內容都可 AI 生成。

探索更多AI詞彙

查看所有分類,繼續學習AI知識