語音合成

Speech Synthesis

將文字轉為語音的技術

詳細解釋

語音合成(Speech Synthesis)是將文字轉為自然語音的技術,讓AI能「說話」,廣泛應用於語音助手、有聲書和導航系統。

技術演進:

品質維度:

  • 自然度:是否像真人說話
  • 清晰度:發音是否準確
  • 表現力:語調、情感變化
  • 即時性:能否即時生成
  • 多語言:支援語言數量

應用場景:

  • 語音助手:Siri、Alexa的聲音
  • 導航系統:Google Maps導航
  • 有聲書:自動朗讀電子書
  • 客服系統:IVR語音應答
  • 無障礙輔助:視障人士閱讀

聲音克隆:

  • 少量樣本:用3-10秒音頻克隆聲音
  • 應用:個人化語音助手、復原歷史人物聲音
  • 風險:深度偽造(deepfake)詐騙

代表技術:ElevenLabs(最自然的商業TTS)、Coqui、Piper(開源)。

探索更多AI詞彙

查看所有分類,繼續學習AI知識