詳細解釋
語音合成(Speech Synthesis)是將文字轉為自然語音的技術,讓AI能「說話」,廣泛應用於語音助手、有聲書和導航系統。
技術演進:
- 拼接合成:拼接預錄音片段
- 參數合成:聲學模型生成
- 神經網絡:WaveNet開創深度學習時代
- 現代:Transformer架構 (變換器 / 注意力模型) (Switch Transformer)和擴散模型 (擴散生成模型)生成高品質語音
品質維度:
- 自然度:是否像真人說話
- 清晰度:發音是否準確
- 表現力:語調、情感變化
- 即時性:能否即時生成
- 多語言:支援語言數量
應用場景:
- 語音助手:Siri、Alexa的聲音
- 導航系統:Google Maps導航
- 有聲書:自動朗讀電子書
- 客服系統:IVR語音應答
- 無障礙輔助:視障人士閱讀
聲音克隆:
- 少量樣本:用3-10秒音頻克隆聲音
- 應用:個人化語音助手、復原歷史人物聲音
- 風險:深度偽造(deepfake)詐騙
代表技術:ElevenLabs(最自然的商業TTS)、Coqui、Piper(開源)。