詳細解釋
文字轉語音(TTS, Text-to-Speech)是將書面文字轉換為自然語音輸出的技術,讓機器能「朗讀」。
技術組件:
- 文本分析:處理縮寫、數字、多音字
- 語言學處理:確定音素和韻律(語調、節奏)
- 聲學模型:將語言特徵轉為聲學特徵
- 聲碼器:生成最終波形
現代方法:
- 端到端:Transformer架構 (變換器 / 注意力模型) (Switch Transformer)或擴散模型 (擴散生成模型)直接文字→語音
- 聲音克隆:用少量樣本複製特定聲音
- 多說話者:單一模型支援多種聲音
- 情感控制:調整語氣和情感表達
應用場景:
- 語音助手:Siri、Alexa回應
- 導航系統:Google Maps指引
- 有聲書:自動朗讀電子書
- 無障礙輔助:幫助視障閱讀
- 客服系統:IVR語音播報
產品對比:
- 商業:ElevenLabs(最自然)、Amazon Polly、Google Cloud TTS
- 開源:Piper、Coqui、ChatTTS
與語音合成關係:通常同義,語音合成是更廣泛的術語。