詳細解釋
聲碼器(Vocoder)是將聲學特徵(如頻譜)轉換為可聽音頻波形的模型,是語音合成的最後一步。
傳統方法:
- Griffin-Lim:相位重建迭代算法
- World:聲碼器參數估計
深度學習聲碼器:
- WaveNet:自回歸,品質高慢
- WaveGlow:基於流,快且好
- HiFi-GAN:對抗生成,實時高品質
- BigVGAN:大規模高品質
輸入輸出:
- 輸入:梅爾頻譜或其他聲學特徵
- 輸出:16kHz-48kHz音頻波形
品質指標:
- MOS:平均意見分數,人耳主觀
- 客觀:Mel Cepstral Distortion等
- 實時因子:RTF<1才能實時
應用:
- 文字轉語音 (TTS):最終波形生成
- 聲音轉換:保留內容換音色
- 語音增強:頻譜修復後轉波形
現代趨勢:
- 端到端:直接文本到波形
- 輕量化:移動設備實時
- 高品質:接近人聲自然度
是語音合成管道的關鍵組件。