聲碼器

Vocoder

將特徵轉為音訊的模型

詳細解釋

聲碼器(Vocoder)是將聲學特徵(如頻譜)轉換為可聽音頻波形的模型,是語音合成的最後一步。

傳統方法:

  • Griffin-Lim:相位重建迭代算法
  • World:聲碼器參數估計

深度學習聲碼器:

  • WaveNet:自回歸,品質高慢
  • WaveGlow:基於流,快且好
  • HiFi-GAN:對抗生成,實時高品質
  • BigVGAN:大規模高品質

輸入輸出:

  • 輸入:梅爾頻譜或其他聲學特徵
  • 輸出:16kHz-48kHz音頻波形

品質指標:

  • MOS:平均意見分數,人耳主觀
  • 客觀:Mel Cepstral Distortion等
  • 實時因子:RTF<1才能實時

應用:

  • 文字轉語音 (TTS):最終波形生成
  • 聲音轉換:保留內容換音色
  • 語音增強:頻譜修復後轉波形

現代趨勢:

  • 端到端:直接文本到波形
  • 輕量化:移動設備實時
  • 高品質:接近人聲自然度

是語音合成管道的關鍵組件。

探索更多AI詞彙

查看所有分類,繼續學習AI知識