梅爾頻譜

Mel Spectrogram

人耳感知的頻譜表示

詳細解釋

梅爾頻譜(Mel-Spectrogram)是人耳感知的頻譜表示,模擬人耳對頻率的非線性感知,是語音和音頻處理的標準輸入。

計算過程:

  1. 分幀:音頻切分短片段
  2. FFT:快速傅立葉變換得頻譜
  3. Mel濾波器組:合併頻率bin到Mel刻度
  4. 對數壓縮:取對數模擬人耳動態範圍

Mel刻度:

  • 模擬人耳對低頻敏感、高頻不敏感
  • 低頻區分細,高頻區分粗
  • 線性頻率→Mel頻率公式

特性:

  • 維度適中:通常80-128維
  • 可視化:直觀顯示音頻內容
  • 可逆性:可重建近似音頻
  • 語義豐富:音高、音色、內容資訊

應用:

  • 語音識別:ASR標準輸入
  • 語音合成:聲碼器輸入
  • 音樂分析:風格、情感識別
  • 生成模型:音頻擴散條件

與其他表示的比較:

  • 波形:原始,高維
  • STFT:線性頻譜
  • Mel譜:感知相關,最常用

是音頻AI的基礎表示。

探索更多AI詞彙

查看所有分類,繼續學習AI知識