詳細解釋
梅爾頻譜(Mel-Spectrogram)是人耳感知的頻譜表示,模擬人耳對頻率的非線性感知,是語音和音頻處理的標準輸入。
計算過程:
- 分幀:音頻切分短片段
- FFT:快速傅立葉變換得頻譜
- Mel濾波器組:合併頻率bin到Mel刻度
- 對數壓縮:取對數模擬人耳動態範圍
Mel刻度:
- 模擬人耳對低頻敏感、高頻不敏感
- 低頻區分細,高頻區分粗
- 線性頻率→Mel頻率公式
特性:
- 維度適中:通常80-128維
- 可視化:直觀顯示音頻內容
- 可逆性:可重建近似音頻
- 語義豐富:音高、音色、內容資訊
應用:
- 語音識別:ASR標準輸入
- 語音合成:聲碼器輸入
- 音樂分析:風格、情感識別
- 生成模型:音頻擴散條件
與其他表示的比較:
- 波形:原始,高維
- STFT:線性頻譜
- Mel譜:感知相關,最常用
是音頻AI的基礎表示。