詳細解釋
使用 AI 生成 MIDI(Musical Instrument Digital Interface)數據的音樂創作技術,與直接生成音頻(如 MusicGen)相對。MIDI 僅包含音符、力度、時機等信息,需由合成器或音源渲染為聲音。
技術特點:
- 結構化表示:音符是離散 token,類似語言模型中的詞
- 可編輯:生成的 MIDI 可在 GarageBand、Logic、Ableton 中繼續編輯
- 多軌道:可生成多樂器編配(鋼琴、吉他、貝斯、鼓)
AI 方法:
- Transformer:將 MIDI 序列化為 token,自回歸生成
- Music Transformer(Google 2018):引入相對注意力,捕捉長程音樂結構
- MuseNet(OpenAI 2019):多風格多樂器生成
- 擴散模型:基於噪聲逐步去噪生成音樂結構
應用場景:
- 遊戲背景音樂:根據遊戲狀態實時生成配樂
- 廣告配樂:根據品牌風格生成短音樂
- 創意輔助:作曲家獲得靈感或草稿,在此基礎上發展
- 教育:生成練習曲、展示和聲進行
挑戰:
- 音樂理論:AI 需學習和聲、曲式、配器法
- 一致性:長篇音樂(>3分鐘)的結構連貫性
- 情感表達:音樂的「感覺」難以形式化
與音頻生成的對比:
- MIDI:結構化、可編輯、文件小,但依賴音源質量
- 音頻(WAV):直接可聽,包含音色信息,但難以編輯
代表產品:AIVA、Amper Music(已被 Shutterstock 收購)、Google Magenta。