混合專家模型 (MoE)

Mixture of Experts (MoE)

只激活部分參數來處理輸入的大型模型架構

詳細解釋

混合專家模型(Mixture of Experts,縮寫為MoE)是一種大型語言模型 (大語言模型 / 大模型)架構,將大型模型分解為多個「專家」子網絡,每個輸入只激活部分專家,大幅提高計算效率。

核心概念:

  • 專家(Experts):多個專注不同任務的子模型
  • 門控網絡(Gating Network):決定哪些專家處理當前輸入
  • 稀疏激活:只使用部分參數,保持高效

優勢:

  • 模型容量大:總參數可達數萬億
  • 推理成本低:激活參數少,速度快
  • 專業化:不同專家處理不同類型輸入

應用模型:

  • Switch Transformer(Google)
  • GPT-4(推測使用MoE)
  • Mixtral 8x7B(開源MoE模型)

技術挑戰:

  • 負載均衡:確保專家被均衡使用
  • 訓練穩定性:門控網絡訓練困難
  • 記憶體需求:存儲所有專家參數

MoE是擴展模型規模的有效方法,在保持推理效率的同時大幅增加容量。

標籤

進階

探索更多AI詞彙

查看所有分類,繼續學習AI知識