稀疏MoE

Sparse MoE

每次只用部分專家的MoE

詳細解釋

稀疏MoE(Sparse MoE)是每次只激活部分專家的專家混合架構,計算量與激活專家數成正比。

與稠密MoE的對比:

  • 稀疏:每次只用Top-K專家
  • 稠密:所有專家都參與(加權組合)
  • 稀疏更高效,是主流

典型設置:

  • 總專家數:8、16、64、甚至上千
  • 激活專家:每token 1-2個
  • 計算量:與激活數成正比

代表模型:

  • Switch Transformer:每token選1個專家
  • GLaM:64專家,每token選2個
  • Mixtral 8x7B:8專家,選2個

優勢:

  • 容量大:總參數巨大
  • 計算省:每次推理計算量小
  • 專業化:不同專家學不同知識

挑戰:

  • 路由設計:負載平衡
  • 通訊:專家分佈在不同設備
  • 訓練穩定性:比稠密難訓練

混合專家模型 (MoE)的主流實現方式,讓超大模型成為可能。

探索更多AI詞彙

查看所有分類,繼續學習AI知識