詳細解釋
稀疏MoE(Sparse MoE)是每次只激活部分專家的專家混合架構,計算量與激活專家數成正比。
與稠密MoE的對比:
- 稀疏:每次只用Top-K專家
- 稠密:所有專家都參與(加權組合)
- 稀疏更高效,是主流
典型設置:
- 總專家數:8、16、64、甚至上千
- 激活專家:每token 1-2個
- 計算量:與激活數成正比
代表模型:
- Switch Transformer:每token選1個專家
- GLaM:64專家,每token選2個
- Mixtral 8x7B:8專家,選2個
優勢:
- 容量大:總參數巨大
- 計算省:每次推理計算量小
- 專業化:不同專家學不同知識
挑戰:
- 路由設計:負載平衡
- 通訊:專家分佈在不同設備
- 訓練穩定性:比稠密難訓練
是混合專家模型 (MoE)的主流實現方式,讓超大模型成為可能。