詳細解釋
路由(Routing)在混合專家模型 (MoE)中決定每個輸入分配給哪些專家處理,是稀疏激活的核心機制。
路由方式:
- Top-K:選擇K個最高分專家
- 門控網路:可學習的路由決策
- 雜湊:固定雜湊函數分配
- 專家選擇:每個token選擇專家
Top-K路由:
- 計算每個專家的分數
- 選Top-K個(通常K=1或2)
- 只激活選中的專家
- 其他專家完全跳過
挑戰:
- 負載平衡:專家使用不均
- 崩潰:所有輸入都去少數專家
- 丟失問題:token被錯誤路由
解決方案:
- 輔助損失:鼓勵均衡使用
- 專家容量:限制每專家最大token數
- 隨機路由:探索性分配
與混合專家模型 (MoE)的關係:
- 路由是MoE的核心組件
- 決定稀疏性和效率
- 影響最終性能和負載
是MoE架構設計的關鍵。