路由

Routing

MoE中分配輸入給專家

詳細解釋

路由(Routing)在混合專家模型 (MoE)中決定每個輸入分配給哪些專家處理,是稀疏激活的核心機制。

路由方式:

  • Top-K:選擇K個最高分專家
  • 門控網路:可學習的路由決策
  • 雜湊:固定雜湊函數分配
  • 專家選擇:每個token選擇專家

Top-K路由:

  • 計算每個專家的分數
  • 選Top-K個(通常K=1或2)
  • 只激活選中的專家
  • 其他專家完全跳過

挑戰:

  • 負載平衡:專家使用不均
  • 崩潰:所有輸入都去少數專家
  • 丟失問題:token被錯誤路由

解決方案:

  • 輔助損失:鼓勵均衡使用
  • 專家容量:限制每專家最大token數
  • 隨機路由:探索性分配

混合專家模型 (MoE)的關係:

  • 路由是MoE的核心組件
  • 決定稀疏性和效率
  • 影響最終性能和負載

是MoE架構設計的關鍵。

探索更多AI詞彙

查看所有分類,繼續學習AI知識