詳細解釋
稠密vs稀疏模型是兩種參數使用方式的架構選擇,影響效率、能力和實現複雜度。
稠密模型(Dense Models):
- 所有參數參與每次推理
- 實現簡單:標準矩陣運算
- 硬體友好:充分利用GPU/TPU
- 優化成熟:編譯器、框架支援好
- 代表:GPT-3、Llama、大多數模型
稀疏模型(Sparse Models):
- 每次只用部分參數(如混合專家模型 (MoE))
- 總容量大:可學更多知識
- 計算高效:活躍參數少
- 實現複雜:路由、負載平衡
- 代表:Switch Transformer、Mixtral
選擇考量:
- 延遲敏感:稠密通常延遲低
- 吞吐量:稀疏可並行處理多請求
- 記憶體:稀疏總參數大,需分片
- 領域適應:稀疏易添加專門專家
趨勢:
- 稠密仍是主流
- 稀疏在超大模型(>100B)中應用
- 半稀疏(如分組查詢注意力)平衡兩者
是模型架構的重要設計選擇。