詳細解釋
稠密模型(Dense Model)是與moe|稀疏混合專家模型相對的概念,指在每一次前向傳播過程中,模型會激活全部參數的神經網絡 (類神經網路)架構。
在稠密模型中,無論輸入是什麼,所有神經元都會參與計算。這與稀疏模型(如MoE)形成對比——後者只激活部分專家子網絡。
稠密模型的特點:
- 計算可預測:每次推理成本相同
- 部署較簡單:不需要複雜的路由機制
- 記憶體需求固定:需要載入全部參數
代表模型包括早期的GPT (生成式預訓練變換器)系列、llama|Llama等。隨著模型規模增大,稠密模型面臨計算效率瓶頸,因此催生了sparse-architectures|稀疏架構的研究。