稠密模型

Dense Model

所有參數都參與每次運算的神經網絡模型

詳細解釋

稠密模型(Dense Model)是與moe|稀疏混合專家模型相對的概念,指在每一次前向傳播過程中,模型會激活全部參數的神經網絡 (類神經網路)架構。

在稠密模型中,無論輸入是什麼,所有神經元都會參與計算。這與稀疏模型(如MoE)形成對比——後者只激活部分專家子網絡。

稠密模型的特點:

  • 計算可預測:每次推理成本相同
  • 部署較簡單:不需要複雜的路由機制
  • 記憶體需求固定:需要載入全部參數

代表模型包括早期的GPT (生成式預訓練變換器)系列、llama|Llama等。隨著模型規模增大,稠密模型面臨計算效率瓶頸,因此催生了sparse-architectures|稀疏架構的研究。

探索更多AI詞彙

查看所有分類,繼續學習AI知識