模型擴展

Model Scaling

增大模型規模以提升表現

詳細解釋

模型擴展(Model Scaling)是增加神經網絡規模(參數量)以提升性能的策略,是現代AI發展的核心驅動力。

擴展維度:

  • 寬度(Width):增加每層神經元/通道數
  • GPT-3 175B比GPT-2 1.5B寬得多
  • Wide ResNet:更寬但更淺
  • 計算量(Compute):訓練和推理的FLOPs
  • 最強的性能預測指標
  • Chinchilla定律:計算量決定能力

Scaling Laws:

  • 性能隨規模冪律提升:Loss ∝ C^(-k)
  • 可預測性:可外推更大模型的性能
  • 湧現能力:某些能力在特定規模突然出現

挑戰:

與效率技術的結合:

未來趨勢:

  • 更大模型:萬億參數級別
  • 更長訓練:數據規模追上模型規模
  • 多模態:文本+圖像+音頻的統一模型

模型擴展是AI能力持續提升的主要路徑。

探索更多AI詞彙

查看所有分類,繼續學習AI知識