擴展定律

Scaling Laws

模型表現隨規模的規律

詳細解釋

觀察到的經驗規律:模型性能隨計算量、數據量、參數量的冪律增長。這是 LLM 發展的理論基礎。

核心發現(OpenAI、DeepMind 2020):

  • 損失 ∝ (C)^(-α),C 是計算量,α 是冪律指數(約 0.05-0.1)
  • 三要素:
  • 參數量 N
  • 數據量 D
  • 計算量 C ≈ 6ND(對於 decoder-only Transformer)
  • 最優配比:給定計算預算,N 和 D 應等比例擴展

預測能力:

  • 在訓練前預測最終性能
  • 決定資源分配:10 倍計算 → 多少參數?多少數據?
  • 避免浪費:識別訓練不足或過度

Chinchilla 定律(DeepMind 2022):

  • 模型和數據應等比例擴展(給定計算)
  • 很多模型「訓練不足」(參數太大,數據太少)
  • 例如:70B 模型應配 1.4T tokens,而非通常的 300B

實證例子:

  • GPT-3 → GPT-4:計算量增加 10-100 倍,性能穩步提升
  • Llama 系列:遵循 Chinchilla,數據量與參數量等比增長

挑戰與修正:

  • 數據耗盡:高質量文本有限,定律可能失效
  • 推理成本:更大模型更難部署
  • 新架構:MoE、RWKV 可能改變規律
  • 湧現能力:某些能力非平滑提升,而是突然出現

這是「大模型時代的摩爾定律」—— 讓我們對未來性能有可預測的期待。

探索更多AI詞彙

查看所有分類,繼續學習AI知識