詳細解釋
觀察到的經驗規律:模型性能隨計算量、數據量、參數量的冪律增長。這是 LLM 發展的理論基礎。
核心發現(OpenAI、DeepMind 2020):
- 損失 ∝ (C)^(-α),C 是計算量,α 是冪律指數(約 0.05-0.1)
- 三要素:
- 參數量 N
- 數據量 D
- 計算量 C ≈ 6ND(對於 decoder-only Transformer)
- 最優配比:給定計算預算,N 和 D 應等比例擴展
預測能力:
- 在訓練前預測最終性能
- 決定資源分配:10 倍計算 → 多少參數?多少數據?
- 避免浪費:識別訓練不足或過度
Chinchilla 定律(DeepMind 2022):
- 模型和數據應等比例擴展(給定計算)
- 很多模型「訓練不足」(參數太大,數據太少)
- 例如:70B 模型應配 1.4T tokens,而非通常的 300B
實證例子:
- GPT-3 → GPT-4:計算量增加 10-100 倍,性能穩步提升
- Llama 系列:遵循 Chinchilla,數據量與參數量等比增長
挑戰與修正:
- 數據耗盡:高質量文本有限,定律可能失效
- 推理成本:更大模型更難部署
- 新架構:MoE、RWKV 可能改變規律
- 湧現能力:某些能力非平滑提升,而是突然出現
這是「大模型時代的摩爾定律」—— 讓我們對未來性能有可預測的期待。