詳細解釋
模型擴展(Model Scaling)是增加神經網絡規模(參數量)以提升性能的策略,是現代AI發展的核心驅動力。
擴展維度:
- 深度(Depth):增加網絡層數
- 殘差網絡:152層到1000+層
- Transformer架構 (變換器 / 注意力模型) (Switch Transformer):12層到100+層
- 寬度(Width):增加每層神經元/通道數
- GPT-3 175B比GPT-2 1.5B寬得多
- Wide ResNet:更寬但更淺
- 參數量(Parameters):深度×寬度的綜合
- 大型語言模型 (大語言模型 / 大模型)從數百萬到數千億參數
- GPT-3 175B,GPT-4估計1.8T
- 計算量(Compute):訓練和推理的FLOPs
- 最強的性能預測指標
- Chinchilla定律:計算量決定能力
Scaling Laws:
- 性能隨規模冪律提升:Loss ∝ C^(-k)
- 可預測性:可外推更大模型的性能
- 湧現能力:某些能力在特定規模突然出現
挑戰:
- 計算成本:指數級增長的訓練成本
- 記憶體需求:需要更多GPU記憶體
- 數據需求:需要更多訓練數據
- 推理延遲:大模型推理慢
- 硬體基礎設施 (Hardware Infrastructure):需要專用硬體和分散式訓練
與效率技術的結合:
- 剪枝、量化 (模型量化) (Quantization Aware Training):壓縮大模型
- 知識蒸餾:小模型學習大模型
- 混合專家模型 (MoE):稀疏激活的大容量模型
- 高效架構:Mamba、線性注意力
未來趨勢:
- 更大模型:萬億參數級別
- 更長訓練:數據規模追上模型規模
- 多模態:文本+圖像+音頻的統一模型
模型擴展是AI能力持續提升的主要路徑。