詳細解釋
參數(Parameters)是神經網絡中從數據中學習的變量,包括權重(Weights)和偏差(Biases),決定模型的行為和預測能力。
組成:
- 權重(Weights):
- 層與層之間的連接強度
- 矩陣形式(輸入維度×輸出維度)
- 主要參數來源
- 偏差(Biases):
- 激活函數的偏移量
- 每個神經元一個
- 影響激活閾值
參數量計算:
- 全連接層:(輸入維度 + 1) × 輸出維度
- 卷積層:卷積核大小 × 輸入通道 × 輸出通道 + 輸出通道(偏差)
- 嵌入層:詞彙表大小 × 嵌入維度
大模型參數:
- GPT-3:1750億
- GPT-4:估計1.8萬億(MoE)
- Llama 3:最大4000億
- 趨勢:參數規模持續增長
與超參數的對比:
- 參數(θ):從數據學習,訓練中更新
- 超參數:訓練前設定,控制學習過程
- 嵌套優化:外層優化超參數,內層學習模型參數
存儲:
- 精度影響:
- FP32:4字節/參數
- FP16/BF16:2字節/參數
- INT8:1字節/參數
- 模型大小:參數量 × 精度字節數
效率技術:
- 參數共享:減少總參數
- 稀疏性:部分參數為0
- 低秩近似:減少有效參數
- 知識蒸餾:小模型學習大模型
初始化:
- 隨機初始化: Xavier/Glorot、He初始化
- 預訓練:使用已有模型參數
- 微調:在預訓練基礎上更新
參數是神經網絡的學習核心。