參數量

Model Parameters

神經網絡中可學習的權重數量,衡量模型大小

詳細解釋

參數(Parameters)是神經網絡中從數據中學習的變量,包括權重(Weights)和偏差(Biases),決定模型的行為和預測能力。

組成:

  • 權重(Weights):
  • 層與層之間的連接強度
  • 矩陣形式(輸入維度×輸出維度)
  • 主要參數來源
  • 偏差(Biases):
  • 激活函數的偏移量
  • 每個神經元一個
  • 影響激活閾值

參數量計算:

  • 全連接層:(輸入維度 + 1) × 輸出維度
  • 卷積層:卷積核大小 × 輸入通道 × 輸出通道 + 輸出通道(偏差)
  • 嵌入層:詞彙表大小 × 嵌入維度

大模型參數:

  • GPT-3:1750億
  • GPT-4:估計1.8萬億(MoE)
  • Llama 3:最大4000億
  • 趨勢:參數規模持續增長

與超參數的對比:

  • 參數(θ):從數據學習,訓練中更新
  • 超參數:訓練前設定,控制學習過程
  • 嵌套優化:外層優化超參數,內層學習模型參數

存儲:

  • 精度影響:
  • FP32:4字節/參數
  • FP16/BF16:2字節/參數
  • INT8:1字節/參數
  • 模型大小:參數量 × 精度字節數

效率技術:

  • 參數共享:減少總參數
  • 稀疏性:部分參數為0
  • 低秩近似:減少有效參數
  • 知識蒸餾:小模型學習大模型

初始化:

  • 隨機初始化: Xavier/Glorot、He初始化
  • 預訓練:使用已有模型參數
  • 微調:在預訓練基礎上更新

參數是神經網絡的學習核心。

探索更多AI詞彙

查看所有分類,繼續學習AI知識