量化 (模型量化) (Quantization Aware Training)

Quantization (Model Quantization) (Quantization Aware Training)

將模型權重降低精度以減少記憶體與加速推論

詳細解釋

量化(Quantization)是將模型權重和激活從高精度(FP32)轉換為低精度(INT8/INT4)的技術,減少模型大小和推理成本。

類型:

  • 訓練後量化(PTQ):
  • 模型訓練完成後轉換
  • 簡單快速
  • 可能精度損失
  • 量化感知訓練(QAT):
  • 訓練時模擬量化
  • 精度更高
  • 需要重新訓練

精度:

  • FP32:32位浮點,基準
  • FP16/BF16:16位,訓練常用
  • INT8:8位整數,4倍壓縮
  • INT4:4位,極致壓縮
  • 二值/三值:1-2位,特殊場景

方法:

  • 對稱/非對稱量化
  • 逐層/逐通道量化
  • 動態/靜態量化
  • GPTQ、AWQ等先進方法

應用:

  • 邊緣設備:手機、IoT
  • 雲端推理:降低成本
  • 大模型:減少顯存佔用

工具:

  • PyTorch:torch.quantization
  • TensorFlow:tf.quantization
  • AutoGPTQ、BitsAndBytes
  • ONNX Runtime

量化是模型部署的必備優化技術。

亦稱「Quantization Aware Training」。

探索更多AI詞彙

查看所有分類,繼續學習AI知識