3中級訓練與優化
量化 (模型量化) (Quantization Aware Training)
Quantization (Model Quantization) (Quantization Aware Training)
將模型權重降低精度以減少記憶體與加速推論
詳細解釋
量化(Quantization)是將模型權重和激活從高精度(FP32)轉換為低精度(INT8/INT4)的技術,減少模型大小和推理成本。
類型:
- 訓練後量化(PTQ):
- 模型訓練完成後轉換
- 簡單快速
- 可能精度損失
- 量化感知訓練(QAT):
- 訓練時模擬量化
- 精度更高
- 需要重新訓練
精度:
- FP32:32位浮點,基準
- FP16/BF16:16位,訓練常用
- INT8:8位整數,4倍壓縮
- INT4:4位,極致壓縮
- 二值/三值:1-2位,特殊場景
方法:
- 對稱/非對稱量化
- 逐層/逐通道量化
- 動態/靜態量化
- GPTQ、AWQ等先進方法
應用:
- 邊緣設備:手機、IoT
- 雲端推理:降低成本
- 大模型:減少顯存佔用
工具:
- PyTorch:torch.quantization
- TensorFlow:tf.quantization
- AutoGPTQ、BitsAndBytes
- ONNX Runtime
量化是模型部署的必備優化技術。
亦稱「Quantization Aware Training」。