量化感知訓練

QAT

Quantization Aware Training

詳細解釋

量化感知訓練(Quantization-Aware Training, QAT)是在訓練過程中模擬量化效應,使模型適應低精度推理的技術,比訓練後量化(訓練後量化)效果更好。

與PTQ的區別:

  • 訓練後量化:模型訓練完成後再量化,簡單但可能有精度損失
  • QAT:訓練中模擬量化,模型學習適應低精度
  • QAT通常精度更高,但訓練成本增加

工作原理:

  • 偽量化:前向傳播時模擬量化(如FP32→INT8→FP32)
  • 梯度計算:仍然用FP32計算梯度
  • 權重更新:FP32權重更新,但受量化約束影響
  • 模型學習:找到對量化魯棒的權重值

量化類型:

  • 權重量化:權重存為INT8/INT4
  • 激活量化:中間結果量化
  • 僅權重:只量化權重,激活保持FP16/FP32
  • 全量化:權重和激活都量化

訓練流程:

  1. 用標準訓練收斂FP32模型
  2. 插入偽量化節點
  3. 繼續訓練數個epoch(微調)
  4. 轉換為真正的量化模型
  • 或從頭QAT訓練(較少見)

優勢:

  • 精度高:通常接近FP32性能
  • 推理快:INT8/INT4計算遠快於FP32
  • 記憶體省:模型大小減少4-8倍
  • 功耗低:適合邊緣設備

工具支援:

應用:

  • 移動應用:手機上運行AI
  • 自動駕駛:車載芯片推理
  • 雲推理:降低成本和延遲
  • 物聯網:邊緣設備智能

QAT是追求極致推理效率的首選方法。

探索更多AI詞彙

查看所有分類,繼續學習AI知識