2初級訓練與優化
AWQ (激活感知權重量化)
AWQ (Activation-Aware Weight Quantization)
依激活重要性保留部分權重、其餘壓成 4 bit 的 LLM 量化方法,與 GPTQ 並列常用
詳細解釋
AWQ(Activation-Aware Weight Quantization)是一種 大型語言模型 (大語言模型 / 大模型) 的訓練後 量化 (模型量化) (Quantization Aware Training) 方法:先分析激活(activation)分佈,找出對輸出影響較大的權重,只對這些權重保留較高精度(如 8 bit),其餘壓縮至 4 bit,從而用 4 bit 推理時仍能維持接近全精度的效果。
與 GPTQ (訓練後四比特權重量化) 的差異:GPTQ 以層為單位、用 Hessian 近似最小化重建誤差;AWQ 強調「激活感知」的權重篩選。兩者皆被 LMDeploy、Transformers、vLLM 等推理框架支援,常用於本地或邊緣部署大模型以降低顯存與延遲。