GPTQ (訓練後四比特權重量化)

GPTQ (GPT Quantization)

針對生成式預訓練模型的訓練後量化方法,將權重壓至 4 bit 並以 Hessian 近似最小化誤差

詳細解釋

GPTQ(GPT Quantization)是 2022 年提出的 大型語言模型 (大語言模型 / 大模型) 訓練後 量化 (模型量化) (Quantization Aware Training) 方法:將權重壓縮至 4 bit,以減少顯存與推理成本,同時盡量保持準確度。做法是將量化視為優化問題—— 逐層尋找 4 bit 權重,使該層輸出與原始輸出的誤差最小;實作上常用 Hessian 資訊做誤差補償,因此比單純四捨五入更穩。

實證上可在約數小時內完成 175B 參數模型的量化,推理速度較 FP16 有數倍提升。與 AWQ (激活感知權重量化) 並列為目前最常用的 4 bit 權重量化方式;TensorRT-LLM (NVIDIA LLM 推論加速)、vLLM、LMDeploy 等推理框架均支援 GPTQ 模型。

探索更多AI詞彙

查看所有分類,繼續學習AI知識