詳細解釋
GPTQ(GPT Quantization)是 2022 年提出的 大型語言模型 (大語言模型 / 大模型) 訓練後 量化 (模型量化) (Quantization Aware Training) 方法:將權重壓縮至 4 bit,以減少顯存與推理成本,同時盡量保持準確度。做法是將量化視為優化問題—— 逐層尋找 4 bit 權重,使該層輸出與原始輸出的誤差最小;實作上常用 Hessian 資訊做誤差補償,因此比單純四捨五入更穩。
實證上可在約數小時內完成 175B 參數模型的量化,推理速度較 FP16 有數倍提升。與 AWQ (激活感知權重量化) 並列為目前最常用的 4 bit 權重量化方式;TensorRT-LLM (NVIDIA LLM 推論加速)、vLLM、LMDeploy 等推理框架均支援 GPTQ 模型。