🚀 2026 全民被動收入指南，賺錢就是 Easy Job

GPTQ (訓練後四比特權重量化)

GPTQ (GPT Quantization)

針對生成式預訓練模型的訓練後量化方法，將權重壓至 4 bit 並以 Hessian 近似最小化誤差

詳細解釋

GPTQ（GPT Quantization）是 2022 年提出的大型語言模型 (大語言模型 / 大模型) 訓練後量化 (模型量化) (Quantization Aware Training) 方法：將權重壓縮至 4 bit，以減少顯存與推理成本，同時盡量保持準確度。做法是將量化視為優化問題—— 逐層尋找 4 bit 權重，使該層輸出與原始輸出的誤差最小；實作上常用 Hessian 資訊做誤差補償，因此比單純四捨五入更穩。

實證上可在約數小時內完成 175B 參數模型的量化，推理速度較 FP16 有數倍提升。與 AWQ (激活感知權重量化) 並列為目前最常用的 4 bit 權重量化方式；TensorRT-LLM (NVIDIA LLM 推論加速)、vLLM、LMDeploy 等推理框架均支援 GPTQ 模型。

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙

GPTQ (訓練後四比特權重量化)

詳細解釋

相關詞彙

探索更多AI詞彙