🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級訓練與優化

量化 (模型量化) (Quantization Aware Training)

Quantization (Model Quantization) (Quantization Aware Training)

將模型權重降低精度以減少記憶體與加速推論

詳細解釋

量化（Quantization）是將模型權重和激活從高精度（FP32）轉換為低精度（INT8/INT4）的技術，減少模型大小和推理成本。

類型：

訓練後量化（PTQ）：
模型訓練完成後轉換
簡單快速
可能精度損失

量化感知訓練（QAT）：
訓練時模擬量化
精度更高
需要重新訓練

精度：

FP32：32位浮點，基準
FP16/BF16：16位，訓練常用
INT8：8位整數，4倍壓縮
INT4：4位，極致壓縮
二值/三值：1-2位，特殊場景

方法：

對稱/非對稱量化
逐層/逐通道量化
動態/靜態量化
GPTQ、AWQ等先進方法

應用：

邊緣設備：手機、IoT
雲端推理：降低成本
大模型：減少顯存佔用

工具：

PyTorch：torch.quantization
TensorFlow：tf.quantization
AutoGPTQ、BitsAndBytes
ONNX Runtime

量化是模型部署的必備優化技術。

亦稱「Quantization Aware Training」。

相關詞彙

用大模型知識訓練小模型的技術

推理 (模型推理) (Inference Optimization) (Variational Inference)2

使用訓練好的AI模型對新數據進行預測的過程

GPTQ (訓練後四比特權重量化)2

針對生成式預訓練模型的訓練後量化方法，將權重壓至 4 bit 並以 Hessian 近似最小化誤差

AWQ (激活感知權重量化)2

依激活重要性保留部分權重、其餘壓成 4 bit 的 LLM 量化方法，與 GPTQ 並列常用

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙