2初級基礎概念
推理 (模型推理) (Inference Optimization) (Variational Inference)
Inference (Model Inference) (Inference Optimization) (Variational Inference)
使用訓練好的AI模型對新數據進行預測的過程
詳細解釋
推理(Inference)是訓練好的模型處理新數據生成預測的過程,是AI模型實際應用的階段,優化重點從訓練轉向延遲、吞吐量和成本。
與訓練的對比:
- 訓練:調整參數,計算梯度,計算密集
- 推理:固定權重,前向傳播,優化服務
- 硬件:訓練需強大GPU,推理可邊緣設備
優化技術:
- 量化(Quantization):
- INT8、INT4降低精度
- 減少記憶體和計算
- 加速推理
- 剪枝(Pruning):
- 移除不重要權重
- 稀疏模型加速
- 蒸餾(Distillation):
- 大模型教小模型
- 保持性能減少大小
- 編譯優化:
- ONNX Runtime
- TensorRT(NVIDIA)
- TVM(Apache)
- torch.compile
部署模式:
- 雲端API:
- 服務器處理請求
- 按量付費
- 彈性擴展
- 邊緣/本地:
- 設備端推理
- 隱私保護
- 低延遲
- 混合:
- 部分雲端,部分本地
- 根據任務動態選擇
服務優化:
- 批次處理:提高吞吐量
- 動態批次:自適應組合請求
- 緩存:常用結果緩存
- KV Cache:LLM推理優化
- 投機解碼:加速生成
推理硬件:
- 數據中心:GPU、TPU
- 邊緣:NPU、專用芯片
- 移動:手機NPU
- 專用:推理加速器(AWS Inferentia)
工具:
- NVIDIA Triton Inference Server
- TensorFlow Serving
- TorchServe
- KServe(Kubernetes)
- vLLM(LLM專用)
推理是AI產品化的關鍵環節。
亦稱「Inference Optimization」。
亦稱「Variational Inference」。