TensorRT-LLM (NVIDIA LLM 推論加速)

TensorRT-LLM (TensorRT-LLM)

NVIDIA 開源的 大型語言模型 (大語言模型 / 大模型) 推論加速庫,在 NVIDIA GPU 上優化延遲與吞吐,支援多節點與量化

詳細解釋

TensorRT-LLM 是 NVIDIA 開源的 大型語言模型 (大語言模型 / 大模型) 推理 (模型推理) (Inference Optimization) (Variational Inference) 加速庫,基於 TensorRT,針對 NVIDIA 圖形處理單元 (GPU / 圖形處理器)(如 A100、H100、B200)優化。提供 Python API,支援單卡到多卡、多節點的張量並行、流水線並行與專家並行。

內建多項優化:核心融合、量化 (模型量化) (Quantization Aware Training)(FP8/FP4)、分頁注意力、連續 batching、KV 快取管理、推測解碼等,並支援 Llama、Qwen、Gemma、DeepSeek 等主流架構。與 GPTQ (訓練後四比特權重量化)AWQ (激活感知權重量化) 等量化模型相容,常用於生產環境的高吞吐與低延遲部署。

標籤

開源

探索更多AI詞彙

查看所有分類,繼續學習AI知識