詳細解釋
吞吐量(Throughput)是系統單位時間內處理的請求或數據量,衡量AI服務的處理能力和效率。
單位:
- 請求/秒(RPS/QPS):每秒處理的推理請求數
- Token/秒(大型語言模型 (大語言模型 / 大模型)):每秒生成的token數
- 樣本/秒:分類/回歸任務
- 幀/秒(FPS):視頻處理
與延遲的關係:
- 高吞吐量 ≠ 低延遲
- 大批次:提高吞吐量但增加單請求延遲
- 權衡:交互應用偏好低延遲,離線任務偏好高吞吐
影響因素:
- 批次大小:大批次提高硬體利用率
- 模型效率:計算量和記憶體帶寬需求
- 硬體:GPU並行能力 vs CPU串行
- 並行度:多線程、多進程、多設備
- 記憶體:GPU記憶體限制批次大小
- 網絡帶寬:數據傳輸瓶頸
優化策略:
- 動態批次:自動攢批處理請求
- 連續批次(連續批次 (Continuous Batching)):大型語言模型 (大語言模型 / 大模型)中處理不同長度序列
- 模型並行:分散到多GPU
- 張量並行、流水線並行
- 量化推理:INT8/INT4提高速度
- vLLM:PagedAttention提高吞吐量
測量方法:
- 壓力測試:逐步增加負載直到飽和
- 負載測試:模擬真實流量模式
- 基準測試:標準數據集上的統一比較
成本考量:
應用場景:
- 推薦系統:高吞吐處理大量用戶
- 搜尋引擎:實時索引和檢索
- 內容審核:批量處理上傳內容
- 大型語言模型 (大語言模型 / 大模型)服務:平衡延遲和成本
吞吐量是生產系統設計的核心指標。