詳細解釋
延遲(Latency)是從輸入到輸出結果的時間間隔,是衡量AI系統即時性的關鍵指標,對交互式應用尤為重要。
類型:
- 模型推理延遲:單次前向傳播時間
- 端到端延遲:用戶請求到完整回應的總時間
- 網絡延遲:數據傳輸時間
- 首token延遲(大型語言模型 (大語言模型 / 大模型)):生成第一個token的時間
- 流式延遲:每個後續token的生成間隔
影響因素:
- 模型大小:參數越多延遲越高
- 批次大小:批次越大,單樣本延遲可能越低(但首樣本等待更久)
- 硬體:CPU vs GPU vs 神經處理單元
- 量化:FP32 vs INT8,量化降低延遲
- 緩存:KV快取減少重複計算
- 網絡:請求到服務器的往返時間
優化策略:
- 模型壓縮:剪枝、量化 (模型量化) (Quantization Aware Training)
- 架構優化:MobileNet、EfficientNet
- 批次推理:攢批處理提高吞吐
- 硬體加速:專用AI芯片
- 投機採樣:投機解碼加速生成
- Flash Attention:優化注意力計算
應用場景的延遲要求:
- 實時交互:<100ms(語音助手、自動駕駛)
- 互動應用:<1s(推薦系統、搜尋)
- 批量處理:可容忍分鐘級(離線分析)
- 大型語言模型 (大語言模型 / 大模型)對話:首token < 500ms,後續流式輸出
測量方法:
- P50:中位數延遲
- P99:99%請求的延遲(排除異常)
- 平均延遲:簡單平均
與吞吐量的關係:
- 吞吐量:單位時間處理請求數
- 權衡:優化延遲可能降低吞吐量,反之亦然
- 設計目標取決於應用需求
延遲是實時AI應用的關鍵約束。