延遲

Latency

從請求到獲得回應的時間

詳細解釋

延遲(Latency)是從輸入到輸出結果的時間間隔,是衡量AI系統即時性的關鍵指標,對交互式應用尤為重要。

類型:

  • 模型推理延遲:單次前向傳播時間
  • 端到端延遲:用戶請求到完整回應的總時間
  • 網絡延遲:數據傳輸時間
  • 首token延遲(大型語言模型 (大語言模型 / 大模型)):生成第一個token的時間
  • 流式延遲:每個後續token的生成間隔

影響因素:

  • 模型大小:參數越多延遲越高
  • 批次大小:批次越大,單樣本延遲可能越低(但首樣本等待更久)
  • 硬體:CPU vs GPU vs 神經處理單元
  • 量化:FP32 vs INT8,量化降低延遲
  • 緩存:KV快取減少重複計算
  • 網絡:請求到服務器的往返時間

優化策略:

應用場景的延遲要求:

  • 實時交互:<100ms(語音助手、自動駕駛)
  • 互動應用:<1s(推薦系統、搜尋)
  • 批量處理:可容忍分鐘級(離線分析)
  • 大型語言模型 (大語言模型 / 大模型)對話:首token < 500ms,後續流式輸出

測量方法:

  • P50:中位數延遲
  • P99:99%請求的延遲(排除異常)
  • 平均延遲:簡單平均

與吞吐量的關係:

  • 吞吐量:單位時間處理請求數
  • 權衡:優化延遲可能降低吞吐量,反之亦然
  • 設計目標取決於應用需求

延遲是實時AI應用的關鍵約束。

探索更多AI詞彙

查看所有分類,繼續學習AI知識