🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

1入門硬體與部署

延遲

Latency

從請求到獲得回應的時間

詳細解釋

延遲（Latency）是從輸入到輸出結果的時間間隔，是衡量AI系統即時性的關鍵指標，對交互式應用尤為重要。

類型：

模型推理延遲：單次前向傳播時間
端到端延遲：用戶請求到完整回應的總時間
網絡延遲：數據傳輸時間
首token延遲（大型語言模型 (大語言模型 / 大模型)）：生成第一個token的時間
流式延遲：每個後續token的生成間隔

影響因素：

模型大小：參數越多延遲越高
批次大小：批次越大，單樣本延遲可能越低（但首樣本等待更久）
硬體：CPU vs GPU vs 神經處理單元
量化：FP32 vs INT8，量化降低延遲
緩存：KV快取減少重複計算
網絡：請求到服務器的往返時間

優化策略：

模型壓縮：剪枝、量化 (模型量化) (Quantization Aware Training)
架構優化：MobileNet、EfficientNet
批次推理：攢批處理提高吞吐
硬體加速：專用AI芯片
投機採樣：投機解碼加速生成
Flash Attention：優化注意力計算

應用場景的延遲要求：

實時交互：<100ms（語音助手、自動駕駛）
互動應用：<1s（推薦系統、搜尋）
批量處理：可容忍分鐘級（離線分析）
大型語言模型 (大語言模型 / 大模型)對話：首token < 500ms，後續流式輸出

測量方法：

P50：中位數延遲
P99：99%請求的延遲（排除異常）
平均延遲：簡單平均

與吞吐量的關係：

吞吐量：單位時間處理請求數
權衡：優化延遲可能降低吞吐量，反之亦然
設計目標取決於應用需求

延遲是實時AI應用的關鍵約束。

相關詞彙

推理 (模型推理) (Inference Optimization) (Variational Inference)2

使用訓練好的AI模型對新數據進行預測的過程

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙