每秒Token數

TPS

Token per second,推論速度

詳細解釋

每秒Token數(Tokens Per Second, TPS)是衡量語言模型推理速度的關鍵指標,表示模型每秒能生成的token數量,直接影響用戶體驗和系統成本。

測量方式:

  • 首Token延遲(Time to First Token, TTFT):從輸入到輸出第一個token的時間
  • 流式TPS:首token後的持續生成速度
  • 端到端TPS:總token數/總時間
  • 批次TPS:批次推理時的總吞吐量

影響因素:

  • 模型大小:參數越多,計算量越大
  • 硬件:GPU/TPU/NPU的計算能力
  • 量化:INT8/INT4比FP16更快
  • 優化:Flash Attention投機採樣
  • 序列長度:長序列的KV Cache訪問開銷
  • 批次大小:大批次提高吞吐但增加延遲

典型數值(單請求):

  • 消費級GPU(RTX 4090):20-50 TPS
  • 數據中心GPU(A100):50-100 TPS
  • 優化後(Speculative Decoding):100-200+ TPS
  • 手機NPU:5-10 TPS

優化方向:

  • 硬件:更強的AI加速器
  • 量化:降低精度提高速度
  • 投機解碼:小模型草稿+大模型驗證
  • 批處理:提高硬件利用率
  • 內核優化:針對特定模型的CUDA內核優化

用戶體驗:

  • 閱讀速度:人類閱讀約5-10 token/秒
  • 舒適TPS:>20 TPS感覺流暢
  • 實時交互:<100ms延遲感覺即時
  • 生成質量vs速度:權衡選擇

成本計算:

  • 雲服務定價:通常按token計費
  • TPS與成本:更高TPS意味更低單位成本
  • 硬件利用率:優化達到硬件峰值性能
  • 規模效應:大規模服務的邊際成本

與其他指標:

  • 延遲:首token時間
  • 吞吐量:系統整體處理能力
  • TPS:單請求的生成速度

TPS是LLM服務性能和用戶體驗的核心指標。

探索更多AI詞彙

查看所有分類,繼續學習AI知識