詳細解釋
每秒Token數(Tokens Per Second, TPS)是衡量語言模型推理速度的關鍵指標,表示模型每秒能生成的token數量,直接影響用戶體驗和系統成本。
測量方式:
- 首Token延遲(Time to First Token, TTFT):從輸入到輸出第一個token的時間
- 流式TPS:首token後的持續生成速度
- 端到端TPS:總token數/總時間
- 批次TPS:批次推理時的總吞吐量
影響因素:
- 模型大小:參數越多,計算量越大
- 硬件:GPU/TPU/NPU的計算能力
- 量化:INT8/INT4比FP16更快
- 優化:Flash Attention、投機採樣等
- 序列長度:長序列的KV Cache訪問開銷
- 批次大小:大批次提高吞吐但增加延遲
典型數值(單請求):
- 消費級GPU(RTX 4090):20-50 TPS
- 數據中心GPU(A100):50-100 TPS
- 優化後(Speculative Decoding):100-200+ TPS
- 手機NPU:5-10 TPS
優化方向:
- 硬件:更強的AI加速器
- 量化:降低精度提高速度
- 投機解碼:小模型草稿+大模型驗證
- 批處理:提高硬件利用率
- 內核優化:針對特定模型的CUDA內核優化
用戶體驗:
- 閱讀速度:人類閱讀約5-10 token/秒
- 舒適TPS:>20 TPS感覺流暢
- 實時交互:<100ms延遲感覺即時
- 生成質量vs速度:權衡選擇
成本計算:
- 雲服務定價:通常按token計費
- TPS與成本:更高TPS意味更低單位成本
- 硬件利用率:優化達到硬件峰值性能
- 規模效應:大規模服務的邊際成本
與其他指標:
TPS是LLM服務性能和用戶體驗的核心指標。