🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級硬體與部署

每秒Token數

TPS

Token per second，推論速度

詳細解釋

每秒Token數（Tokens Per Second, TPS）是衡量語言模型推理速度的關鍵指標，表示模型每秒能生成的token數量，直接影響用戶體驗和系統成本。

測量方式：

首Token延遲（Time to First Token, TTFT）：從輸入到輸出第一個token的時間
流式TPS：首token後的持續生成速度
端到端TPS：總token數/總時間
批次TPS：批次推理時的總吞吐量

影響因素：

模型大小：參數越多，計算量越大
硬件：GPU/TPU/NPU的計算能力
量化：INT8/INT4比FP16更快
優化：Flash Attention、投機採樣等
序列長度：長序列的KV Cache訪問開銷
批次大小：大批次提高吞吐但增加延遲

典型數值（單請求）：

消費級GPU（RTX 4090）：20-50 TPS
數據中心GPU（A100）：50-100 TPS
優化後（Speculative Decoding）：100-200+ TPS
手機NPU：5-10 TPS

優化方向：

硬件：更強的AI加速器
量化：降低精度提高速度
投機解碼：小模型草稿+大模型驗證
批處理：提高硬件利用率
內核優化：針對特定模型的CUDA內核優化

用戶體驗：

閱讀速度：人類閱讀約5-10 token/秒
舒適TPS：>20 TPS感覺流暢
實時交互：<100ms延遲感覺即時
生成質量vs速度：權衡選擇

成本計算：

雲服務定價：通常按token計費
TPS與成本：更高TPS意味更低單位成本
硬件利用率：優化達到硬件峰值性能
規模效應：大規模服務的邊際成本

與其他指標：

延遲：首token時間
吞吐量：系統整體處理能力
TPS：單請求的生成速度

TPS是LLM服務性能和用戶體驗的核心指標。

相關詞彙

單位時間內處理的請求數

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙