LLM 算力計算機

LLM 算力計算

預測不同硬體環境與模型規模下的 Token/s 表現與記憶體佔用

配置模型參數

點下方按鈕新增模型(可重複),再以輸入框修改參數。

預估顯存佔用 (VRAM) 4.8 GB理論大小 4.0 GB

(小螢幕可左右滑動表格)

硬體頻寬 (GB/s)VRAM (GB)TOPS模型解碼速度 (T/s)TOPS 算力速度 (T/s)讀取速度 (T/s)實際輸出 (T/s)
8B·4-bit·4K
7.2 GB
25.0
1662.5
2137.5
25.0
瓶頸:記憶體頻寬

快速添加

影響實際速度的因素

  • 實際速度 vs 理論速度:理論值僅考慮模型權重大小;實際值則包含了系統 Overhead,因此通常較慢,但更接近真實體驗。
  • Unified Memory 限制:Unified Memory(如 Apple Silicon)與系統、GPU 共用,實際可供模型使用的 RAM 可能少於裝置標稱總量,會影響可載入的模型大小與多模型配置。
  • Context Length / KV Cache:長 context 會佔用大量顯存(KV Cache),總 RAM 需求上升,可能導致不足或影響有效頻寬。
  • MoE / Active Parameters:像 35B-A3B 這類模型,顯存通常仍接近 35B 的權重體積,但每個 token 真正動到的只有 3B 左右;因此容量與速度不能用同一個參數估算。
  • Speculative Decoding:使用小 draft model 先猜 token、大模型驗證,可提升有效生成速度,倍率為經驗值。
  • Batch Size:批處理會改變記憶體與吞吐的折衷,實際框架行為可能與單 request 估算不同。
  • FlashAttention / 優化:常數(如 0.7、0.9)會隨框架與優化而變,此處為近似。
  • Tensor Parallelism (TP):多卡互聯會有通訊開銷,實際效率通常在 60–80% 之間。
  • 實際框架:vLLM、llama.cpp 等不同實作差異大,本計算機僅供規劃參考。

Token/s 計算原理

點選公式可切換顯示,一次僅顯示一則。窄寬時公式列表可橫向滑動。

理論與實際模型大小
理論值僅權重;實際值含 Activation / 系統保留等 Overhead。這裡是「顯存容量」視角,不是 MoE 的推理工作集。
Theoretical Size = Params × Bits / 8Actual Size = Theoretical Size × 1.2