LLM 算力計算機

LLM 算力計算

預測不同硬體環境與模型規模下的 Token/s 表現與記憶體佔用

配置模型參數

點下方按鈕新增模型（可重複），再以輸入框修改參數。

參數規模 (Parameters)

量化

Context

預估顯存佔用 (VRAM) 4.8 GB理論大小 4.0 GB

（小螢幕可左右滑動表格）

硬體	頻寬 (GB/s)	VRAM (GB)	TOPS	模型	解碼速度 (T/s)	TOPS 算力速度 (T/s)	讀取速度 (T/s)	實際輸出 (T/s)
				8B·4-bit·4K 需 7.2 GB	25.0	1662.5	2137.5	25.0 瓶頸：記憶體頻寬

實際速度 vs 理論速度：理論值僅考慮模型權重大小；實際值則包含了系統 Overhead，因此通常較慢，但更接近真實體驗。
Unified Memory 限制：Unified Memory（如 Apple Silicon）與系統、GPU 共用，實際可供模型使用的 RAM 可能少於裝置標稱總量，會影響可載入的模型大小與多模型配置。
Context Length / KV Cache：長 context 會佔用大量顯存（KV Cache），總 RAM 需求上升，可能導致不足或影響有效頻寬。
MoE / Active Parameters：像 35B-A3B 這類模型，顯存通常仍接近 35B 的權重體積，但每個 token 真正動到的只有 3B 左右；因此容量與速度不能用同一個參數估算。
Speculative Decoding：使用小 draft model 先猜 token、大模型驗證，可提升有效生成速度，倍率為經驗值。
Batch Size：批處理會改變記憶體與吞吐的折衷，實際框架行為可能與單 request 估算不同。
FlashAttention / 優化：常數（如 0.7、0.9）會隨框架與優化而變，此處為近似。
Tensor Parallelism (TP)：多卡互聯會有通訊開銷，實際效率通常在 60–80% 之間。
實際框架：vLLM、llama.cpp 等不同實作差異大，本計算機僅供規劃參考。

點選公式可切換顯示，一次僅顯示一則。窄寬時公式列表可橫向滑動。

理論與實際模型大小

理論值僅權重；實際值含 Activation / 系統保留等 Overhead。這裡是「顯存容量」視角，不是 MoE 的推理工作集。

Theoretical Size = Params × Bits / 8Actual Size = Theoretical Size × 1.2