詳細解釋
FLOPS(Floating Point Operations Per Second)是衡量計算設備每秒能執行多少浮點運算的指標,常用於評估 AI 算力。
與 TOPS 的對比:
- FLOPS:浮點運算,用於 AI 訓練(FP16/FP32)
- TOPS:整數運算,用於 AI 推理(INT8)
- 同硬體 TOPS 數字通常比 FLOPS 大(整數運算更快)
常見硬體 FLOPS:
- NVIDIA H100:989 TFLOPS (FP16)
- NVIDIA A100:312 TFLOPS (FP16)
- AMD MI300X:1.3 PFLOPS (FP16)
- 消費級 GPU:10-100 TFLOPS
實際利用率:
- 理論峰值:硬體最大能力
- 實際:通常 10-60%,依任務和優化而定
- 記憶體頻寬、算法效率都會影響
優化實際 FLOPS:
評估模型算力需求:
- 訓練:與參數量、數據量、迭代次數相關
- 推理:與模型大小和請求量相關
是硬體基礎設施 (Hardware Infrastructure)和模型訓練成本的關鍵指標。