詳細解釋
TFLOPS(Tera Floating-point Operations Per Second,每秒兆次浮點運算)是衡量計算設備處理浮點數運算能力的標準單位,廣泛用於評估圖形處理單元 (GPU / 圖形處理器)、張量處理單元 (TPU / 張量處理器)等AI加速器的性能。
為何重要:
- AI訓練主要使用浮點運算(FP16、BF16、FP32 (單精度浮點 / Float32))
- TFLOPS直接影響模型訓練的速度和規模
- 是硬體選型和成本效益分析的核心指標
常見硬體的TFLOPS(FP16/FP32):
- NVIDIA H100:989/51 TFLOPS
- NVIDIA A100:312/19.5 TFLOPS
- AMD MI300X:1,300/163 TFLOPS
- Apple M2 Ultra:31/15 TFLOPS
有效TFLOPS vs 峰值:
- 峰值TFLOPS是理論最大值,實際通常只能達到10-60%
- 記憶體頻寬、算法效率、數據預處理都會影響實際利用率
- Roofline 模型用於分析計算受限 vs 記憶體受限
優化實際TFLOPS: