FLOPS

Floating Point Operations Per Second

每秒浮點運算次數,衡量計算性能的指標

詳細解釋

FLOPS(Floating Point Operations Per Second)是衡量計算設備每秒能執行多少浮點運算的指標,常用於評估 AI 算力。

TOPS 的對比:

  • FLOPS:浮點運算,用於 AI 訓練(FP16/FP32)
  • TOPS:整數運算,用於 AI 推理(INT8)
  • 同硬體 TOPS 數字通常比 FLOPS 大(整數運算更快)

常見硬體 FLOPS:

  • NVIDIA H100:989 TFLOPS (FP16)
  • NVIDIA A100:312 TFLOPS (FP16)
  • AMD MI300X:1.3 PFLOPS (FP16)
  • 消費級 GPU:10-100 TFLOPS

實際利用率:

  • 理論峰值:硬體最大能力
  • 實際:通常 10-60%,依任務和優化而定
  • 記憶體頻寬、算法效率都會影響

優化實際 FLOPS:

  • 混合精度:FP16BF16 加速
  • 張量核心:GPU 專用矩陣運算單元
  • 算子融合:減少 kernel 啟動開銷
  • 批大小:適當增大提升利用率

評估模型算力需求:

  • 訓練:與參數量、數據量、迭代次數相關
  • 推理:與模型大小和請求量相關

硬體基礎設施 (Hardware Infrastructure)和模型訓練成本的關鍵指標。

探索更多AI詞彙

查看所有分類,繼續學習AI知識