詳細解釋
記憶體頻寬(Memory Bandwidth)是記憶體與處理器之間的數據傳輸速率,是 AI 計算的性能瓶頸之一。
重要性:
- Transformer架構 (變換器 / 注意力模型) (Switch Transformer) 的注意力計算需要頻繁讀寫 KV Cache
- 頻寬不足時處理器閒置等待數據(記憶體受限)
- 大模型推理常受頻寬限制而非算力限制
規格:
- DDR4:25-30 GB/s(單通道)
- DDR5:50-60 GB/s(單通道)
- 高頻寬記憶體:高頻寬記憶體,GPU 使用,可達數 TB/s
- GDDR6X:高端 GPU 顯存,900+ GB/s
優化方法:
- 量化:減少數據量,降低頻寬需求
- 快取優化:提高快取命中率
- 計算融合:減少中間結果讀寫
- Flash Attention:IO 感知算法減少頻寬需求
瓶頸識別:
- GPU 利用率低但頻寬接近滿載
- 增加批次大小反而降低吞吐量
- 使用 效能剖析器 分析確認
與 計算受限 的對比:
- 計算受限:加強算力
- 頻寬受限:需優化數據存取或提升頻寬
是硬體基礎設施 (Hardware Infrastructure)優化的關鍵指標。