詳細解釋
互連頻寬(Interconnect Bandwidth)指計算節點之間(如GPU-to-GPU、節點-to-節點)的數據傳輸速率。在現代分散式訓練和GPU 叢集 (GPU Cluster)中,互連頻寬往往成為系統瓶頸。
常見互連技術:
- NVLink(NVIDIA):GPU間專用互連,單向900 GB/s(Hopper架構)
- Infinity Fabric(AMD):CPU/GPU統一互連架構
- PCIe:通用擴展總線,PCIe 5.0 x16約64 GB/s
- InfiniBand:高速網絡互連,用於大規模集群,可達400 Gbps
- Ethernet:標準網絡,400GbE在數據中心普及
對AI訓練的影響:
- 資料並行 (Data Parallel) 訓練需頻繁同步梯度,需要高頻寬
- 模型並行 需跨設備傳輸激活值,對延遲敏感
- 管線並行 的氣泡時間與通信頻寬直接相關
- 頻寬不足會導致通訊開銷 (Communication Overhead),GPU閒置等待
優化策略:
- 梯度壓縮:使用FP16或量化 (模型量化) (Quantization Aware Training)減少傳輸量
- 通信與計算重疊:在反向傳播時預先發送已完成層的梯度
- 分層拓撲:機架內NVLink,機架間InfiniBand
- InfiniBand (高速叢集網路) 的 RDMA 技術實現零拷貝傳輸