InfiniBand (高速叢集網路)

InfiniBand

用於 GPU 叢集 (GPU Cluster) 與 HPC 的高速低延遲網路技術,可達 400Gb/s,降低 通訊開銷 (Communication Overhead)

詳細解釋

InfiniBand 為 GPU 叢集 (GPU Cluster) 與高效能運算常見的互連技術,提供高頻寬(如 400Gb/s、NVIDIA Quantum-2 更高)與極低延遲,支援 RDMA、GPUDirect 等以減少 CPU 參與與 通訊開銷 (Communication Overhead)。在 分散式訓練 中,資料並行 (Data Parallel) 的 AllReduce 與 模型並行 的激活/梯度傳輸依賴此類網路。與 GPU 叢集 (GPU Cluster)分散式訓練通訊開銷 (Communication Overhead) 相關。

探索更多AI詞彙

查看所有分類,繼續學習AI知識