通訊開銷 (Communication Overhead)

Communication Overhead

分散式訓練 中節點間同步梯度或參數所耗時間與頻寬,為擴展時的主要瓶頸之一。

詳細解釋

通訊開銷指在 分散式訓練 或分散式 推理 (模型推理) (Inference Optimization) (Variational Inference) 時,各節點(如 GPU 叢集 (GPU Cluster) 中的 GPU)之間傳輸梯度、參數或中間結果所花費的時間與頻寬成本。在 資料並行 (Data Parallel) 中需定期 AllReduce 同步梯度;在 模型並行管線並行 中則需傳遞啟用值或梯度,通訊往往成為瓶頸,使加速比低於線性。

降低方式包括:壓縮梯度、非同步更新、減少同步頻率、使用 InfiniBand (高速叢集網路) 等高速網路、或混合 資料並行 (Data Parallel)模型並行 以減少跨節點傳輸。與 分散式訓練資料並行 (Data Parallel)模型並行 相關。

探索更多AI詞彙

查看所有分類,繼續學習AI知識