詳細解釋
通訊開銷指在 分散式訓練 或分散式 推理 (模型推理) (Inference Optimization) (Variational Inference) 時,各節點(如 GPU 叢集 (GPU Cluster) 中的 GPU)之間傳輸梯度、參數或中間結果所花費的時間與頻寬成本。在 資料並行 (Data Parallel) 中需定期 AllReduce 同步梯度;在 模型並行 或 管線並行 中則需傳遞啟用值或梯度,通訊往往成為瓶頸,使加速比低於線性。
降低方式包括:壓縮梯度、非同步更新、減少同步頻率、使用 InfiniBand (高速叢集網路) 等高速網路、或混合 資料並行 (Data Parallel) 與 模型並行 以減少跨節點傳輸。與 分散式訓練、資料並行 (Data Parallel)、模型並行 相關。