詳細解釋
資料並行(data parallelism)是 分散式訓練 最常見的一種方式。每張 GPU(或節點)複製一份完整模型,各自在本地資料分片上前向與反向計算,得到梯度後再透過 AllReduce 等集體通訊同步梯度並更新參數,使各副本保持一致。
優點是實作簡單、適用於單機多卡與多機;瓶頸在梯度同步的 通訊開銷 (Communication Overhead),模型過大時需搭配 模型並行 或 管線並行。與 分散式訓練、模型並行、管線並行、GPU 叢集 (GPU Cluster) 相關。
資料並行(data parallelism)是 分散式訓練 最常見的一種方式。每張 GPU(或節點)複製一份完整模型,各自在本地資料分片上前向與反向計算,得到梯度後再透過 AllReduce 等集體通訊同步梯度並更新參數,使各副本保持一致。
優點是實作簡單、適用於單機多卡與多機;瓶頸在梯度同步的 通訊開銷 (Communication Overhead),模型過大時需搭配 模型並行 或 管線並行。與 分散式訓練、模型並行、管線並行、GPU 叢集 (GPU Cluster) 相關。