資料並行 (Data Parallel)

Data Parallelism (DP)

分散式訓練 方式:每張 GPU 持有一份完整模型副本,各自處理不同資料分片,再同步梯度。

詳細解釋

資料並行(data parallelism)是 分散式訓練 最常見的一種方式。每張 GPU(或節點)複製一份完整模型,各自在本地資料分片上前向與反向計算,得到梯度後再透過 AllReduce 等集體通訊同步梯度並更新參數,使各副本保持一致。

優點是實作簡單、適用於單機多卡與多機;瓶頸在梯度同步的 通訊開銷 (Communication Overhead),模型過大時需搭配 模型並行管線並行。與 分散式訓練模型並行管線並行GPU 叢集 (GPU Cluster) 相關。

探索更多AI詞彙

查看所有分類,繼續學習AI知識