資料並行 (Data Parallel)

Data Parallelism (DP)

分散式訓練方式：每張 GPU 持有一份完整模型副本，各自處理不同資料分片，再同步梯度。

詳細解釋

資料並行（data parallelism）是分散式訓練最常見的一種方式。每張 GPU（或節點）複製一份完整模型，各自在本地資料分片上前向與反向計算，得到梯度後再透過 AllReduce 等集體通訊同步梯度並更新參數，使各副本保持一致。

優點是實作簡單、適用於單機多卡與多機；瓶頸在梯度同步的通訊開銷 (Communication Overhead)，模型過大時需搭配模型並行或管線並行。與分散式訓練、模型並行、管線並行、GPU 叢集 (GPU Cluster) 相關。

查看所有分類，繼續學習AI知識