管線並行

Pipeline Parallelism

將模型按層切分到多裝置,以微批次填滿管線、隱藏氣泡,為 模型並行 的一種,常用於大 大型語言模型 (大語言模型 / 大模型)

詳細解釋

管線並行(pipeline parallelism)把 Transformer架構 (變換器 / 注意力模型) (Switch Transformer) 等模型按層分到多個 圖形處理單元 (GPU / 圖形處理器),前向與反向依序經過各階段,形成管線。為減少裝置閒置(氣泡),會用多個微批次(micro-batch)交錯填滿管線(如 GPipe、Megatron 的 pipe)。常與 模型並行資料並行 (Data Parallel) 組合做 分散式訓練。與 模型並行分散式訓練大型語言模型 (大語言模型 / 大模型) 相關。

探索更多AI詞彙

查看所有分類,繼續學習AI知識