詳細解釋
管線並行(pipeline parallelism)把 Transformer架構 (變換器 / 注意力模型) (Switch Transformer) 等模型按層分到多個 圖形處理單元 (GPU / 圖形處理器),前向與反向依序經過各階段,形成管線。為減少裝置閒置(氣泡),會用多個微批次(micro-batch)交錯填滿管線(如 GPipe、Megatron 的 pipe)。常與 模型並行、資料並行 (Data Parallel) 組合做 分散式訓練。與 模型並行、分散式訓練、大型語言模型 (大語言模型 / 大模型) 相關。