詳細解釋
模型並行(model parallelism)把一個大模型的不同部分放在不同裝置:例如層間並行(每層在不同 GPU)、或層內並行(如 Transformer架構 (變換器 / 注意力模型) (Switch Transformer) 的頭/FFN 切分)。用於單機放不下的 大型語言模型 (大語言模型 / 大模型) 或大 卷積神經網絡 (CNN)。常與 分散式訓練、資料並行 (Data Parallel) 組合為混合並行。與 分散式訓練、圖形處理單元 (GPU / 圖形處理器)、Transformer架構 (變換器 / 注意力模型) (Switch Transformer) 相關。