模型並行

Model Parallelism

將單一模型切分到多張 圖形處理單元 (GPU / 圖形處理器) 或節點上,以單層或層內分割降低單機記憶體需求;常與 分散式訓練 並用。

詳細解釋

模型並行(model parallelism)把一個大模型的不同部分放在不同裝置:例如層間並行(每層在不同 GPU)、或層內並行(如 Transformer架構 (變換器 / 注意力模型) (Switch Transformer) 的頭/FFN 切分)。用於單機放不下的 大型語言模型 (大語言模型 / 大模型) 或大 卷積神經網絡 (CNN)。常與 分散式訓練資料並行 (Data Parallel) 組合為混合並行。與 分散式訓練圖形處理單元 (GPU / 圖形處理器)Transformer架構 (變換器 / 注意力模型) (Switch Transformer) 相關。

探索更多AI詞彙

查看所有分類,繼續學習AI知識