2初級訓練與優化
連續批次 (Continuous Batching)
Continuous Batching
大型語言模型 (大語言模型 / 大模型) 推理 (模型推理) (Inference Optimization) (Variational Inference) 優化:每步解碼後可替換已完成序列為新請求,提高 GPU 利用率與吞吐。
詳細解釋
連續批次(continuous batching,又稱 dynamic batching 或 in-flight batching)是 大型語言模型 (大語言模型 / 大模型) 推理 (模型推理) (Inference Optimization) (Variational Inference) 的排程方式。傳統靜態批次需等整批請求都生成結束才能接新請求;連續批次在每個解碼步後,只要某序列產出 EOS 就立刻從批次中移除並加入新請求,使 GPU 持續滿載。
效果:短序列先結束不拖慢整批,吞吐可較單純 batching 提升數倍至數十倍(如 vLLM 結合 PagedAttention 的實作),並改善延遲。與 推理 (模型推理) (Inference Optimization) (Variational Inference)、大型語言模型 (大語言模型 / 大模型)、分散式訓練 相關。