3中級訓練與優化
Medusa (推論加速)
Medusa
為 大型語言模型 (大語言模型 / 大模型) 設計的推論加速方法:以多頭解碼一次產出多個候選 token,再以驗證頭篩選,可減少 推理 (模型推理) (Inference Optimization) (Variational Inference) 步數。
詳細解釋
Medusa 在 大型語言模型 (大語言模型 / 大模型) 自回歸解碼時,於主幹上掛多個「樹狀」解碼頭,一次預測多個未來的 token 候選,並用輕量驗證頭篩掉不一致的候選,從而每步可接受多個 token、降低總步數與延遲。常與 投機採樣 並論;二者皆為 推理 (模型推理) (Inference Optimization) (Variational Inference) 加速技術。與 大型語言模型 (大語言模型 / 大模型)、推理 (模型推理) (Inference Optimization) (Variational Inference) 相關;若有 speculative-decoding 可加為 related。