蒸餾感知訓練

Distillation-aware Training

訓練時即考慮後續蒸餾

詳細解釋

在訓練大模型時考慮後續將被蒸餾(distillation)到小模型的技術,優化大模型的「可教性」。

傳統問題:

  • 大模型追求自身最高性能,可能過擬合,難以教會小模型
  • 大模型的軟概率(logits)可能過於「尖銳」,信息丟失
  • 蒸餾時小模型學習效率低

蒸餾感知策略:

  • 標籤平滑:訓練時使用軟標籤,避免過度自信
  • 溫度調整:Softmax 溫度參數讓概率分布更平滑
  • 多樣性訓練:數據增強讓大模型對變化更魯棒
  • 輔助損失:添加蒸餾友好目標(如中間層對齊)

好處:

  • 小模型性能提升 5-15%(相比直接蒸餾標準大模型)
  • 減少小模型參數量仍能達到目標性能
  • 降低邊緣部署成本

應用場景:

  • 移動端部署:追求極致壓縮
  • 多租戶:一個大模型服務多個小模型定制
  • 連續學習:大模型更新後,小模型快速適應

與標準蒸餾的對比:

  • 標準:固定大模型,優化小模型學習
  • 蒸餾感知:同時優化大模型(為可教性)和小模型

這是「模型壓縮」的前沿研究—— 不只優化最終性能,還優化「傳承」給下一代模型的能力。

探索更多AI詞彙

查看所有分類,繼續學習AI知識