模型蒸餾

Model Distillation

用大模型知識訓練小模型的技術

詳細解釋

模型蒸餾(Model Distillation)是將大型大型語言模型 (大語言模型 / 大模型)的知識轉移給較小模型的技術,讓小模型在保持大部分能力的同時大幅降低計算成本。

基本原理:

  • 教師模型:大型強模型(如GPT-4)
  • 學生模型:小型輕量模型
  • 知識轉移:學生學習教師的輸出分布,而非僅正確答案
  • 軟標籤:教師的概率分布包含更多資訊

優勢:

  • 推理速度:小模型快10-100倍
  • 成本降低:運算和Token計費都更便宜
  • 可部署:能在手機、邊緣設備運行
  • 環保:能耗大幅降低

應用案例:

  • DistilBERT:BERT的輕量版
  • Phi-2/3:微軟小型高效模型
  • Orca:基於GPT-4蒸餾的開源模型
  • Hugging Face上的各種蒸餾模型

微調 (模型微調)的區別:

  • 蒸餾:轉移通用知識到新架構
  • 微調:調整特定任務的參數

是降低AI (人工智能)應用成本、實現規模化的關鍵技術。

相關AI領域

標籤

進階

探索更多AI詞彙

查看所有分類,繼續學習AI知識