詳細解釋
模型蒸餾(Model Distillation)是將大型大型語言模型 (大語言模型 / 大模型)的知識轉移給較小模型的技術,讓小模型在保持大部分能力的同時大幅降低計算成本。
基本原理:
- 教師模型:大型強模型(如GPT-4)
- 學生模型:小型輕量模型
- 知識轉移:學生學習教師的輸出分布,而非僅正確答案
- 軟標籤:教師的概率分布包含更多資訊
優勢:
- 推理速度:小模型快10-100倍
- 成本降低:運算和Token計費都更便宜
- 可部署:能在手機、邊緣設備運行
- 環保:能耗大幅降低
應用案例:
- DistilBERT:BERT的輕量版
- Phi-2/3:微軟小型高效模型
- Orca:基於GPT-4蒸餾的開源模型
- Hugging Face上的各種蒸餾模型
與微調 (模型微調)的區別:
- 蒸餾:轉移通用知識到新架構
- 微調:調整特定任務的參數
是降低AI (人工智能)應用成本、實現規模化的關鍵技術。
相關AI領域
標籤
進階