詳細解釋
預訓練模型(Pretrained Model)是在大規模通用數據上預先訓練的模型,提供通用能力,可通過微調適配特定任務。
預訓練階段:
- 數據:網頁、書籍、論文等海量文本
- 任務:下詞預測或遮罩語言模型
- 時間:數週至數月,耗費巨大算力
- 結果:學到語言能力和世界知識
優勢:
- 節省成本:無需從零訓練大模型
- 小數據微調:特定任務只需少量數據
- 泛化能力:預訓練學到通用表示
- 快速迭代:快速適配新領域
使用方式:
- 直接推理:使用模型現有能力
- 微調 (模型微調):領域適應
- 提示工程:引導模型行為
- 檢索增強生成 (RAG):結合外部知識
代表模型:
- GPT (生成式預訓練變換器)、BERT (雙向編碼器表示)、LLaMA、T5
- 均為預訓練+可能的後續對齊
是現代NLP的標準範式。