詳細解釋
GPT(Generative Pre-trained Transformer)是OpenAI開發的生成式預訓練Transformer模型系列,是現代大語言模型的奠基者,引領了AI領域的發展。
發展歷程:
- GPT-1(2018):
- 1.17億參數
- 證明生成式預訓練有效
- GPT-2(2019):
- 15億參數
- 因「太危險」最初不發布完整版
- 展示強大文本生成能力
- GPT-3(2020):
- 1750億參數
- 湧現能力和上下文學習
- API開放,引發創新應用
- GPT-3.5(2022):
- 改進版本
- ChatGPT的基礎
- GPT-4(2023):
- 估計1.8萬億參數(MoE)
- 多模態(文本+圖像)
- 顯著更強的推理能力
- GPT-4o(2024):
- 「omni」,原生多模態
- 音頻、視覺、文本統一
- 更快更便宜
技術特點:
- 架構:純解碼器Transformer
- 訓練:自回歸語言建模
- 規模:參數和數據持續增長
- 對齊:RLHF確保有用和無害
影響:
- 學術:推動NLP研究範式轉變
- 產業:引發AI產品化浪潮
- 社會:AI取代工作討論
- 競爭:各大公司推出對標產品
- 投資:AI領域投資熱潮
命名:
- Generative:生成式
- Pre-trained:預訓練
- Transformer:Transformer架構
開放性:
- 早期:論文和代碼開源
- GPT-3起:僅API,不開源模型
- 引發:開源社區LLaMA等替代
GPT是當代AI最具影響力的模型系列。