1入門基礎概念
大型語言模型 (大語言模型 / 大模型)
Large Language Model (LLM) (LLM / Large Language Model)
在大量文本數據上訓練、能理解和生成自然語言的AI模型
詳細解釋
大語言模型(Large Language Model, LLM)是基於Transformer架構 (變換器 / 注意力模型) (Switch Transformer)架構、參數規模巨大(通常數十億到數千億)的語言模型,通過海量文本預訓練,展現出強大的語言理解和生成能力,甚至湧現出推理、規劃等高階能力。
核心特點:
- 規模大:參數量從數十億到數千億(GPT-3 175B,GPT-4 估計1.8T)
- 數據多:訓練數據達數萬億token
- 能力強:語言理解、生成、推理、知識問答
- 湧現能力:規模達到一定程度後突然出現新能力
架構:
- 基礎:Transformer架構 (變換器 / 注意力模型) (Switch Transformer)的解碼器架構
- 自回歸:逐token生成
- 預訓練:因果語言建模(預測下一個token)
- 上下文:支持長序列(4K-2M token)
關鍵能力:
- 零樣本學習:無需微調即可完成任務
- 上下文學習:通過提示完成新任務
- 指令遵循:理解並執行人類指令
- 推理:鏈式思考、數學推理
- 代碼生成:編寫和調試代碼
- 多語言:跨語言理解和翻譯
代表模型:
- OpenAI:GPT-3、GPT-4、GPT-4o
- Anthropic:Claude系列
- Google:PaLM、Gemini
- Meta:LLaMA系列
- 開源:Mistral、Qwen、Llama 2/3
訓練階段:
- 預訓練:
- 大規模無監督學習
- 學習語言和世界知識
- 對齊:
- SFT:監督微調學習指令遵循
- 人類回饋強化學習:人類反饋強化學習
- 安全訓練:拒絕有害請求
應用:
- 對話系統:ChatGPT、Claude
- 內容創作:寫作、編輯、翻譯
- 代碼助手:GitHub Copilot
- 知識問答:替代搜尋引擎
- 教育輔導:個性化教學
- 企業應用:客服、文檔處理
挑戰:
- 幻覺:生成虛假信息
- 偏見:訓練數據中的社會偏見
- 安全:有害內容生成
- 成本:訓練和推理昂貴
- 評估:難以全面評估能力
LLM是當前AI領域的核心技術和產品。
標籤
初學友善