o1-preview

o1-preview

OpenAI 具備推理能力的模型(Strawberry)

詳細解釋

OpenAI 於 2024 年 9 月發布的推理專用模型系列(o1-preview 和 o1-mini),主打「思考時間換性能」—— 推理時花更多時間深思熟慮,而非快速回答。

核心創新:

  • 推理時計算:測試時執行多步推理(類似 AlphaGo 的 MCTS)
  • 思維鏈:內部生成詳細推理過程(但隱藏不展示給用戶)
  • 自我糾正:發現錯誤時重新推理
  • 驗證:多種方法交叉驗證答案

性能提升:

  • 數學:GSM8k 92% → 95%+,MATH 競賽級問題顯著提升
  • 編程:Codeforces 達到 89 百分位(專業程序員水平)
  • 科學:PhD 級化學、物理問題表現突出
  • 與 GPT-4 對比:複雜推理任務強 30-50%

限制:

  • 無系統提示:忽略大部分系統消息(安全設置)
  • 無工具調用:不能瀏覽網頁、執行代碼
  • 延遲:簡單問題也慢(因為總要「思考」)
  • 成本:推理時計算消耗更多 tokens

o1-mini:

  • 更快、更便宜
  • 針對 STEM 優化,非 STEM 任務不如 GPT-4
  • 適合數學、編碼應用

行業意義:

  • 證明了「測試時擴展」路線的有效性
  • 從「預訓練擴展」到「推理時擴展」的範式轉移
  • 為 AGI 提供了新路徑:不必無限擴大模型,而是讓模型「更會思考」

這是 2024 年最重要的 AI 發布之一,展示了 LLM 的推理天花板還遠未到達。

探索更多AI詞彙

查看所有分類,繼續學習AI知識