推論時擴展

Inference-time Scaling

在回答時花更多時間思考以提高品質

詳細解釋

通過增加推理時的計算(而非訓練更多參數)來提升模型性能的策略。這挑戰了「更大模型 = 更好性能」的傳統認知。

核心思想:

  • 訓練時計算:模型參數量、訓練數據量、訓練步數
  • 推理時計算:測試時的採樣、搜索、驗證、反思
  • 洞察:小模型 + 更多推理時搜索可能擊敗大模型

具體技術:

  • 多路採樣:生成多個答案,投票或選擇最佳(Self-Consistency)
  • 思維鏈:要求模型逐步推理(Chain-of-Thought)
  • 反思:模型評估自己的輸出並修正(Self-Refine)
  • 搜索:AlphaGo 式的 MCTS(蒙特卡洛樹搜索)
  • 工具使用:調用計算器、搜索引擎、代碼執行驗證

代表工作:

  • OpenAI o1/o3:推理時擴展實現博士級數學和編程能力
  • DeepMind AlphaCode 2:編程競賽中擊敗 85% 人類選手
  • TinyStories:小模型 + 搜索寫出連貫故事
  • Quiet-STaR:教語言模型在推理時「自言自語」思考

經濟學:

  • 訓練成本固定,推理成本與使用成正比
  • 推理時擴展讓小模型更貴(每次查詢調用多次)
  • 權衡:預訓練投入 vs 推理時投入

對 AGI 的意義:

  • 可能降低對超大模型的依賴
  • 更接近人類認知:人類思考問題也會「慢思考」
  • 測試時訓練(Test-Time Training):推理時微調模型適應特定輸入

這是 2024 年最重要的研究趨勢之一,OpenAI o1 的成功證明了這條路線的潛力。

探索更多AI詞彙

查看所有分類,繼續學習AI知識