詳細解釋
通過增加推理時的計算(而非訓練更多參數)來提升模型性能的策略。這挑戰了「更大模型 = 更好性能」的傳統認知。
核心思想:
- 訓練時計算:模型參數量、訓練數據量、訓練步數
- 推理時計算:測試時的採樣、搜索、驗證、反思
- 洞察:小模型 + 更多推理時搜索可能擊敗大模型
具體技術:
- 多路採樣:生成多個答案,投票或選擇最佳(Self-Consistency)
- 思維鏈:要求模型逐步推理(Chain-of-Thought)
- 反思:模型評估自己的輸出並修正(Self-Refine)
- 搜索:AlphaGo 式的 MCTS(蒙特卡洛樹搜索)
- 工具使用:調用計算器、搜索引擎、代碼執行驗證
代表工作:
- OpenAI o1/o3:推理時擴展實現博士級數學和編程能力
- DeepMind AlphaCode 2:編程競賽中擊敗 85% 人類選手
- TinyStories:小模型 + 搜索寫出連貫故事
- Quiet-STaR:教語言模型在推理時「自言自語」思考
經濟學:
- 訓練成本固定,推理成本與使用成正比
- 推理時擴展讓小模型更貴(每次查詢調用多次)
- 權衡:預訓練投入 vs 推理時投入
對 AGI 的意義:
- 可能降低對超大模型的依賴
- 更接近人類認知:人類思考問題也會「慢思考」
- 測試時訓練(Test-Time Training):推理時微調模型適應特定輸入
這是 2024 年最重要的研究趨勢之一,OpenAI o1 的成功證明了這條路線的潛力。