返回趨勢情報
趨勢情報

Qwen 的 FIPO 讓模型學會想更久:真正被獎勵的是關鍵步驟

Qwen's FIPO Teaches Models to Think Longer by Rewarding the Steps That Matter

2026年4月5日
易賺Ai團隊
4 分鐘閱讀
#AI新聞#趨勢#Qwen#研究#推理模型#訓練算法
Qwen 的 FIPO 讓模型學會想更久:真正被獎勵的是關鍵步驟

Qwen 的 FIPO 讓模型學會想更久:真正被獎勵的是關鍵步驟

如果說許多推理模型的進步是靠「多想幾步」,那 Alibaba 的 Qwen 團隊現在做的是更細一層的事:不是單純鼓勵模型把答案寫長,而是讓它知道哪一些 token 真正推動了後面的推理。AI 研究裡常見的粗糙獎勵,正在被 FIPO 這類方法拆得更細。OpenAI 和其他前沿團隊一直在做的長鏈推理優化,現在又多了一個很有力的競爭者。

FIPO 到底改了什麼

The Decoder 和論文摘要都指出,FIPO 的核心想法是把每個 token 對後續推理鏈的影響單獨估算,而不是把整段回答當成一個平面分數。傳統做法常常是最後只看對錯,然後把獎勵平均灑回去;FIPO 則是往前看,判斷某一步到底有沒有把模型推向更好的下一步。

這件事看似技術細節,實際上很關鍵。因為對推理模型來說,真正昂貴的不是寫一個答案,而是學會在中途自我檢查、修正路徑、捨棄錯誤分支。FIPO 正是想把這種行為變成可訓練的目標。

效果很強,但邊界也很清楚

研究結果顯示,FIPO 在 Qwen2.5-32B-Base 上能把思考鏈拉得更長,平均推理長度從大約 4,000 token 往 10,000 以上推進,同時在 AIME 2024 這類數學基準上把正確率從約 50% 拉到 56% 到 58% 的區間。更重要的是,模型不只是答對更多,而是開始學會自我驗證。

論文描述了一個很有意思的現象:模型先寫出淺層規劃,接著進入線性推理,再到後期會主動回頭檢查中間步驟,甚至切換不同解法來交叉驗證。這種行為很像 Claude 或其他推理系統裡常看到的自我修正,但這次是靠訓練而不是只靠推理時加長。

不過邊界也非常清楚。FIPO 目前只在數學任務上測過,而且是在單一資料集與特定基礎模型上驗證,還沒證明能否平移到程式碼、語言理解或其他更寬的場景。更長的推理鏈也意味著更高的計算成本,這不是免費的提升。

這件事的產業含義

FIPO 的價值,不只是又多了一個訓練技巧,而是它在提醒大家:推理模型的競爭,已經從「能不能答對」變成「能不能在有限資源下產生更可靠的推理過程」。這和 Token 成本、長上下文設計、以及代理工作流的穩定性都直接相關。

如果這條路繼續往前走,推理模型的下一輪差異化可能不只是 benchmark 分數,而是它在什麼任務上會主動反思、何時該停、何時該換方法。這會影響訓練、推理與產品設計三個層面。

現在的 FIPO 還不是終局,但它給了一個很清楚的訊號:讓模型想更久,不一定是靠更大的計算堆疊,也可能是靠更聰明的獎勵分配。對所有在做長鏈推理的人來說,這是一個值得盯住的方向。