OpenAI Parameter Golf 吸來千人兩千次提交，AI coding 已開始改寫研究競賽

OpenAI 在 5 月 12 日發文回顧自家舉辦的 Parameter Golf 挑戰，這篇文章表面上是在總結一場機器學習比賽，實際上卻透露出一個更大的產業訊號：AI coding agents 不只在幫工程師寫程式，現在連研究競賽的玩法都開始被它們改變了。

這場挑戰的規則非常硬。參賽者要在固定資料集上降低模型 loss，但最後交出的成品必須壓在 16MB 以內，連模型權重和訓練程式都算進去；訓練預算則限制在 8 張 H100、10 分鐘內。OpenAI 說，八週內這場比賽吸引超過 1,000 名參與者、收到超過 2,000 份提交。這代表它已不是少數研究員的實驗遊戲，而是一個密集、高頻、可觀察的「人類 + agent 協作研發場」。

規模不是重點，重點是 agent 把研究門檻壓低了

OpenAI 在文中直接承認，絕大多數提交者都提到自己有使用 coding agents。這個訊號很值得注意。過去這種偏研究型的模型壓縮與優化競賽，參與門檻其實很高。你得先理解 baseline、看懂 repo、熟悉訓練流程、知道怎麼改超參數、怎麼壓模型、怎麼驗證結果。現在 agent 把其中一大段「進場成本」削掉了。

也就是說，參賽者可以把更多時間花在想法與試驗設計，而不是花在讀陌生 code、補環境、重複接線。這會帶來兩種效果。一種是正面的，更多人能進場、更多點子能被快速測；另一種是副作用，好的解法會更快被複製、變體更多、噪音也更多。OpenAI 也提到，部分提交只是把排行榜前段做法稍微重組或微調，但這本身就反映出 agent 讓「跟進最強做法」變得更便宜。

這場比賽其實像是未來研發團隊的縮影

OpenAI 在文章裡提到，競賽期間甚至需要做一個內部 Codex 型 triage bot，去監看新提交並協助人工審核，因為高峰時一天會有數百份提交。如果把這個畫面拉遠一點看，很像未來很多技術團隊要面對的情況：不再是少數工程師慢慢推進，而是大量 agent 幫人類快速產生候選方案，然後由系統與人類一起做篩選、驗證和裁判。

這也是為什麼這篇回顧文的價值，不只在那些 leaderboard 細節。它讓大家看到，AI 正在把技術工作的瓶頸，從「產生候選方案」轉向「審核候選方案」。當 agent 可以很快提出十個可跑的變種，真正稀缺的就變成研究品味、評測框架、驗證能力與規則設計。

Parameter Golf 講的其實不是壓模型，而是人和 AI 如何一起做研究

OpenAI 這次特別點出幾種值得注意的方向，包括訓練最佳化、量化、測試時策略，以及一些新的 tokenizer 或 attention 機制。這些技術細節本身當然重要，但更值得一般讀者理解的是：AI agent 讓研究不再只是「高手寫高手 code」，而變成更像指揮與審核的工作。人類研究者愈來愈像在設題、設限制、挑方向、判斷哪些結果可信；agent 則負責加速生成與試驗。

所以這條新聞真正的含義是，AI coding 已經開始改變知識工作的生產線。以前大家最常看到的是用它補文件、寫網頁、修 bug；現在連帶有研究性質的競賽，也開始出現「agent 降低進場門檻、人類負責高層判斷」的新分工。這未必會讓研究變簡單，但會讓研究速度、參與者結構和競爭方式都一起變掉。