當大多數人還在適應AI助手如何改變日常工作流時,OpenAI已經將目光投向了更遠的目標。近日,這家AI領域的先驅企業公開了其未來幾年的核心研發方向——打造一個「全自動AI代理研究系統」,一個能夠獨立處理複雜科研問題、甚至超越人類研究團隊處理能力的數字實驗室。與此同時,Google選擇在同一週推出Antigravity,一款能將文字描述直接轉化為完整Web應用的全棧編碼AI代理。這兩個看似獨立的發布,實則共同指向AI產業的一個關鍵轉折點:從「人類主導、AI輔助」邁向「AI自主執行、人類監督」的新范式。
OpenAI的「北極星」:把整個研究實驗室裝進數據中心
OpenAI首席科學家Jakub Pachocki在接受MIT Technology Review專訪時,將這個全自動研究系統描述為公司未來幾年的「北極星」目標。這不是一個模糊的願景,而是有明確時間表的工程計劃:2025年9月推出「自主AI研究實習生」原型,2028年發布完整的多代理研究系統。
所謂「研究實習生」,在OpenAI的定義中是一個能夠獨立處理特定研究問題的系統——那些通常需要人類研究者耗費數天才能完成的任務。而2028年的完整系統則更進一步,被設計為能夠應對「規模過大或過於複雜、人類難以處理」的問題。這些問題可能涵蓋數學與物理學的新證明、生命科學領域的生物學與化學難題,甚至是商業策略與政策困境。理論上,任何可以用文本、代碼或白板草圖表述的問題,都可以交由這個系統處理。
這個願景的技術基礎來自OpenAI近期在推理模型(reasoning models)和代理系統(agent-based systems)上的積累。Pachocki指出,從2020年的GPT-3到2023年的GPT-4,模型的一個關鍵進步就是能夠在無需專門訓練的情況下,持續工作更長時間。而所謂的推理模型——即訓練LLM逐步解決問題、在犯錯或遇到死胡同時回溯——進一步增強了這種長時運作能力。
今年1月發布的Codex正是這個願景的早期雛形。這款基於代理的應用能夠即時生成代碼來執行任務,包括分析文檔、生成圖表、整理郵件和社交媒體摘要等。OpenAI聲稱其技術團隊現已普遍使用Codex輔助工作。Pachocki的判斷是:「我們正接近一個臨界點,模型將能夠像人類一樣無限期地保持連貫工作。當然,你仍然希望人類掌控全局並設定目標。但我認為我們將達到一個階段,你可以在某種意義上擁有一個完整的數據中心研究實驗室。」
這種說法聽起來像是科幻小說,但OpenAI已經有了具體的技術驗證。研究人員使用GPT-5(驅動Codex的底層模型)已經在多個未解數學問題上發現了新解,並在生物學、化學和物理學的若干難題上取得了突破。
Google Antigravity:全棧開發的零門檻革命
與OpenAI專注於研究領域的「登月計劃」形成對比,Google選擇了一個更接地氣但同樣雄心勃勃的方向——徹底消除軟件開發的技術門檻。
Antigravity是Google AI Studio推出的全棧編碼AI代理,其核心能力可以用一句話概括:用戶只需提供文字描述,系統就能生成完整的Web應用程序,包括數據庫存儲、用戶認證、前端框架和部署配置。
具體而言,Antigravity支持Next.js、React和Angular等主流前端框架,自動整合Firebase進行身份驗證和後端服務,並處理數據庫架構設計。這意味著一個沒有任何編程背景的產品經理或設計師,理论上可以僅憑產品構思就生成可運行的原型甚至生產級應用。
這個產品的定位非常明確:不是給開發者使用的「效率工具」,而是給非技術人員使用的「開發替代品」。Google顯然在押注一個趨勢——隨著AI能力的提升,傳統的「開發者vs非開發者」界限將逐漸模糊,最終可能消失。
雙軌競爭:研究深度vs開發廣度
將OpenAI和Google的這兩個發布放在一起觀察,可以清晰地看到AI巨頭們正在分化的兩條路徑。
OpenAI選擇的是「深度」路線——專注於攻克最困難的認知任務,那些需要長期專注、多步驟推理、跨領域知識整合的複雜問題。這條路線的商業邏輯在於:如果你能解決最聰明的人類研究者都感到棘手的問題,你就能在高端市場(科研機構、戰略諮詢、複雜決策支持)建立不可替代的價值。
Google選擇的是「廣度」路線——專注於降低技術門檻,讓盡可能多的人能夠創造軟件。這條路線的商業邷輯在於:如果你能讓數十億非技術用戶都成為「開發者」,你就能創造一個全新的市場,並在這個市場中佔據平台級的主導地位。
這兩條路線並不互相排斥,但它們確實反映了不同的產品哲學和商業策略。OpenAI似乎在說:「讓我們先證明AI能夠達到人類頂尖水平,再考慮普及。」Google則在說:「讓我們先讓每個人都能使用AI,再逐步提升其能力上限。」
組織擴張與人才爭奪戰
支撐這些雄心勃勃的產品計劃的,是OpenAI激進的組織擴張策略。根據Financial Times的報導,OpenAI計劃到2026年底將員工數量從目前的約4,500人擴充至約8,000人,幾乎翻倍。這次擴張的重點領域包括企業基礎設施建設和「技術大使」角色——後者的職責是幫助企業客戶更好地理解和部署OpenAI的技術。
這種擴張速度在科技行業並不常見,尤其是在當前許多科技公司都在裁員或凍結招聘的環境下。OpenAI的底氣來自其最近完成的1,100億美元融資,這輪融資由Amazon、SoftBank和Nvidia支持,將公司估值推升至7,300億美元。
但激進擴張背後也有競爭壓力。報導指出,Anthropic目前在企業AI市場佔據主導地位,獲得了高達70%的首次企業AI合同。Anthropic不僅贏得了美國國防部的合同,還獲得了多家私募股權公司的青睞。OpenAI的擴張計劃,某種程度上是對這種競爭壓力的直接回應。
風險與質疑:Auto-complete還是Auto-resign?
儘管OpenAI描繪了一幅令人振奮的未來圖景,但質疑的聲音同樣存在。Allen Institute for AI的研究科學家Doug Downey在測試多個頂級LLM在科學任務上的表現後發現,即使是表現最好的GPT-5,仍然會犯很多錯誤。「如果你需要串聯多個任務,那麼連續正確完成所有任務的概率會下降。」
Pachocki本人也承認,他一年前甚至不使用自動補全功能——那個最基礎的生成式編碼技術。「我對自己的代碼非常挑剔,」他說,「我喜歡盡可能在vim中手動輸入每一行。」改變他的是看到最新模型能力的提升。現在他會使用AI來「運行一些想法」,但仍不會將複雜的設計任務完全交給AI。
更深層的擔憂在於安全性。如果一個系統能夠獨立運行整個研究項目,它也可能獨立做出危險的事情。Pachocki承認這種風險是真實的:系統可能偏離軌道、可能被黑客入侵、或者可能誤解指令。OpenAI目前的應對策略是「思維鏈監控」——訓練模型在工作時記錄自己的思考過程,然後使用其他LLM來監控這些記錄,在問題發生之前捕獲不良行為。
「我認為這將是我們真正依賴的東西,」Pachocki說,「但在我們能真正信任這些系統之前,你肯定希望有限制措施。」他建議將非常強大的模型部署在沙箱中,與它們可能破壞或利用來造成傷害的任何東西隔離開來。
產業影響與下一步觀察
對於開發者和企業用戶而言,這一週的變化意味著什麼?
如果你是一位軟件開發者,Antigravity這類工具可能會讓你感到威脅,也可能會讓你感到興奮。威脅在於,如果非技術人員都能生成應用,傳統的編碼工作可能會被侵蝕。興奮在於,這些工具也可以讓你擺脫重複性的基礎工作,專注於更具創造性的架構設計和複雜問題解決。
如果你是一位研究者或知識工作者,OpenAI的全自動研究系統可能會徹底改變你的工作方式。但這個願景的實現時間、實際能力邊界、以及使用成本,都還是未知數。
值得持續觀察的幾個維度:
OpenAI的AI研究實習生原型在9月發布時的實際能力邊界——它能處理哪些類型的問題?處理的質量如何?成本是多少?
Antigravity在實際使用中的可靠性——生成的應用在安全性、性能和可維護性方面是否能達到生產級標準?
企業市場的採用曲線——OpenAI的激進擴張是否能有效縮小與Anthropic在企業市場的差距?
安全性研究的進展——隨著AI系統自主性的提升,監控和限制技術是否能同步發展?
無論如何,這一週的兩個發布都清晰地表明:AI競爭已經進入了一個新階段,在這個階段,單純的模型性能比拼正在讓位於「能夠獨立完成什麼任務」的實用性競爭。對於所有AI的使用者和觀察者來說,適應這個新階段的最好方式,就是親身體驗這些工具,理解它們的能力邊界,並在這個基礎上重新規劃自己的工作流程和技能組合。
