讓智能體先通往AGI,已經(jīng)成為共識。OpenAI連番推出昂貴的新功能,o1-Pro比普通版貴了10倍,比R1貴了上百倍。Grok則悄悄上線了DeeperSearch。讓它們率先替代碼農(nóng)和研究員,似乎正在成為大模型兌現(xiàn)商業(yè)價值最現(xiàn)實的方向;其他行業(yè)可以踩在他們的肩上。

也許人類員工可以稍微松口氣。盡管今年Meta和微軟再次開啟規(guī)模裁員,但被裁的都是績效考核不如人類同事的。被AI智能體同事大面積地頂替下去,至少要到2028年,更可能是2031年。

如果有一個智能體的“摩爾定律”,用來衡量智能體所能解決的任務(wù)的復雜程度——以人類專家完成相同任務(wù)所需時長來量化——為人類完成工作所節(jié)省的時間越來越長,準確率越來越高,這個摩爾定律,終有一天會通向完全替代人類完成復雜問題。

最近,研究機構(gòu)METR發(fā)現(xiàn),目前的智能體,還沒辦法替代人類,去完成那些本該人類花1小時以上的時間才能完成的軟件任務(wù)。不過,智能體解決復雜任務(wù)的能力在進步,相當于為人類專家節(jié)省的時間,平均每7個月翻一番 。 2028年后,它們就有50%的成功率,完成人類本該在1個月內(nèi)(約160工作時)完成的任務(wù)了。

打開網(wǎng)易新聞 查看精彩圖片

這與最近OpenAI和Anthropic的說法不同,從奧特曼到阿莫迪,都在說今年內(nèi)智能體編程可以勝過人類。但研究認為,AI只能勝任人類不用4分鐘就能完成的任務(wù),也就是說最簡單的任務(wù)。

METR(模型評估與風險研究)是美國人工智能安全研究所聯(lián)盟(AISIC)的成員機構(gòu),為OpenAI、Anthropic等提供部署前的非正式評估。創(chuàng)始人Beth Barnes之前在OpenAI研究對齊問題,“圖靈三巨頭”之一的本吉奧(Yoshua Bengio)是該機構(gòu)顧問。

為什么從1個月算起?這家機構(gòu)解釋說,那是新員工入職后可以為公司創(chuàng)造經(jīng)濟價值的時間。當前,各種大模型的測試基準正在迅速飽和,更要命的是,它無法準確反映真實社會經(jīng)濟價值。

不滿于此,METR提出了HCAST(人類校準自主軟件任務(wù))。這是一個包含 189 項機器學習工程、 網(wǎng)絡(luò)安全、軟件工程和一般推理任務(wù)的基準測試集,分別由人類專家(擁有全球排名前100大學學位,具有5年以上相關(guān)專業(yè)經(jīng)驗)與智能體去執(zhí)行。人類專家與智能體在相同的條件下工作,然后再比一比,人類完成這些任務(wù)需要多少時間,智能體完成這些任務(wù)的成功率有多高。HCAST的任務(wù)主要覆蓋了數(shù)分鐘到幾小時的人類任務(wù),為覆蓋需要更短(對應(yīng)早期大模型)與更長時間的任務(wù),研究又引入了單步任務(wù)SWAA與長時任務(wù)RE-Bench。

結(jié)論是,人類專家耗時不到4分鐘的任務(wù),目前的智能體幾乎100%都能成功;但是連人類專家都要耗時4個小時以上的,那么成功率就降到了10%以下。不過,智能體的進步也很顯著。GPT-3時代的模型,在超過1分鐘任務(wù)上全部失??;GPT-4能以50%的成功率完成4分鐘的任務(wù);Claude 3.7 Sonnet在相同的成功率下,把上限推高到了59分鐘,但要提升到80%成功率,就只能完成15分鐘左右的任務(wù)。

簡言之,把它們放到真實世界,想要完全自主地完成多步驟長時序的現(xiàn)實任務(wù),還不夠穩(wěn)定和好用。也就是說,至少在今年內(nèi),不能對智能體完成多步驟的任務(wù)抱有太高的預期。

前EleutherAI研究員Herbie Bradley大量試用了Operator和Anthropic的computer-use后,非常認同METR這種簡單的衡量方法。他認為“t-AGI”(智能體能夠自主可靠地完成本該由人類t時間內(nèi)完成的任務(wù))的擴展,是評估AGI經(jīng)濟效用的重要標準。

METR發(fā)現(xiàn),如果以50%的成功率為基準,那么,過去6年來前沿大模型的t-AGI平均每7個月翻倍。遵循這個趨勢,到2027年或2028年左右,智能體有50%的成功率完成人類本該1個月完成的任務(wù)。會有雇主去使用這樣的智能體省下一名碼農(nóng)的月薪成本嗎?

但是,現(xiàn)實情況會更復雜,且追求更高的成功率,如果要讓智能體真正自主做到這一切,METR認為更可能是2031年前。

但是,即使這一天還沒有來臨,硅谷的碼農(nóng)也該瑟瑟發(fā)抖了。如果將谷歌L4級別的工程師的平均年薪,除以每年2000小時,則每小時薪酬約144美元。目前超過80%由智能體成功完成的任務(wù),它們的推理成本低于人類專家的10%;它們在本該由人類專家在30秒內(nèi)完成的任務(wù)上,性價比顯著。幸虧目前的智能體,想要完成現(xiàn)實世界的任務(wù),尤其是長時序任務(wù),還離不開人類留在在整個工作循環(huán)中。

打開網(wǎng)易新聞 查看精彩圖片

(說明:對應(yīng)1460個成功完成的任務(wù),縱坐標代表任務(wù)的復雜度,即人類完成該任務(wù)的時長,橫坐標代表任務(wù)由智能體完成任務(wù)的性價比,即模型成本與人類薪酬的比例。)

今年,卡帕西(Andr ej Karpathy)就已經(jīng)很享受了Vibe coding了,即一種依靠直覺和創(chuàng)意用自然語言調(diào)動代碼的編程方式。 他只需要偶爾花點時間通讀一下他一時間沒看懂的代碼; 有時候針對模型無法自己解決的Bug,動手修改一下。

但是,也許對智能體來說,更重要的是通過類似Vibe coding趨勢,幾乎削平了必須構(gòu)筑于編程之上的其他領(lǐng)域的陡峭的初始學習曲線。谷歌最新的人形機器人通用模型Gemini Robotics-ER,也是通過現(xiàn)場寫代碼來完成物理世界任務(wù)的。

R1落后4個月

METR在論文中測試的模型,幾乎都來自它的合作方OpenAI與Anthropic。不過,該機構(gòu)也額外測試了基于第三方托管的DeepSeek的V3與R1等模型。研究也承認可能自己沒有完全激發(fā)R1的最高性能。

打開網(wǎng)易新聞 查看精彩圖片

在測試中,DeepSeek-R1能夠以50%的成功率,完成人類專家需要35分鐘才能完成的任務(wù),略高于V3的33分鐘的成績,低于早于其發(fā)布的新版Claude 3.5 Sonnet和o1模型。從這個基準上看,R1大概處于全球最前沿的大模型在9月份時的水平,差距約為4個月。

該機構(gòu)還發(fā)現(xiàn),在引入思維鏈后,DeepSeek旗下基礎(chǔ)模型V3到推理模型R1,對完成人類任務(wù)時長的提升,跨度不及OpenAI從GPT-4o到o1-preview。

也許要等R2發(fā)布的時候再試試,在追求性價比的同時,中國企業(yè)能否把t-AGI的提升速度也一起擴展了。

參考論文:

Measuring AI Ability to Complete Long Tasks

HCAST:Human-Calibrated Autonomy Software Tasks