打開(kāi)網(wǎng)易新聞 查看精彩圖片

作者 | Daniel Dominguez

譯者 | 明知山

策劃 | 丁曉昀

OpenAI 發(fā)布 SWE-Lancer 基準(zhǔn)測(cè)試,用于評(píng)估 AI 大語(yǔ)言模型在現(xiàn)實(shí)世界自由職業(yè)軟件工程任務(wù)中的表現(xiàn)。該基準(zhǔn)測(cè)試的數(shù)據(jù)集包含來(lái)自 Upwork 的 1400 多個(gè)任務(wù),總價(jià)值高達(dá) 100 萬(wàn)美元。這些任務(wù)既包括獨(dú)立的編碼活動(dòng),也包括管理決策,復(fù)雜程度和報(bào)酬各有不同,充分模擬了現(xiàn)實(shí)世界中的自由職業(yè)場(chǎng)景。

SWE-Lancer 通過(guò)嚴(yán)格的評(píng)估方法來(lái)反映軟件工程的經(jīng)濟(jì)價(jià)值和復(fù)雜性。它采用經(jīng)過(guò)專業(yè)工程師驗(yàn)證的先進(jìn)的端到端測(cè)試方法來(lái)評(píng)估模型在實(shí)際環(huán)境中的表現(xiàn)。盡管 AI 大語(yǔ)言模型近期取得了顯著進(jìn)展,但初步結(jié)果顯示,這些模型在應(yīng)對(duì)基準(zhǔn)測(cè)試中的多數(shù)任務(wù)時(shí)仍然面臨嚴(yán)峻挑戰(zhàn)。

基準(zhǔn)測(cè)試涵蓋了多種任務(wù),如應(yīng)用程序邏輯開(kāi)發(fā)、UI/UX 設(shè)計(jì)以及服務(wù)器端邏輯實(shí)現(xiàn),確保能夠?qū)δP湍芰M(jìn)行全面的評(píng)估。SWE-Lancer 還為研究人員提供了一個(gè)統(tǒng)一的 Docker 鏡像和公共評(píng)估拆分,用以促進(jìn) AI 模型評(píng)估過(guò)程中的協(xié)作和透明度。

該項(xiàng)目旨在推動(dòng)對(duì) AI 在軟件工程領(lǐng)域經(jīng)濟(jì)影響的研究,特別是潛在的生產(chǎn)力提升和對(duì)勞動(dòng)力市場(chǎng)的影響。通過(guò)將模型性能與貨幣價(jià)值聯(lián)系起來(lái),SWE-Lancer 展現(xiàn)了 AI 在軟件工程中的實(shí)際影響,并凸顯了持續(xù)優(yōu)化 AI 技術(shù)的重要性。

在基準(zhǔn)測(cè)試中表現(xiàn)最好的模型是 Claude 3.5 Sonnet,在獨(dú)立編碼任務(wù)中的成功率為 26.2%,這表明 AI 能力仍有很大的提升空間。許多模型在需要深度上下文理解或評(píng)估多個(gè)提案的任務(wù)方面表現(xiàn)不佳,這表明未來(lái)的模型可能需要更復(fù)雜的推理能力。

一些評(píng)論表示對(duì) SWE-Lancer 的實(shí)際應(yīng)用表示懷疑,認(rèn)為可能只對(duì)特定群體有吸引力,另一些人則認(rèn)為這是理解 AI 對(duì)軟件工程社會(huì)經(jīng)濟(jì)影響的關(guān)鍵一步,與行業(yè)向 AI 驅(qū)動(dòng)的生產(chǎn)力工具發(fā)展的整體趨勢(shì)相契合,正如 Gartner 2027 所預(yù)測(cè)的軟件工程智能平臺(tái)的廣泛采用。

用戶 Alex Bon 表示:

終于有機(jī)會(huì)讓 AI 證明它也能在零工經(jīng)濟(jì)中生存下來(lái)了!

獨(dú)立黑客 Jason Leow 則表示:

我喜歡這個(gè)發(fā)展方向。用全棧問(wèn)題進(jìn)行測(cè)試,將其與市場(chǎng)價(jià)值聯(lián)系起來(lái),這正是日常開(kāi)發(fā)工作所面臨的東西。我一直覺(jué)得舊的基準(zhǔn)測(cè)試有些不太對(duì)勁。

SWE-Lancer 為評(píng)估 AI 在自由職業(yè)軟件工程中的應(yīng)用提供了一個(gè)重要的框架,揭示了 AI 在實(shí)際應(yīng)用中的挑戰(zhàn)與機(jī)遇?;鶞?zhǔn)測(cè)試的結(jié)果凸顯了進(jìn)一步研究和開(kāi)發(fā)的必要性,以便提升 AI 模型在現(xiàn)實(shí)世界軟件工程任務(wù)中的表現(xiàn)。

查看英文原文

https://www.infoq.com/news/2025/03/openai-swe-benchmark/

聲明:本文由 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。