不久前,人工智能生成的代碼還不適合部署。SQL代碼太冗長(zhǎng),或者Python代碼有缺陷或不安全。然而,近幾個(gè)月來,這種情況發(fā)生了很大變化,今天的人工智能模型每天都在為客戶生成更多的代碼。

打開網(wǎng)易新聞 查看精彩圖片

基準(zhǔn)測(cè)試提供了一種很好的方法來衡量代理人工智能在軟件工程領(lǐng)域的發(fā)展程度。普林斯頓大學(xué)的研究人員創(chuàng)建了一個(gè)更受歡迎的基準(zhǔn),稱為SWE bench,用于衡量Meta的Llama和Anthropic的Claude等LLM在解決常見軟件工程挑戰(zhàn)方面的能力。該基準(zhǔn)測(cè)試利用GitHub作為跨16個(gè)存儲(chǔ)庫的Python軟件錯(cuò)誤的豐富資源,并提供了一種衡量基于LLM的AI代理解決這些錯(cuò)誤的能力的機(jī)制。

當(dāng)作者在2023年10月向國(guó)際學(xué)習(xí)表征會(huì)議(ICLR)提交他們的論文《SWE Bench:語言模型能否解決現(xiàn)實(shí)世界的GitHub問題?》時(shí),LLM的表現(xiàn)并不好。作者在摘要中寫道:“我們的評(píng)估表明,最先進(jìn)的專有模型和我們微調(diào)的模型SWE Llama只能解決最簡(jiǎn)單的問題?!薄氨憩F(xiàn)最好的模型Claude 2只能解決1.96%的問題?!?/p>

情況變化很快。今天,SWE bench排行榜顯示,得分最高的模型解決了SWE bench-Lite上55%的編碼問題,這是旨在降低評(píng)估成本和提高可訪問性的基準(zhǔn)的一個(gè)子集。

Hugging Face為通用人工智能助理制定了一個(gè)基準(zhǔn),稱為GAIA,用于衡量模型在多個(gè)領(lǐng)域的能力,包括推理、多模態(tài)處理、網(wǎng)頁瀏覽和一般工具使用熟練程度。GAIA測(cè)試沒有歧義,并且具有挑戰(zhàn)性,例如在五分鐘的視頻中計(jì)算鳥類的數(shù)量。

H2O.ai的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Sri Ambati表示,一年前,GAIA測(cè)試第三級(jí)的最高得分約為14分。如今,基于Claude 3.7 Sonnet的H2O.ai模型獲得了最高的總分,約為53分。

Ambati說:“準(zhǔn)確性確實(shí)增長(zhǎng)得非??臁!薄拔覀冞€沒有完全達(dá)到目標(biāo),但我們正在這條路上?!?/p>

H2O.ai的軟件參與了另一個(gè)衡量SQL生成的基準(zhǔn)測(cè)試。BIRD代表用于LaRge規(guī)模數(shù)據(jù)庫基礎(chǔ)文本到SQL評(píng)估的BIg Bench,用于衡量AI模型將自然語言解析為SQL的能力。

打開網(wǎng)易新聞 查看精彩圖片

當(dāng)BIRD于2023年5月首次亮相時(shí),得分最高的模型CoT+ChatGPT的準(zhǔn)確率約為40%。一年前,得分最高的AI模型ExSL+granite-20b-code(基于IBM的granite AI模型)準(zhǔn)確率約為68%。這遠(yuǎn)低于人類表現(xiàn)的能力,BIRD測(cè)量的人類表現(xiàn)約為92%。目前的BIRD排行榜顯示,AT&T的基于H2O.ai的模型是領(lǐng)導(dǎo)者,準(zhǔn)確率為77%。

在生成計(jì)算機(jī)代碼方面的快速進(jìn)展促使一些有影響力的人工智能領(lǐng)導(dǎo)者,如英偉達(dá)首席執(zhí)行官兼聯(lián)合創(chuàng)始人黃仁勛和Anthropic聯(lián)合創(chuàng)始人兼首席執(zhí)行官Dario Amodei做出了大膽的預(yù)測(cè)。

Amodei本月早些時(shí)候表示:“我們離人工智能編寫90%代碼的世界不遠(yuǎn)了——我認(rèn)為我們將在三到六個(gè)月內(nèi)到達(dá)那里?!薄叭缓笤?2個(gè)月內(nèi),我們可能會(huì)進(jìn)入一個(gè)人工智能基本上編寫所有代碼的世界?!?/p>

在上周的GTC25主題演講中,黃仁勛分享了他對(duì)代理計(jì)算未來的看法。在他看來,我們正在迅速接近一個(gè)AI工廠基于人類輸入生成和運(yùn)行軟件的世界,而不是人類編寫軟件來檢索和操縱數(shù)據(jù)。

他說:“過去我們編寫軟件并在計(jì)算機(jī)上運(yùn)行,而將來,計(jì)算機(jī)將為軟件生成令牌?!薄耙虼?,計(jì)算機(jī)已經(jīng)成為令牌的生成器,而不是文件的檢索。[我們已經(jīng)]從基于檢索的計(jì)算轉(zhuǎn)向基于生成的計(jì)算?!?/p>

其他人則持更務(wù)實(shí)的觀點(diǎn)。Snowflake首席研究科學(xué)家、Snowflake AI研究團(tuán)隊(duì)負(fù)責(zé)人Anupam Datta對(duì)SQL生成的改進(jìn)表示贊賞。例如,Snowflake表示其Cortex Agent的文本到SQL生成準(zhǔn)確率為92%。然而,Datta不同意Amodei的觀點(diǎn),即計(jì)算機(jī)將在年底前滾動(dòng)自己的代碼。

Datta上周在GTC25上表示:“我的觀點(diǎn)是,在某些領(lǐng)域,如文本到SQL的編碼代理,我認(rèn)為正在變得非常好?!薄霸谀承┢渌I(lǐng)域,它們更像是幫助程序員加快速度的助手。人類還沒有脫離循環(huán)。”

他說,由于編寫數(shù)字助手和代理人工智能系統(tǒng),程序員的生產(chǎn)力將成為最大的贏家。他說,我們離代理人工智能生成初稿的世界不遠(yuǎn)了,然后人類會(huì)進(jìn)來改進(jìn)和完善它?!吧a(chǎn)力將有巨大的提高,”Datta說。“因此,僅就數(shù)字助理而言,影響將非常顯著?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

H2O.ai的Ambati還認(rèn)為,軟件工程師將與人工智能密切合作。他說,即使是當(dāng)今最好的編碼代理也會(huì)引入“微妙的錯(cuò)誤”,所以人們?nèi)匀恍枰榭创a?!斑@仍然是一項(xiàng)非常必要的技能。”

Ambati說:“其中一部分是理解客戶模式的語義層,即元數(shù)據(jù)?!薄澳遣糠秩栽跇?gòu)建中。本體論仍然是一個(gè)領(lǐng)域知識(shí)。”

幻覺仍然是一個(gè)問題,就像人工智能模型脫軌、說或做壞事的可能性一樣。這些都是Anthropic、Nvidia、H2O.ai和Snowflake等公司正在努力緩解的問題。但隨著GenAI的核心能力越來越好, AI代理也將越來越多投入生產(chǎn)。