選自Lesswrong
作者:lc
機(jī)器之心編譯
編輯:澤南、張倩
Llama 4 或許只是冰山一角。
「AI 大模型自去年 8 月以來就沒有太大進(jìn)步」。這是一位 AI 創(chuàng)業(yè)者在近期的一篇博客中發(fā)表的觀點(diǎn)。
他在創(chuàng)業(yè)過程中發(fā)現(xiàn),自去年 8 月以來,AI 大模型(如 Claude 3.7 等)在官方發(fā)布的基準(zhǔn)測試上聲稱的巨大進(jìn)步與實(shí)際應(yīng)用場景中的有限提升之間存在明顯脫節(jié)。這導(dǎo)致他們無法借助模型能力來提升產(chǎn)品體驗(yàn)。很多 YC 創(chuàng)業(yè)者也有類似的體驗(yàn)。
作者認(rèn)為,這其中可能的原因包括基準(zhǔn)測試作弊、基準(zhǔn)無法衡量實(shí)用性或模型實(shí)際很聰明但對齊存在瓶頸。如果不解決這些基礎(chǔ)問題,AI 系統(tǒng)可能會(huì)在表面上顯得很聰明,但在組合成社會(huì)系統(tǒng)時(shí)會(huì)出現(xiàn)根本問題。
以下是博客原文:
模型得分與消費(fèi)者體驗(yàn)脫節(jié)
大約九個(gè)月前,我和三個(gè)朋友認(rèn)為人工智能已經(jīng)足夠好,可以自主監(jiān)控大型代碼庫的安全問題了。我們圍繞這個(gè)任務(wù)成立了一家公司,試圖利用最新的大模型能力來創(chuàng)建一種工具,用以取代至少很大一部分滲透測試人員的價(jià)值。我們從 2024 年 6 月開始從事這個(gè)項(xiàng)目。
在公司成立后的頭三個(gè)月內(nèi),Anthropic 的 Claude 3.5 sonnet 就發(fā)布了。只需切換在 GPT-4o 上運(yùn)行的服務(wù)部分,我們剛剛起步的內(nèi)部基準(zhǔn)測試結(jié)果就會(huì)立即開始飽和。我記得當(dāng)時(shí)很驚訝,我們的工具不僅似乎犯的基本錯(cuò)誤更少,而且其書面漏洞描述和嚴(yán)重性估計(jì)似乎也有了質(zhì)的提高。就好像即使是在不完整的信息中,這些模型也能更善于推斷人類提示背后的意圖和價(jià)值。
事實(shí)上,安全研究基本上沒有公開的基準(zhǔn)。有「網(wǎng)絡(luò)安全」評估會(huì)向 AI 模型詢問有關(guān)孤立代碼塊的問題,「CTF」評估會(huì)為模型提供明確的挑戰(zhàn)描述和對 <1kLOC Web 應(yīng)用程序的 shell 訪問權(quán)限。但沒有什么能觸及 LLM 應(yīng)用程序滲透測試的難點(diǎn) —— 一是瀏覽一個(gè)太大而無法放在上下文中的真實(shí)代碼庫;二是推斷目標(biāo)應(yīng)用程序的安全模型;三是深入理解其實(shí)現(xiàn),以了解該安全模型在哪里出現(xiàn)了問題。
出于這些原因,我認(rèn)為漏洞識別任務(wù)是衡量 LLM 在狹窄的軟件工程領(lǐng)域之外的泛化性的一個(gè)很好的試金石。
自 3.5-sonnet 以來,我們一直在監(jiān)控 AI 大模型的發(fā)布,并嘗試過幾乎每個(gè)聲稱有所改進(jìn)的主要新版本。令人意想不到的是,除了 3.6 的小幅提升和 3.7 的更小提升外,我們嘗試的所有新模型都沒有對我們的內(nèi)部基準(zhǔn)或開發(fā)人員發(fā)現(xiàn)新錯(cuò)誤的能力產(chǎn)生重大影響。這包括新的測試時(shí)間計(jì)算 OpenAI 模型。
起初我很緊張,不敢公開報(bào)告此事,因?yàn)槲艺J(rèn)為這可能會(huì)對我們團(tuán)隊(duì)產(chǎn)生不良影響。自去年 8 月以來,我們的掃描有了很大的改進(jìn),但這是因?yàn)槌R?guī)工程,而不是模型改進(jìn)的提升。這可能是我們設(shè)計(jì)的架構(gòu)存在問題,隨著 SWE-Bench 分?jǐn)?shù)的上升,我們并沒有獲得更多的進(jìn)展。
但最近幾個(gè)月,我與其他從事 AI 應(yīng)用初創(chuàng)企業(yè)的 YC 創(chuàng)始人進(jìn)行了交談,他們中的大多數(shù)人都有相同的經(jīng)歷:1. 見證了 o99-pro-ultra 大模型發(fā)布,2. 基準(zhǔn)測試看起來不錯(cuò),3. 實(shí)際應(yīng)用評估表現(xiàn)平平。盡管我們從事不同的行業(yè),處理不同的問題,但情況大致相同。有時(shí)創(chuàng)始人會(huì)對這種說法做出回應(yīng)(「我們只是沒有任何博士級的問題可以問」),但這種說法是存在的。
我讀過這些研究,也看過這些數(shù)字。也許與大模型的交談變得更有趣了,也許他們在受控考試中表現(xiàn)得更好了。但我仍然想根據(jù)內(nèi)部基準(zhǔn)以及我自己和同事們使用這些模型的看法提出觀點(diǎn):大模型公司向公眾報(bào)告的任何提升都不能反映經(jīng)濟(jì)實(shí)用性或普遍性。它們不能反映我或我客戶的實(shí)際體驗(yàn)。就能夠執(zhí)行全新的任務(wù)或更大比例的用戶智力勞動(dòng)而言,我認(rèn)為自去年 8 月以來它們就沒有太大進(jìn)步了。
如果你是大模型競品公司的工程師,這或許是個(gè)好消息!對我個(gè)人而言,作為一個(gè)試圖利用大模型能力賺錢的人,它們還沒有聰明到能解決整個(gè)問題,對那些擔(dān)心快速過渡到 AI 經(jīng)濟(jì)會(huì)帶來道德風(fēng)險(xiǎn)的人來說,或許也不需要太過擔(dān)憂了。
與此同時(shí),有一種觀點(diǎn)認(rèn)為,模型得分與消費(fèi)者體驗(yàn)脫節(jié)是一個(gè)不好的跡象。如果業(yè)界現(xiàn)在還搞不清楚如何衡量模型的智力,而模型大多局限于聊天機(jī)器人,那么當(dāng) AI 在管理公司或制定公共政策時(shí),又該如何制定衡量其影響的標(biāo)準(zhǔn)呢?如果我們在將公共生活中繁瑣而艱難的部分委托給機(jī)器之前就陷入了古德哈特定律(當(dāng)一個(gè)政策變成目標(biāo),它將不再是一個(gè)好的政策),我想知道原因。
AI 實(shí)驗(yàn)室是在作弊嗎?
AI 實(shí)驗(yàn)室的創(chuàng)始人們經(jīng)常認(rèn)為,他們正在進(jìn)行一場文明競爭,以控制整個(gè)未來的光錐,如果他們成功了,世界就將會(huì)改變。指責(zé)這些創(chuàng)始人從事欺詐行為以進(jìn)一步實(shí)現(xiàn)這些目的是相當(dāng)合理的。
即使你一開始對科技大佬的評價(jià)異常高,你也不應(yīng)該指望他們在這場競賽中成為自己模型表現(xiàn)的誠信來源。如果你能規(guī)避懲罰,那么夸大能力或有選擇地披露有利的結(jié)果有非常強(qiáng)大的短期激勵(lì)。投資是其中之一,但吸引人才和贏得(具有心理影響力的)聲望競賽可能也是同樣重要的激勵(lì)因素。而且基本上沒有法律責(zé)任迫使實(shí)驗(yàn)室對基準(zhǔn)測試結(jié)果保持透明或真實(shí),因?yàn)閺膩頉]有人因?yàn)樵跍y試數(shù)據(jù)集上進(jìn)行訓(xùn)練然后向公眾報(bào)告該表現(xiàn)而被起訴或被判犯有欺詐罪。
如果你嘗試過,任何這樣的實(shí)驗(yàn)室仍然可以聲稱自己在非常狹隘的意義上說的是實(shí)話,因?yàn)樵撃P汀复_實(shí)在該基準(zhǔn)上實(shí)現(xiàn)了該性能」。如果對重要指標(biāo)的一階調(diào)整在技術(shù)意義上可以被視為欺詐,那么負(fù)責(zé)偽造統(tǒng)計(jì)數(shù)據(jù)的團(tuán)隊(duì)還有一百萬種其他方式來稍微間接地處理它。
在本文的初稿中,我在上面一段后面加上了這樣一句話:「話雖如此,不可能所有收益都來自作弊,因?yàn)橐恍┗鶞?zhǔn)測試有保留數(shù)據(jù)集。」最近有一些私人基準(zhǔn)測試,如 SEAL,似乎顯示出了改進(jìn)。但 OpenAI 和 Anthropic 發(fā)布的每一個(gè)基準(zhǔn)測試都有一個(gè)公開的測試數(shù)據(jù)集。我能想到的唯一例外是 ARC-AGI 獎(jiǎng),其「半私人」評估中的最高分由 o3 獲得,但盡管如此,它尚未對 Claude 3.7 Sonnet、DeepSeek 或 o3-mini 進(jìn)行過公開評估。關(guān)于 o3 本身:

所以也許沒有什么秘密:AI 實(shí)驗(yàn)室公司在撒謊,當(dāng)他們改進(jìn)基準(zhǔn)測試結(jié)果時(shí),是因?yàn)樗麄冎耙呀?jīng)看到過答案并把它們寫下來了。從某種意義上說,這可能是最幸運(yùn)的答案,因?yàn)檫@意味著我們在衡量 AGI 性能方面其實(shí)并沒有那么糟糕;我們只是面臨著人為的欺詐。欺詐是人的問題,而不是潛在技術(shù)困難的跡象。
我猜這在一定程度上是正確的,但并非全部。
基準(zhǔn)測試是否沒有跟蹤實(shí)用性?
假設(shè)你對一個(gè)人的唯一了解是他們在瑞文漸進(jìn)矩陣(智商測試)中得分為 160。你可以對這個(gè)人做出一些推斷:例如,RPM 得分越高,可推斷出生活條件越積極,比如職業(yè)收入很高、健康狀況很好、不會(huì)進(jìn)監(jiān)獄等等。
你可以做出這些推斷,部分原因是在測試人群中,瑞文漸進(jìn)矩陣測試的分?jǐn)?shù)可以反映人類在相關(guān)任務(wù)上的智力能力。完成標(biāo)準(zhǔn)智商測試并獲得高分的能力不僅能讓你了解這個(gè)人的「應(yīng)試」能力,還能讓你了解這個(gè)人在工作中的表現(xiàn)如何,這個(gè)人是否做出了正確的健康決定,他們的心理健康是否良好,等等。
至關(guān)重要的是,這些相關(guān)性不必很強(qiáng),瑞文測試才能成為有用的診斷工具?;颊卟粫?huì)接受智商測試訓(xùn)練,而且人類大腦的設(shè)計(jì)也并非是為了在 RPM 等測試中獲得高分。我們在這些測試中的優(yōu)異表現(xiàn)(相對于其他物種而言)是過去 5 萬年中偶然發(fā)生的事情,因?yàn)檫M(jìn)化間接地讓我們能夠追蹤動(dòng)物、灌溉莊稼和贏得戰(zhàn)爭。
然而在大模型領(lǐng)域,除了幾個(gè)明顯的例外,我們幾乎所有的基準(zhǔn)測試都具有標(biāo)準(zhǔn)化測試的外觀和感覺。我的意思是,每一個(gè)都是一系列學(xué)術(shù)難題或軟件工程挑戰(zhàn),每個(gè)挑戰(zhàn)你都可以在不到幾百個(gè) token 的時(shí)間內(nèi)消化并解決。也許這只是因?yàn)檫@些測試評估起來更快,但人們似乎理所當(dāng)然地認(rèn)為,能夠獲得 IMO 金牌的 AI 模型將具有與陶哲軒相同的能力。因此,「人類的最后考試」(ENIGMAEVAL)不是對模型完成 Upwork 任務(wù)、完成視頻游戲或組織軍事行動(dòng)的能力的測試,而是一個(gè)自由反應(yīng)測驗(yàn)。
我不會(huì)做任何「人類的最后考試」的測試問題,但我今天愿意打賭,第一個(gè)拿到滿分的大模型仍然無法作為軟件工程師就業(yè)。 HLE 和類似的基準(zhǔn)測試很酷,但它們無法測試語言模型的主要缺陷,比如它們只能像小商販一樣通過復(fù)述的方式來記住東西。Claude Plays Pokemon 是一個(gè)被過度使用的例子,因?yàn)橐曨l游戲涉及許多人類特定能力的綜合。這項(xiàng)任務(wù)適合于偶爾回憶 30 分鐘前學(xué)到的東西,結(jié)果不出所料地糟糕。

就我個(gè)人而言,當(dāng)我想了解未來能力的改進(jìn)時(shí),我將幾乎只關(guān)注 Claude Plays Pokemon 這樣的基準(zhǔn)測試。我仍然會(huì)查看 SEAL 排行榜,看看它在說什么,但我的 AI 時(shí)間表的決定因素將是我在 Cursor 中的個(gè)人經(jīng)歷,以及 LLM 處理類似你要求員工執(zhí)行的長期任務(wù)的能力,其他的一切都太過嘈雜。
這些模型或許已經(jīng)很智能,但在對齊方面存在瓶頸?
在介紹下一點(diǎn)之前,讓我先介紹一下我們的業(yè)務(wù)背景。
正如我所提到的,我的公司使用這些模型來掃描軟件代碼庫以查找安全問題。從事這個(gè)特定問題領(lǐng)域(維護(hù)已交付軟件的安全性)工作的人被稱為 AppSec 工程師。
事實(shí)上,大多數(shù)大公司的 AppSec 工程師都有很多代碼需要保護(hù)。他們的工作過度,典型要回答的問題不是「我如何確保這個(gè)應(yīng)用程序沒有漏洞」,而是「我如何管理、篩選和解決我們 8000 條產(chǎn)品線中已經(jīng)存在的大量安全問題」。
如果他們收到一條警報(bào),他們希望它影響活躍的、理想情況下可通過互聯(lián)網(wǎng)訪問的生產(chǎn)服務(wù)。任何低于這個(gè)水平的情況都意味著要么有太多結(jié)果需要審查,要么安全團(tuán)隊(duì)是在浪費(fèi)有限的溝通資源來要求開發(fā)人員修復(fù)甚至可能沒有影響的問題。
因此,我們自然會(huì)嘗試構(gòu)建我們的應(yīng)用程序,以便它只報(bào)告影響活躍的、理想情況下可通過互聯(lián)網(wǎng)訪問的生產(chǎn)服務(wù)的問題。但是,如果你只是向聊天模型解釋這些限制,它們會(huì)偶爾遵循人的指示。例如,如果你告訴他們檢查一段代碼是否存在安全問題,他們傾向于像你是剛剛在 ChatGPT UI 中詢問該代碼的開發(fā)人員一樣做出回應(yīng),因此會(huì)推測代碼有問題或險(xiǎn)些失誤。即使你提供了我剛剛概述的情況的完整書面描述,幾乎每個(gè)公共模型都會(huì)忽略你的情況,并將無法利用的 SQL 查詢連接報(bào)告為「危險(xiǎn)」。
這并不是說 AI 模型認(rèn)為它遵循了你的指示,但實(shí)際上并沒有。LLM 實(shí)際上會(huì)在簡單的應(yīng)用程序中說,它報(bào)告的是一個(gè)「潛在」問題,并且可能無法驗(yàn)證。我認(rèn)為發(fā)生的情況是,大型語言模型被訓(xùn)練成在與用戶的實(shí)時(shí)對話中「看起來很聰明」,因此它們更喜歡突出顯示可能的問題,而不是確認(rèn)代碼看起來不錯(cuò),就像人類想要演得很聰明時(shí)所做的那樣。
每個(gè) LLM 應(yīng)用初創(chuàng)公司都會(huì)遇到這樣的限制。當(dāng)你是一個(gè)直接與聊天模型交互的人時(shí),阿諛奉承和詭辯只是小麻煩,甚至也是能適應(yīng)的。當(dāng)你是一個(gè)團(tuán)隊(duì)試圖將這些模型組合成更大的系統(tǒng)時(shí)(由于前面提到的內(nèi)存問題,這是必要的),想要看起來不錯(cuò)會(huì)引發(fā)嚴(yán)重的問題。更智能的模型可能會(huì)解決這個(gè)問題,但它們也可能使問題更難檢測,特別是當(dāng)它們?nèi)〈南到y(tǒng)變得更加復(fù)雜并且更難驗(yàn)證輸出時(shí)。
有很多不同的方法來克服這些缺陷。在有人想出解決問題的外在表現(xiàn)之前,我們完全有可能無法解決核心問題。
我認(rèn)為這樣做是一個(gè)錯(cuò)誤。這些 AI 機(jī)器很快就會(huì)成為我們生活的社會(huì)的跳動(dòng)的心臟。它們在組合和互動(dòng)時(shí)創(chuàng)造的社會(huì)和政治結(jié)構(gòu)將定義我們周圍看到的一切。更重要的是,它們要盡可能地有道德。
https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit
熱門跟貼