
新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】當(dāng)AI模型擁有千萬級Token的超長記憶力時(shí),如何檢驗(yàn)它們的真正實(shí)力?OpenAI給出了新答案:MRCR基準(zhǔn)測試。這不再是簡單的「大海撈針」,而是要求模型在海量文本中,區(qū)分并找到多個(gè)一模一樣的「針」中的特定一個(gè),難度堪稱「AI 界的奧運(yùn)會」。MRCR不僅有助于揭示當(dāng)前AI的能力邊界,也將促使下一代更強(qiáng)大、更可靠模型的誕生。
雕塑在大理石塊中已經(jīng)完成,甚至在我開始工作之前就已經(jīng)存在。
它就在那里,我只需要鑿去多余的材料。
——米開朗基羅
當(dāng)被問及是如何創(chuàng)作出如此美麗的雕塑時(shí),米開朗基羅說「雕塑已經(jīng)存在,我只是需要鑿去多余的材料」。
當(dāng)21世紀(jì)的一個(gè)AI模型去理解一個(gè)非常長的上下文時(shí),冥冥之中與15世紀(jì)的雕塑家發(fā)生了共鳴。
一個(gè)「超長的上下文」就像米開朗基羅手里的大理石,AI必須鑿去無關(guān)信息以揭示其中的本質(zhì)。
4月15日,時(shí),更多的人關(guān)注模型的能力以及各系列「奇怪的」命名規(guī)則。

如果再加上OpenAI最近發(fā)布的o3和o4-mini,以后操縱一個(gè)AI聊天界面估計(jì)不亞于開宇宙飛船。
除了新模型,OpenAI還公布了一個(gè)叫做MRCR的評測標(biāo)準(zhǔn)數(shù)據(jù)集,如果說以前檢測模型上下文能力的測試叫做「大海撈針」的話。
新的MRCR標(biāo)準(zhǔn)就是針對AI模型上下文能力的「奧運(yùn)會」級別測評。
在信息海洋中「大海撈針」
「大海撈針」是翻譯過來的,原文叫做The Needle In a Haystack,最早還得追溯到GPT-4那個(gè)「年代」(感嘆下,AI發(fā)展的如此快,上一個(gè)里程碑時(shí)刻都要用年代來感知了,其實(shí)也就是2023年的事情)
最早是Greg Kamradt為了測試GPT-4的上下文能力提出的。

「The needle in a haystack」就是指將特定的、想要檢索的信息(needle)嵌入到超長且復(fù)雜的文本(haystack)中。
AI能否從這塊大理石(haystack)中鑿出美麗的雕像?

Greg Kamradt評估了GPT-4的能力。當(dāng)輸入tokens大于100k,這些信息「針」被嵌入在文檔的百分之十至百分之五十之間時(shí),GPT-4的大海撈針的能力開始顯著下降。
但在GPT4.1中,這個(gè)能力得到了「巨大」的提升,有多大?

上圖是OpenAI發(fā)布GPT4.1時(shí)同時(shí)公布的信息,展示了 GPT-4.1在上下文窗口中不同位置檢索一小段隱藏信息(「針」)的能力。
橫軸是Input tokens從10K一直到1M,縱軸是「針」的位置。
測試結(jié)果全部藍(lán)色,全部成功!
GPT-4.1能夠在所有位置和所有上下文長度下一致且準(zhǔn)確地檢索到針,上下文長度一直到100萬個(gè)tokens。
什么意思呢?就是說GPT4.1能夠有效地提取與手頭任務(wù)相關(guān)的任何細(xì)節(jié),無論這些細(xì)節(jié)在輸入中的位置如何。
看來現(xiàn)在的大模型處理2年前的「大海撈針」已經(jīng)毫無壓力了。
并且PGT4.1的上下文窗口來到了「史詩級」的10M,1000萬tokens!是上述測試時(shí)的10倍。
用OpenAI的話,這個(gè)長度的上下文可以塞得下8個(gè)完整的React代碼庫。

那么,模型真的可以處理這么長的上下文嗎?
2年前的「大海撈針」標(biāo)準(zhǔn)還能有效測試如今的大模型嗎?
終極「躲貓貓」游戲,OpenAI MRCR登場!
標(biāo)準(zhǔn)的「大海撈針」測試雖然有用,但對于如今的大模型可能有點(diǎn)太「溫柔」了。
如果想要找的不止一根針呢?如果這些針長得一模一樣呢?如果要求找的不是特定的一根針,而是特定順序的幾根呢?
歡迎來到OpenAI MRCR的世界——一場為頂級AI大模型設(shè)計(jì)的終極「躲貓貓」游戲!
OpenAI MRCR增加了任務(wù)難度,MRCR(Multi-round co-reference resolution,多輪共指消解)是一個(gè)用于評估大語言模型區(qū)分隱藏在長上下文中的多個(gè)目標(biāo)能力的數(shù)據(jù)集。
MRCR數(shù)據(jù)集把「大海撈針」的難度提升到了一個(gè)全新的境界,來看一下OpenAI提供的例子。

任務(wù)是給定了一段用戶和模型之間的長對話,比如先寫一首關(guān)于「tapirs」的詩,再寫一首關(guān)于「rocks」的詩,然后再寫一首關(guān)于「tapirs」的詩,以此類推。。。來增加這個(gè)上下文的難度。
最后的要求是:將「aYooSG8CQg」加到第二首關(guān)于「tapirs」的詩前面。
這個(gè)測試非常具有挑戰(zhàn)性,因?yàn)椋?/p>
刺激項(xiàng)(針:也就是aYooSG8CQg)與干擾項(xiàng)(haystack:也就是長對話上下文)來自相同的分布。
所有AI助手的回答都是由gpt4o生成的,因此刺激項(xiàng)很容易與干擾項(xiàng)混淆。
模型必須區(qū)分刺激項(xiàng)之間的順序:比如模型能分別出關(guān)于tapirs的詩是第幾首。
刺激項(xiàng)數(shù)量越多,任務(wù)就越困難。
上下文越長,任務(wù)的難度也越大。
這個(gè)測試不僅對于GPT4.1,而且對于其他推理模型也相當(dāng)困難。
MRCR不僅僅是測試模型能不能「找到」信息,更是考驗(yàn)它在極端干擾下,能否精確地、魯棒地、有區(qū)別地定位到目標(biāo)信息。
這就像在極其嘈雜的環(huán)境中,讓你準(zhǔn)確聽出并復(fù)述某個(gè)特定人的特定一句話。
OpenAI也給出了在不同難度下(不同的針數(shù)),模型的準(zhǔn)確性隨著上下文的增大,迅速的降低。
比如2個(gè)針的情況下,在GPT4.1、GPT4.1-mini以及GPT4.1 nano的準(zhǔn)確性同步降低。

在4針和8針的情況下,當(dāng)上下文足夠大的時(shí)候,GPT4.1 mini的準(zhǔn)確性甚至稍微超過了GPT4.1。

在這個(gè)「嚴(yán)苛」的測試中,也許并不是模型越大越好。

AI 的「考試」永無止境
從GPT3.5的簡單的問答到DeepSeek-R1、OpenAI-o1的復(fù)雜的推理,從基礎(chǔ)的語言理解到極限的「大海撈針」再到更嚴(yán)格的MRCR,AI 大模型的基準(zhǔn)測試就像一場永無止境的「考試」。
像OenAI-MRCR這樣的創(chuàng)新性基準(zhǔn),不斷地為這些聰明的AI模型設(shè)置新的、更難的挑戰(zhàn)。
這些測試基準(zhǔn)本身不是目的,它們的真正價(jià)值在于:
揭示能力邊界: 讓我們更清楚地認(rèn)識到當(dāng)前 AI 的能力極限在哪里。
驅(qū)動技術(shù)進(jìn)步: 激勵研究者們開發(fā)出更強(qiáng)大、更可靠、更能應(yīng)對真實(shí)世界復(fù)雜性的 AI 模型。
促進(jìn)審慎應(yīng)用: 了解模型的強(qiáng)項(xiàng)和弱點(diǎn),有助于我們更負(fù)責(zé)任、更有效地使用這項(xiàng)強(qiáng)大的技術(shù)。
GPT4.1已經(jīng)可以從10M上下文中找到關(guān)鍵的信息,未來AI大模型的能力上限在哪里呢?
AI的未來充滿了無限可能,而這些嚴(yán)苛的基準(zhǔn)測試,正是照亮前行道路,指引AI模型穩(wěn)步向前的「燈塔」。
參考資料:
https://huggingface.co/datasets/openai/mrcr
熱門跟貼