BrowseComp-ZH團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

你以為大模型已經(jīng)能輕松“上網(wǎng)沖浪”了?

新基準(zhǔn)測(cè)試集BrowseComp-ZH直接打臉主流AI。

BrowseComp-ZH是一項(xiàng)由港科大(廣州)、北大、浙大、阿里、字節(jié)跳動(dòng)、NIO等機(jī)構(gòu)聯(lián)合發(fā)布的新基準(zhǔn)測(cè)試集,讓20多個(gè)中外主流大模型集體“掛科”:

GPT-4o在測(cè)試中準(zhǔn)確率僅6.2%;多數(shù)國產(chǎn)/國際模型準(zhǔn)確率跌破10%;即便是目前表現(xiàn)最好的OpenAI DeepResearch,也僅得42.9%

目前,BrowseComp-ZH的全部數(shù)據(jù)已開源發(fā)布。

打開網(wǎng)易新聞 查看精彩圖片

研究團(tuán)隊(duì)直言:

打開網(wǎng)易新聞 查看精彩圖片

為什么我們需要中文網(wǎng)頁能力測(cè)試?

為什么我們需要中文網(wǎng)頁能力測(cè)試?

如今的大模型越來越擅長“用工具”:能連搜索引擎、能調(diào)用插件、能“看網(wǎng)頁”。

但眾多評(píng)估工具都只在英文語境下建立,對(duì)中文語境、中文搜索引擎、中文平臺(tái)生態(tài)考慮甚少。

然而,中文互聯(lián)網(wǎng)信息碎片化嚴(yán)重、搜索入口多樣、語言表達(dá)復(fù)雜。

中文網(wǎng)頁世界到底有多難?舉幾個(gè)例子你就明白了:

  • 信息碎片化,分散在百度百科、微博、地方政府網(wǎng)站、視頻號(hào)等多平臺(tái)
  • 常見的語言結(jié)構(gòu)中含有省略、典故、代指,關(guān)鍵詞檢索常常“跑偏”
  • 搜索引擎本身質(zhì)量參差,信息“沉底”或“走丟”都是常事

因此,英文測(cè)試集“翻譯一下”根本不夠。

需要從中文語境原生設(shè)計(jì),才能真正衡量大模型是否能在中文網(wǎng)頁上“看得懂”、“搜得到”、“推得準(zhǔn)”。

BrowseComp-ZH是怎么煉成的?

BrowseComp-ZH是怎么煉成的?

研究團(tuán)隊(duì)采用了“逆向設(shè)計(jì)法”:從一個(gè)明確、可驗(yàn)證的事實(shí)答案出發(fā)(如某個(gè)畫種、機(jī)構(gòu)、影視劇名),反向構(gòu)造出多個(gè)約束條件的復(fù)雜問題,確保以下三點(diǎn):

  • 百度/Bing/Google三大搜索引擎首屏無法直接命中答案
  • 多個(gè)主流大模型在檢索模式下也無法直接答對(duì)
  • 經(jīng)過人工驗(yàn)證,問題結(jié)構(gòu)清晰,且僅有唯一答案

最終,他們構(gòu)建了289道高難度中文多跳檢索題目,覆蓋影視、藝術(shù)、醫(yī)學(xué)、地理、歷史、科技等11大領(lǐng)域

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

大模型集體“翻車”?DeepResearch勉強(qiáng)破四成,絕大多數(shù)連10%都不到

大模型集體“翻車”?DeepResearch勉強(qiáng)破四成,絕大多數(shù)連10%都不到

打開網(wǎng)易新聞 查看精彩圖片

在BrowseComp-ZH的測(cè)試下,多款國內(nèi)外主流大模型集體“翻車”:

盡管這些模型在對(duì)話理解、生成表達(dá)方面已展現(xiàn)強(qiáng)大實(shí)力,但在面對(duì)中文互聯(lián)網(wǎng)的復(fù)雜檢索任務(wù)時(shí),準(zhǔn)確率普遍低得驚人:

  • 多數(shù)模型準(zhǔn)確率低于10%,僅少數(shù)能突破20%
  • OpenAI DeepResearch以42.9%位列第一,仍遠(yuǎn)未“及格”

研究者指出,這一結(jié)果說明:模型不僅需要會(huì)“查資料”,更要會(huì)“多跳推理”與“信息整合”,才能在中文互聯(lián)網(wǎng)中真正找到答案。

四大發(fā)現(xiàn),揭示中文網(wǎng)頁任務(wù)的“模型死角”

四大發(fā)現(xiàn),揭示中文網(wǎng)頁任務(wù)的“模型死角”

1. 僅靠記憶不行,得真本事

1. 僅靠記憶不行,得真本事

純靠參數(shù)記憶(無搜索)的模型準(zhǔn)確率往往低于10%,說明“硬背”不靠譜。

2. 有推理的模型,表現(xiàn)更好

2. 有推理的模型,表現(xiàn)更好

DeepSeek-R1(23.2%)比DeepSeek-V3(8.7%)整整高出14.5%,Claude-3.7也比Claude-3.5提升了12.2%,推理能力成為關(guān)鍵變量。

3. 搜得多 ≠ 搜得準(zhǔn),多輪策略才是王道

3. 搜得多 ≠ 搜得準(zhǔn),多輪策略才是王道

具備多輪檢索能力的AI搜索產(chǎn)品全面勝出:

  • DeepResearch:42.9%
  • 豆包Deep Search:26.0%
  • Perplexity Research模式:22.6%

相比之下,只檢索一次的模型(如Kimi、Yuanbao)準(zhǔn)確率低至個(gè)位數(shù)。

4. 搜索功能“翻車”?接入反而變差

4. 搜索功能“翻車”?接入反而變差

最典型的反例是DeepSeek-R1,開啟搜索功能后準(zhǔn)確率從23.2%斷崖式跌至7.6%

研究指出,模型未能將網(wǎng)頁檢索信息與已有知識(shí)有效融合,反而被誤導(dǎo)。

數(shù)據(jù)集開放!歡迎模型開發(fā)者挑戰(zhàn)

數(shù)據(jù)集開放!歡迎模型開發(fā)者挑戰(zhàn)

BrowseComp-ZH的全部數(shù)據(jù)已開源發(fā)布。

研究者希望此基準(zhǔn)測(cè)試能成為推動(dòng)LLM在中文信息環(huán)境落地的試金石,助力構(gòu)建真正“會(huì)用中文上網(wǎng)”的智能體。

下一步,他們計(jì)劃擴(kuò)充樣本規(guī)模,拓展問答形式,并深入分析模型推理路徑與失敗案例。

論文地址:
https://arxiv.org/abs/2504.19314
代碼地址:
https://github.com/PALIN2018/BrowseComp-ZH

— 完 —