日韩欧美黄片在线看,亚洲精品一区中文字幕乱码,亚洲电影av在线观看,黄床大全三级网,别捏我奶头嗯啊视频

在今年深度體驗(yàn)AI大模型的3個(gè)月里，我發(fā)現(xiàn)無(wú)論他回答的對(duì)不對(duì)，大多數(shù)時(shí)候，他基本都能在1分鐘內(nèi)能生成回答（很多時(shí)候是秒答），無(wú)論回答質(zhì)量如何，是否有幻覺(jué)，他都能很快給你答完就是了。

但是，有這么一類問(wèn)題，他的答案普遍簡(jiǎn)短，有的短到只有一個(gè)單詞，長(zhǎng)的也不超過(guò)10個(gè)單詞，卻常常讓 DeepSeek深度思考五分鐘以上，過(guò)程中動(dòng)不動(dòng)還爆出數(shù)千字以上的思維鏈。

比如下面這個(gè)問(wèn)題：

中間的思維鏈就更長(zhǎng)了，接近5000字，我就不全截圖了，你可以想象它在將近5分鐘里，一直在生成思維鏈，全文包含79個(gè)wait：

還有下面這個(gè)問(wèn)題，花了將近6分鐘

這兩個(gè)問(wèn)題，別看題目不長(zhǎng)，答案也都很短，大模型花了這么久，但是依然做錯(cuò)了。

這些問(wèn)題，都來(lái)自一個(gè)測(cè)試，就是OpenAI在4月上旬發(fā)布的BrowseCamp，瀏覽競(jìng)賽。

這個(gè)測(cè)試，主要就測(cè)一個(gè)能力：定位很難尋找的、復(fù)雜糾纏的信息的能力 A simple and challenging benchmark that measures the ability of AI agents to locate hard-to-find, entangled information.

其實(shí)說(shuō)白了，就是要看看大模型們?yōu)g覽網(wǎng)頁(yè)和搜索信息的能力，到底強(qiáng)到什么地步了？因?yàn)楝F(xiàn)有的測(cè)試比如SimpleQA，其實(shí)已經(jīng)被“刷爆”了。

但是，基本上沒(méi)太多人討論這個(gè) BrowseCamp，它被淹沒(méi)在4o生圖的火熱和最近的o3模型的發(fā)布之中了。

瀏覽競(jìng)賽里的問(wèn)題集的最大特點(diǎn)，就是答案簡(jiǎn)單，但是，題干一定會(huì)用最虛無(wú)縹緲的特征描述，把簡(jiǎn)單的答案層層包裹起來(lái)。

比如，答案是一個(gè)歷史名人，但是，題干是這個(gè)人最冷僻、最不為人所知的信息點(diǎn)，甚至是有很大誤導(dǎo)性的信息點(diǎn)，比如這個(gè)描述同時(shí)也有很多其它人符合或者是很籠統(tǒng)的描述，最終，你會(huì)很難猜這個(gè)人是誰(shuí)。

比如劉備，大家都知道，如果問(wèn)桃園三結(jié)義里的大哥是誰(shuí)，那就太好猜了。

如果這么問(wèn)：某河北籍男子，身高1米88，15歲外出求學(xué)，中年創(chuàng)業(yè)多次失敗，兒子很不成器，晚年因?yàn)橐o弟弟報(bào)仇，63歲客死他鄉(xiāng)。

是不是難了很多？

當(dāng)然，理論上，還要加入更多的限制性條件，讓答案唯一。

以上信息，還算是很好找的，所有信息都在一個(gè)百度百科的網(wǎng)頁(yè)里都有了（因?yàn)榫褪俏規(guī)追昼妰?nèi)現(xiàn)編的，如果信息有誤請(qǐng)找百度）。

但問(wèn)題是，在不知道答案是劉備的前提下，而且題干的信息給得更朦朧更誤導(dǎo)一點(diǎn)的話，大模型往往需要橫跨數(shù)十個(gè)甚至上百個(gè)網(wǎng)頁(yè)，才有可能定位到其中某個(gè)信息，然后開(kāi)始驗(yàn)證，排除，再查找，再驗(yàn)證...最后，答錯(cuò)了。

官方論文里的另一個(gè)例題：請(qǐng)告訴我一篇發(fā)表在 2018 至 2023 年間 EMNLP 會(huì)議上的論文，其第一作者本科畢業(yè)于達(dá)特茅斯學(xué)院（Dartmouth College），第四作者本科畢業(yè)于賓夕法尼亞大學(xué)（University of Pennsylvania）。

答案：Frequency Effects on Syntactic Rule Learning in Transformers，EMNLP 2021

這些問(wèn)題在知道答案的時(shí)候，都很容易確認(rèn)，就是1分鐘的事情，但是不知道答案的話，模型就得暴力搜索數(shù)千篇論文了。

這是官方所謂的“驗(yàn)證的不對(duì)稱性 asymmetry of verification ”：驗(yàn)證容易，解答困難。但是，這就恰恰符合了這個(gè)測(cè)試的目標(biāo)：大模型的檢索能力。

雖不完美，卻也有效。它不是考驗(yàn) next token predidtion的能力，畢竟題干和答案都很短，也不太考驗(yàn)推理能力，因?yàn)椴惶枰裁瓷疃妊芯糠治觯ú贿^(guò) 普遍來(lái)說(shuō)推理模型的表現(xiàn)還是會(huì)更好），只要找得到信息，就能回答正確。

下圖顯示了 BrowseCamp的整體測(cè)試結(jié)果：花的時(shí)間越久，正確率越高，這也是之前DeepSeek會(huì)花那么久的原因之一，但是，正確率最高的模型，也就50%左右，而且嚴(yán)格來(lái)說(shuō)，它還不算一個(gè)模型，而是agent

瀏覽競(jìng)賽里的問(wèn)題，實(shí)在也不好編，官方說(shuō)，現(xiàn)在攏共只有1266個(gè)問(wèn)題。官網(wǎng)放出了5道例題，我分別讓DeepSeek V3、R1不開(kāi)聯(lián)網(wǎng)、R1開(kāi)聯(lián)網(wǎng)，分別測(cè)試了5個(gè)問(wèn)題，每次都新開(kāi)對(duì)話窗口，一共15次測(cè)試，全軍覆沒(méi)。（注意，這并非是說(shuō) DeepSeek一道都做不對(duì)，而是正確率大概率很低）

而且，在沒(méi)有聯(lián)網(wǎng)的情況下，出現(xiàn)了前述的超長(zhǎng)回答時(shí)間的問(wèn)題，理論上，這種自我榨干的情況不該出現(xiàn)，它應(yīng)該早一點(diǎn)發(fā)現(xiàn)自己其實(shí)根本無(wú)法作答，然后再給出一個(gè)它認(rèn)為最有可能正確的猜測(cè)即可（注：R1的表現(xiàn)比V3好）。

那么，到底什么模型表現(xiàn)最好呢？很遺憾，OpenAI還只測(cè)試了自家的模型，暫時(shí)沒(méi)啥橫向可比性，雖然我認(rèn)為瀏覽網(wǎng)頁(yè)和尋找信息的能力，肯定是agent們包含的各種 tool use能力里最重要的一個(gè)。

新上線的o3，不提它在視覺(jué)理解方面的能力，就因?yàn)橄啾萶1有了browsing功能（當(dāng)然還有更強(qiáng)的推理能力），正確率提高了很多。（o1在沒(méi)有聯(lián)網(wǎng)功能的情況下，僅靠?jī)?nèi)部知識(shí)庫(kù)，答對(duì)了其中10%的問(wèn)題）