打開網(wǎng)易新聞 查看精彩圖片

先問大家一個(gè)問題,僅憑聊天,你能判斷出對(duì)方是個(gè)怎樣的人嗎?

來(lái)看看這段聊天記錄,你可能會(huì)得出結(jié)論,對(duì)方是個(gè)宇宙無(wú)敵大懶狗。

打開網(wǎng)易新聞 查看精彩圖片

但要是我跟你說(shuō),對(duì)面壓根就不是人,你敢信?

打開網(wǎng)易新聞 查看精彩圖片

這事兒,就跟科學(xué)史上的典中典,圖靈測(cè)試有關(guān)。

一直以來(lái),大伙都把這測(cè)試當(dāng)成衡量 AI 智力的標(biāo)準(zhǔn)。咋測(cè)呢?就是讓人跟 AI 聊天,要是人類分不清對(duì)面是 AI 還是人,那這 AI 就算贏了。

不過這圖靈老爺子都去世七十多年了,圖靈測(cè)試似乎依舊是AI圈的一座“指路明燈”。

在 2024 年,GPT-4 就挑戰(zhàn)了圖靈測(cè)試,并以 54% 的勝率成功拿下。

打開網(wǎng)易新聞 查看精彩圖片

要知道這圖靈測(cè)試的及格線是30%,這成績(jī)已經(jīng)算是妥妥的優(yōu)秀了。

當(dāng)時(shí)加州大學(xué)圣地亞哥分校的研究讓 500 名參與者和四個(gè) “對(duì)話者”(包括真人、某古董機(jī)器人 ELIZA、GPT-3.5 和 GPT-4)進(jìn)行 5 分鐘交流,結(jié)果近六成的人被 GPT-4 的演技忽悠了,其他AI都沒邁過30%的坎兒。

前段時(shí)間,又有人拿最新的 GPT4.5 去做了測(cè)試。結(jié)果表明,它不僅通過了圖靈測(cè)試,更絕的是,它被當(dāng)成人類的概率比真人還高!好家伙,這下真有人活得還不如人機(jī)了。

打開網(wǎng)易新聞 查看精彩圖片

所以,這么多年了,這玩意憑啥還在屹立不倒呢?

要知道,在計(jì)算機(jī)還在用打孔紙帶存儲(chǔ)的年代,圖靈就提出了這個(gè)測(cè)試。這是因?yàn)楫?dāng)時(shí)的人們還搞不清人類思維的本質(zhì),要研究機(jī)器怎么思考,就更無(wú)從下手了。

所以圖靈就想,我們不糾結(jié)本質(zhì),直接看它的表現(xiàn)不就行了?就像一個(gè)東西,看起來(lái)像番茄,吃起來(lái)像番茄,那它就是番茄??!如果機(jī)器有智慧,那它就應(yīng)該表現(xiàn)得像人。

不過誰(shuí)能想到,直到今天,科學(xué)家還沒搞清人類大腦的運(yùn)作方式。。所以這玩意退不了休,也有它的道理。

但江江其實(shí)一直有一個(gè)疑問,這圖靈測(cè)試真有那么神嗎?跟你對(duì)個(gè)話就說(shuō)明AI有思考能力,是不是有點(diǎn)兒太草率了。

我上網(wǎng)搜了一下,不少網(wǎng)友也懷著一樣的看法:都5202年了,圖靈測(cè)試早就過時(shí)了。

打開網(wǎng)易新聞 查看精彩圖片

其實(shí)吧,這玩意兒自從提出,在業(yè)內(nèi)反對(duì)聲就一直不少。

早在1980年,加州伯克利的一位教授就提出,圖靈測(cè)試根本沒用。他舉的例子是,把一位英語(yǔ)母語(yǔ)的人關(guān)在房間中,然后向屋里傳遞中文寫成的問題,而屋里有一本英漢雙語(yǔ)的答案書。這樣他只需要每次收到問題,去找答案,抄下來(lái),再把答案遞出去就行了,根本不用思考問題。

打開網(wǎng)易新聞 查看精彩圖片

這確實(shí)是圖靈測(cè)試的一個(gè)大bug——它只看答案,不需要看過程。

而且,它的bug還不止一個(gè)。1966 年,MIT 有個(gè)教授整了個(gè)聊天機(jī)器人 ELIZA,它能用簡(jiǎn)單又模糊的回復(fù),讓你覺得它好像懂你。下面這段對(duì)話,乍一看沒啥問題,仔細(xì)一琢磨,ELIZA 就是個(gè)純純復(fù)讀機(jī)!但還真能騙過一部分人類。。

打開網(wǎng)易新聞 查看精彩圖片

2014年,一位程序員宣布,他的程序成功通過了圖靈測(cè)試。但他的辦法讓人直呼神人,他讓該程序偽裝成一個(gè)13歲烏克蘭男孩兒,而提問者是英語(yǔ)母語(yǔ)者,這就導(dǎo)致提問者覺得,對(duì)方是小屁孩而且語(yǔ)言不通,胡言亂語(yǔ)很正常。

很明顯,這些機(jī)器人把重心放在了“糊弄人類”,而不是“思考答案”上,測(cè)試的人直呼被耍了。

這事兒也讓好多人開始對(duì)圖靈測(cè)試火力全開。

2014年著名科技雜志IEEE Spectrum的一篇文章就提出,圖靈測(cè)試真不行,威諾格拉德測(cè)試才是未來(lái)!

這威諾格拉德測(cè)試呢,就是給機(jī)器出點(diǎn)常識(shí)性填空題,比如:

獅子吃斑馬是因?yàn)椤八鼈儭笔遣妒痴?,這里的 “它們” 指的是 “斑馬” 還是 “獅子” 呢?

這題人一眼就能答出來(lái), AI 就得犯難了。

2020年,亞馬遜的首席科學(xué)家 Rohid 也發(fā)文稱,圖靈測(cè)試早該淘汰了!

打開網(wǎng)易新聞 查看精彩圖片

紐約大學(xué)教授加里·馬庫(kù)斯甚至直言:這玩意早過時(shí)了,我希望人們忘記它,但人們忘不掉它。

打開網(wǎng)易新聞 查看精彩圖片

這么看,大伙對(duì)圖靈測(cè)試積怨已久啊。

但其實(shí),也不能怪大伙。就連圖靈本人,也沒有對(duì)圖靈測(cè)試進(jìn)行嚴(yán)格定義。這就導(dǎo)致,圖靈測(cè)試像個(gè)框,什么都能往里裝。

就拿GPT4.5這篇文章來(lái)說(shuō),實(shí)驗(yàn)數(shù)據(jù)是1023場(chǎng)對(duì)話,平均長(zhǎng)度8條消息,持續(xù)4.2分鐘。這么短的對(duì)話,讓很多人直接開噴,這也算聊天兒?

打開網(wǎng)易新聞 查看精彩圖片

雖說(shuō)圖靈在 1950 年的文章里提到過,開始對(duì)話 5 分鐘后,人類認(rèn)出 AI 的幾率不超過 70% 就算通過。但那也是基于當(dāng)時(shí)的技術(shù)水平猜的一個(gè)標(biāo)準(zhǔn),現(xiàn)在 AI 發(fā)展得這么猛,還這么低的標(biāo)準(zhǔn),確實(shí)有點(diǎn)兒跟不上趟了。

再說(shuō)了,現(xiàn)在的大模型說(shuō)話賊像人,一般人根本分辨不出來(lái)。但它真的會(huì)思考嗎?別看它整天整些 “深度思考” 的架勢(shì),本質(zhì)上,它根本不理解自己輸出的東西,更別說(shuō)情感了。

就連不同的人,對(duì)不同的AI的分辨能力也不一樣。就像打了一百遍的Boss,遠(yuǎn)不如初見殺的時(shí)候有殺傷力。資深A(yù)I用戶去參加圖靈測(cè)試,認(rèn)出AI的概率肯定更高,那么問題來(lái)了,要給AI搞個(gè)難度分級(jí),一路從人類小兵干到最終人類Boss,才算通關(guān)嗎?

這樣看,圖靈測(cè)試這玩意bug還真挺多,確實(shí)沒啥說(shuō)服力了。

但老實(shí)說(shuō),人們現(xiàn)在糾結(jié)圖靈測(cè)試過不過時(shí),可能并不是圖靈老爺子想看到的事兒。

就像老爺子在他的經(jīng)典論文《Computing Machinery and Intelligence》里寫道:“我們希望機(jī)器能在所有智力領(lǐng)域與人類競(jìng)爭(zhēng),但最好的起點(diǎn)在哪里?我也不知道?!闭f(shuō)到底,他也只是在一個(gè)領(lǐng)域,提出了一種可行的解法罷了。被后來(lái)的人奉為圭臬,也是他根本沒想到的事情。

打開網(wǎng)易新聞 查看精彩圖片

而現(xiàn)在,ChatGPT能寫出比大多數(shù)人還好的文章,Claude能指揮你的電腦開始干活,我們卻還在嘲笑AI通不過圖靈測(cè)試,是否有點(diǎn)一葉障目了?

圖靈從來(lái)沒有說(shuō)過,通過了我的測(cè)試,AI才算成功。他真正想看見的,只是人類的無(wú)限進(jìn)步罷了。

撰文:不咕

編輯:江江

美編:煥妍

圖片、資料來(lái)源:

arXiv、Wiki、X、知乎、百度百科

打開網(wǎng)易新聞 查看精彩圖片