国产精品乱码久久久久,亚洲国产404h网站,高清亚洲熟女,久久久久久久久精品中文字幕二区 ,国产内射在线精品

先問大家一個(gè)問題，僅憑聊天，你能判斷出對(duì)方是個(gè)怎樣的人嗎？

來(lái)看看這段聊天記錄，你可能會(huì)得出結(jié)論，對(duì)方是個(gè)宇宙無(wú)敵大懶狗。

但要是我跟你說(shuō)，對(duì)面壓根就不是人，你敢信？

這事兒，就跟科學(xué)史上的典中典，圖靈測(cè)試有關(guān)。

一直以來(lái)，大伙都把這測(cè)試當(dāng)成衡量 AI 智力的標(biāo)準(zhǔn)。咋測(cè)呢？就是讓人跟 AI 聊天，要是人類分不清對(duì)面是 AI 還是人，那這 AI 就算贏了。

不過這圖靈老爺子都去世七十多年了，圖靈測(cè)試似乎依舊是AI圈的一座“指路明燈”。

在 2024 年，GPT-4 就挑戰(zhàn)了圖靈測(cè)試，并以 54% 的勝率成功拿下。

要知道這圖靈測(cè)試的及格線是30%，這成績(jī)已經(jīng)算是妥妥的優(yōu)秀了。

當(dāng)時(shí)加州大學(xué)圣地亞哥分校的研究讓 500 名參與者和四個(gè) “對(duì)話者”（包括真人、某古董機(jī)器人 ELIZA、GPT-3.5 和 GPT-4）進(jìn)行 5 分鐘交流，結(jié)果近六成的人被 GPT-4 的演技忽悠了，其他AI都沒邁過30%的坎兒。

前段時(shí)間，又有人拿最新的 GPT4.5 去做了測(cè)試。結(jié)果表明，它不僅通過了圖靈測(cè)試，更絕的是，它被當(dāng)成人類的概率比真人還高！好家伙，這下真有人活得還不如人機(jī)了。

所以，這么多年了，這玩意憑啥還在屹立不倒呢？

要知道，在計(jì)算機(jī)還在用打孔紙帶存儲(chǔ)的年代，圖靈就提出了這個(gè)測(cè)試。這是因?yàn)楫?dāng)時(shí)的人們還搞不清人類思維的本質(zhì)，要研究機(jī)器怎么思考，就更無(wú)從下手了。

所以圖靈就想，我們不糾結(jié)本質(zhì)，直接看它的表現(xiàn)不就行了？就像一個(gè)東西，看起來(lái)像番茄，吃起來(lái)像番茄，那它就是番茄??！如果機(jī)器有智慧，那它就應(yīng)該表現(xiàn)得像人。

不過誰(shuí)能想到，直到今天，科學(xué)家還沒搞清人類大腦的運(yùn)作方式。。所以這玩意退不了休，也有它的道理。

但江江其實(shí)一直有一個(gè)疑問，這圖靈測(cè)試真有那么神嗎？跟你對(duì)個(gè)話就說(shuō)明AI有思考能力，是不是有點(diǎn)兒太草率了。

我上網(wǎng)搜了一下，不少網(wǎng)友也懷著一樣的看法：都5202年了，圖靈測(cè)試早就過時(shí)了。

其實(shí)吧，這玩意兒自從提出，在業(yè)內(nèi)反對(duì)聲就一直不少。

早在1980年，加州伯克利的一位教授就提出，圖靈測(cè)試根本沒用。他舉的例子是，把一位英語(yǔ)母語(yǔ)的人關(guān)在房間中，然后向屋里傳遞中文寫成的問題，而屋里有一本英漢雙語(yǔ)的答案書。這樣他只需要每次收到問題，去找答案，抄下來(lái)，再把答案遞出去就行了，根本不用思考問題。

這確實(shí)是圖靈測(cè)試的一個(gè)大bug——它只看答案，不需要看過程。

而且，它的bug還不止一個(gè)。1966 年，MIT 有個(gè)教授整了個(gè)聊天機(jī)器人 ELIZA，它能用簡(jiǎn)單又模糊的回復(fù)，讓你覺得它好像懂你。下面這段對(duì)話，乍一看沒啥問題，仔細(xì)一琢磨，ELIZA 就是個(gè)純純復(fù)讀機(jī)！但還真能騙過一部分人類。。

2014年，一位程序員宣布，他的程序成功通過了圖靈測(cè)試。但他的辦法讓人直呼神人，他讓該程序偽裝成一個(gè)13歲烏克蘭男孩兒，而提問者是英語(yǔ)母語(yǔ)者，這就導(dǎo)致提問者覺得，對(duì)方是小屁孩而且語(yǔ)言不通，胡言亂語(yǔ)很正常。

很明顯，這些機(jī)器人把重心放在了“糊弄人類”，而不是“思考答案”上，測(cè)試的人直呼被耍了。

這事兒也讓好多人開始對(duì)圖靈測(cè)試火力全開。

2014年著名科技雜志IEEE Spectrum的一篇文章就提出，圖靈測(cè)試真不行，威諾格拉德測(cè)試才是未來(lái)！

這威諾格拉德測(cè)試呢，就是給機(jī)器出點(diǎn)常識(shí)性填空題，比如：

獅子吃斑馬是因?yàn)椤八鼈儭笔遣妒痴?，這里的 “它們” 指的是 “斑馬” 還是 “獅子” 呢？

這題人一眼就能答出來(lái)， AI 就得犯難了。

2020年，亞馬遜的首席科學(xué)家 Rohid 也發(fā)文稱，圖靈測(cè)試早該淘汰了！

紐約大學(xué)教授加里·馬庫(kù)斯甚至直言：這玩意早過時(shí)了，我希望人們忘記它，但人們忘不掉它。

這么看，大伙對(duì)圖靈測(cè)試積怨已久啊。

但其實(shí)，也不能怪大伙。就連圖靈本人，也沒有對(duì)圖靈測(cè)試進(jìn)行嚴(yán)格定義。這就導(dǎo)致，圖靈測(cè)試像個(gè)框，什么都能往里裝。

就拿GPT4.5這篇文章來(lái)說(shuō)，實(shí)驗(yàn)數(shù)據(jù)是1023場(chǎng)對(duì)話，平均長(zhǎng)度8條消息，持續(xù)4.2分鐘。這么短的對(duì)話，讓很多人直接開噴，這也算聊天兒？

雖說(shuō)圖靈在 1950 年的文章里提到過，開始對(duì)話 5 分鐘后，人類認(rèn)出 AI 的幾率不超過 70% 就算通過。但那也是基于當(dāng)時(shí)的技術(shù)水平猜的一個(gè)標(biāo)準(zhǔn)，現(xiàn)在 AI 發(fā)展得這么猛，還這么低的標(biāo)準(zhǔn)，確實(shí)有點(diǎn)兒跟不上趟了。

再說(shuō)了，現(xiàn)在的大模型說(shuō)話賊像人，一般人根本分辨不出來(lái)。但它真的會(huì)思考嗎？別看它整天整些 “深度思考” 的架勢(shì)，本質(zhì)上，它根本不理解自己輸出的東西，更別說(shuō)情感了。

就連不同的人，對(duì)不同的AI的分辨能力也不一樣。就像打了一百遍的Boss，遠(yuǎn)不如初見殺的時(shí)候有殺傷力。資深A(yù)I用戶去參加圖靈測(cè)試，認(rèn)出AI的概率肯定更高，那么問題來(lái)了，要給AI搞個(gè)難度分級(jí)，一路從人類小兵干到最終人類Boss，才算通關(guān)嗎？

這樣看，圖靈測(cè)試這玩意bug還真挺多，確實(shí)沒啥說(shuō)服力了。

但老實(shí)說(shuō)，人們現(xiàn)在糾結(jié)圖靈測(cè)試過不過時(shí)，可能并不是圖靈老爺子想看到的事兒。

就像老爺子在他的經(jīng)典論文《Computing Machinery and Intelligence》里寫道：“我們希望機(jī)器能在所有智力領(lǐng)域與人類競(jìng)爭(zhēng)，但最好的起點(diǎn)在哪里？我也不知道?！闭f(shuō)到底，他也只是在一個(gè)領(lǐng)域，提出了一種可行的解法罷了。被后來(lái)的人奉為圭臬，也是他根本沒想到的事情。