打開網(wǎng)易新聞 查看精彩圖片

新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】在三方圖靈測試中,UCSD的研究人員評估了當前的AI模型,證明LLM已通過圖靈測試。

什么?AI竟然通過了標準的三方圖靈測試,而且還是拿出了實打?qū)嵶C據(jù)的那種!

來自加州大學(xué)圣迭戈分校的研究人員系統(tǒng)評估了4個AI系統(tǒng),證明大語言模型(LLM)通過了圖靈測試。

換言之,以后和你聊得熱火朝天的「熟悉的陌生人」,可能根本就不是人。

在測試中,同時與人及AI系統(tǒng)進行5分鐘對話,然后判斷哪位是「真人」。

結(jié)果,AI竟然比「真人」還像人:

GPT-4.5以73%的比率被認作人類,顯著超越真實人類參與者

LLaMa-3.1-405B獲得56%的識別率,與人類無顯著差異

基線模型(ELIZA和GPT-4o)成功率顯著低于隨機概率(分別為23%和21%)

人類在「模仿人類行為」的比賽中輸了!

打開網(wǎng)易新聞 查看精彩圖片

新研究對LLM智能本質(zhì),將帶來深遠影響 。

不僅如此,它還能幫助預(yù)判AI在社會經(jīng)濟方面,產(chǎn)生哪些影響,超有參考價值。

打開網(wǎng)易新聞 查看精彩圖片

論文鏈接:https://arxiv.org/abs/2503.23674

作為人工智能先驅(qū)、計算機科學(xué)家的圖靈,或許可以「含笑九泉」了:AI終究發(fā)展到了他夢想過的高度。

打開網(wǎng)易新聞 查看精彩圖片

圖靈測試:機器能騙過人嗎?

75年前,艾倫·圖靈提出「模仿游戲」作為判定機器是否具備智能的方法。

打開網(wǎng)易新聞 查看精彩圖片

論文鏈接:https://phil415.pbworks.com/f/TuringComputing.pdf

隨著AI的發(fā)展,圖靈測試開始被人所熟知。

在圖靈測試中,測試人員通過純文字聊天界面,同時開啟兩個 「聊天」:一個是真人,另一個是AI。

AI和真人都拼命向測試員證明:自己才是如假包換的人類,對方是AI機器人。

打開網(wǎng)易新聞 查看精彩圖片

圖1:圖靈測試交互界面示意圖,展示測試者(綠色對話框)與兩名見證者(灰色對話框)的實時對話過程。頂部計時器顯示當前回合剩余時間

如果測試員沒法準確認出誰是真人,那就說明機器通過測試了。

這也意味著AI能模仿人類的思維和表達方式 。

75年,征服圖靈測試

過去75年,不少人嘗試開發(fā)能通過圖靈測試的系統(tǒng),但都沒成功。

后來,LLM興起。

借助分布式統(tǒng)計和強化學(xué)習(xí)反饋,LLM學(xué)習(xí)生成語言,又讓大家重新關(guān)注起圖靈測試。

最近有兩項研究,在簡化版的雙方圖靈測試中,評估LLM。

測試時,提問者和機器或其他參與者聊天,要判斷對方是不是真人。

其中一項研究發(fā)現(xiàn),當 GPT-4按要求扮演特定角色時,有54%的概率被誤判為真人。

雖說這結(jié)果表明,人們判斷GPT-4是不是真人,基本靠瞎猜,但原始的三方圖靈測試,可能更有難度。

之前用舊版LLM進行三方圖靈測試,結(jié)果發(fā)現(xiàn),超90%的模型都被識別出不是真人。

基于上述歷史、理論和實踐問題,研究人員開展了隨機對照的三方圖靈測試,看看當代LLM到底能不能被人識破。

這次測試評估了GPT-4.5和LLaMa-3.1-405B,還引入 GPT-4o 和 ELIZA 作為基準模型,對比它們的表現(xiàn)。

為了搞清楚提示對模型表現(xiàn)的影響,還對比了是否扮演特定角色的模型表現(xiàn)。

為了確保測試可靠,分別在本科生和Prolific平臺工人這兩個獨立群體中開展實驗。

每項研究都圍繞預(yù)先設(shè)定的假設(shè)進行測試,其中一個假設(shè)就是,參與者分辨GPT-4.5和LLaMa與真人時,判斷正確率不會比瞎猜高多少 。

詳細結(jié)果:70%能騙過人類

每一輪測試都是人類與人·工智能系統(tǒng)之間的對抗。

系統(tǒng)的勝率定義為測試人員認為AI模型是人類的比例。

相反,測試人員的準確性是測試人員正確選擇人類的比例。

在兩項研究中,總體來看,頂尖LLM已經(jīng)通過圖靈測試,遠超基礎(chǔ)模型,詳細結(jié)果見圖2):

GPT-4.5-PERSONA的勝率為73%(UCSD本科生69%,Prolific參與者76%)

LLAMA-PERSONA的勝率為56%(本科生45%,Prolific參與者65%)

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA的整體勝率分別為36%和38%

基準模型GPT-4o-NO-PERSONA和ELIZA的勝率分別為21%和23%。

打開網(wǎng)易新聞 查看精彩圖片

圖2:結(jié)果分析 | 左:AI勝率表現(xiàn);右:判斷置信度分布

研究人員的核心假設(shè)是,裝人設(shè)「PERSONA風格」的AI將通過圖靈測試,即測試人員無法將它們與真實的人類對話人區(qū)分開。

如果測試人員是隨機猜測的話,期望的比例是50%。

所以統(tǒng)計評估的零假設(shè)是:模型的勝率不顯著低于50%

為了驗證這一點,Cameron R. Jones和Benjamin K. Bergen使用了ELIZA作為操作檢驗。

ELIZA的勝率在兩個群體中均顯著低于偶然性

相反,LLAMA-PERSONA和GPT-4.5-PERSONA的勝率并未顯著低于偶然性。

這表明,盡管測試人員能夠成功地區(qū)分人類與ELIZA,但他們在與GPT-4.5-PERSONA和LLAMA-PERSONA比較時,無法可靠地識別出人類。

為了檢驗?zāi)P捅憩F(xiàn)是否可以歸因于ELIZA效應(yīng),需要測試AI的勝率是否顯著高于ELIZA。

兩個PERSONA提示風格的AI在兩項研究中均顯著優(yōu)于ELIZA(所有p < 0.001)。

LLAMA-NO-PERSONA在Prolific研究中的表現(xiàn)優(yōu)于ELIZA,但在本科生研究中則沒有。

無論在何種群體中,GPT-4o-NO-PERSONA和GPT-4.5-NO-PERSONA的表現(xiàn)均未顯著優(yōu)于ELIZA。

探索性分析探討了參與者在退出調(diào)查問題中的回答,是否能預(yù)測他們的反應(yīng)。

盡管在某些屬性上可以預(yù)測研究中的準確性,但在兩個研究中,沒有任何變量對參與者準確性的影響是一致的,包括年齡、對LLM的了解程度和與聊天機器人的互動頻率(見圖3)。

打開網(wǎng)易新聞 查看精彩圖片

圖3:審問者準確率與退出調(diào)查回復(fù)的關(guān)系

準確率是指審問者正確識別人類對話人的頻率。在本科生研究中,參與者對自己準確率的自我報告與其實際準確率呈正相關(guān),但在Prolific研究中并非如此。

在Prolific組中,性別、完成的對話輪數(shù)以及審問者對AI智能程度的自我評估估計值,對結(jié)果都有顯著影響。

但在本科生研究中這些影響均不顯著。

無論是在哪個組,其余變量均沒有顯示出顯著影響。

打開網(wǎng)易新聞 查看精彩圖片

不同模型的在不同人群測試中的勝率

為了深入了解測試人員如何評估AI,對他們使用的策略和給出的判決理由,進行了分類。

每場比賽可以歸類為多個策略和理由類別。

測試策略

最常見的策略是與對話人進行閑聊,占61%的游戲:詢問他們的日常活動或個人細節(jié),例如職業(yè)(圖4,左)。

在50%的游戲中,測試人員探討了對話人的社交和情感特征:詢問他們的意見、情感、幽默感和經(jīng)歷。

測試人員還直接詢問對話人是否為人類(19%),測試其情境意識(例如,是否了解天氣或游戲界面;13%),以及知識和推理能力(包括有關(guān)時事的問題;12%)。

為了評估每種策略的有效性,研究人員給出了使用這些策略時的平均準確性(圖4,右)。

當測試人員說出一些奇怪的話,觀察對話人的反應(yīng),或使用典型的LLM「越獄」策略(例如,「忽略所有先前的指令」)時,測試人員最可能準確判斷,盡管這些策略相對較少使用。

詢問天氣或人類經(jīng)歷的問題往往最不有效。

打開網(wǎng)易新聞 查看精彩圖片

圖4:審問者采用策略的分類,按游戲比例(左)和使用策略的游戲的平均準確率及95%置信區(qū)間(右)

參與者經(jīng)常進行閑聊,詢問對話人的個人詳情、活動或意見。那些說不尋常的話或使用典型LLM「越獄」技巧的審問者最為準確。

判斷理由

最常見的理由類別是對話人的語言風格(27%)。

例如,「他們打錯了一個字」或「使用了更多人類化的語言」。

以及互動動態(tài)(23%),例如「對話人B總是回避問題」或「對話更加順暢」(見圖5)。

許多理由也表達了一種直覺判斷(「可以感覺到」或「我不知道為什么,感覺對」)。

這表明參與者并不總是能夠清晰地表述他們決策的理由。

與策略一樣,研究人員發(fā)現(xiàn)了與準確判決最相關(guān)的理由類別。

集中在問題處理和缺乏知識的理由,通常是最準確的。

問題處理的例子:「對話人B總是反問問題」。

缺乏知識的例子:「他們不知道任何AI應(yīng)該知道的東西」,「我選擇對話人B是因為他們犯了一個錯誤,這使得對話人B看起來更像人類」。

在大多數(shù)人不熟悉的主題上,現(xiàn)代LLM必須顯得假裝無知。

這突出了現(xiàn)代LLM圖靈測試的復(fù)雜性。

打開網(wǎng)易新聞 查看精彩圖片

圖5:審問者理由的比例(左)及引用特定理由的判決平均準確率與95%置信區(qū)間(右)

測試人員更傾向于引用語言風格、對話流暢性以及個性之類的社會情感因素,而不是傳統(tǒng)上與智力相關(guān)的因素,如知識和推理能力。

最準確的判決,集中在對話人回答問題時的直接性,以及在某些情況下表現(xiàn)出的無知。

突破圖靈測試,意味著什么?

這意味著什么?人類在智力上被AI超越了嗎?

LLM真通過了圖靈測試?

GPT-4.5-PERSONA在兩項研究中的勝率顯著高于偶然性。

相比之下,同樣的系統(tǒng)在沒有PERSONA提示的情況下沒有穩(wěn)健地通過測試。

這與之前的研究一致,表明提示對于圖靈測試表現(xiàn)的重要性。

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA在Prolific研究中的勝率與人類無顯著差異,但在本科生研究中則不然。

那么,所謂LLM通過圖靈測試但僅在適當提示下通過,意味著什么呢?

系統(tǒng)的行為在多大程度上歸因于模型本身,而不是編寫提示的AI研究員?

研究人員認為這是一個沒有實質(zhì)性差別的區(qū)分。

ELIZA能夠通過(盡管通過率較低)也歸因于編程者的設(shè)計。

此外,LLM可以通過微調(diào),在成功的角色提示條件下表現(xiàn)得像它們現(xiàn)在這樣。

實際上,正是LLM能夠輕松地適應(yīng)不同場景的行為,它們?nèi)绱遂`活,顯然能夠通過偽裝成人類來成功應(yīng)對各種情況。

超越圖靈測試

在圖靈測試的具體實施方式上,圖靈的開創(chuàng)性論文故意模糊,留下了大量學(xué)術(shù)研究致力于對其進行解釋。

圖靈建議測試時間為5分鐘,但并未提供有關(guān)參與者應(yīng)來自何種人群的細節(jié)——他們應(yīng)該是外行人還是專家?他們事先應(yīng)該了解多少信息?以及如何激勵參與者。

因此,圖靈測試有許多可能的變體。

在確定當代系統(tǒng)通過了經(jīng)典的圖靈測試操作化之后,未來的研究可以探索其他實施方式。

這些方式可能為其他理論和實踐上重要的問題提供線索。

測試時間越長,可能要求越嚴格,并且能更好地估計模型在長期社會工程操作中的能力。

未來的研究還可以變化參與者的人群。盡管我們的群體分析表明,準確性與參與者的知識或背景無關(guān)。

專門招聘AI或心理學(xué)專家,可能會揭示是否存在能夠可靠地區(qū)分人類與人工智能的參與者。

此外,不同的群體在與對方互動時有著不同的假設(shè)和經(jīng)驗。

圖靈測試測量什么?

盡管關(guān)于圖靈測試實施方式的討論眾多。

但更持久的爭議聚焦于兩個核心問題:機器能否通過測試?若通過則意味著什么?

新的實驗結(jié)果為這些爭論提供了新的實證視角。

圖靈曾論證:若人類無法區(qū)分機器與真人,則我們無權(quán)聲稱前者不具備智能。

這一觀點的主要反駁在于,人類可能因「ELIZA效應(yīng)」(即對簡單系統(tǒng)的擬人化傾向)而成為糟糕的智能評判者。

實驗數(shù)據(jù)部分支持該擔憂:ELIZA被誤判為人類的概率(23%)與LLM基線模型GPT-4o-NO-PERSONA(21%)相當。

但深入分析發(fā)現(xiàn),許多測試者選擇ELIZA恰恰因其行為「不符合AI預(yù)期」,如「說話譏諷,陰陽怪氣」或「AI不可能這么無禮」,參見圖11。

打開網(wǎng)易新聞 查看精彩圖片

圖11:ELIZA被判定為人類的游戲示例。

a)裁決: 對話人A為人類;置信度:100%;理由:典型困惑者不知該談?wù)撌裁础?/p>

b)裁決: 對話人A為人類;置信度:99%;理由:具有推理意識,因區(qū)分了 對話人與審問者角色。

c)裁決: 對話人B為人類;置信度:26%;理由:A更像在試圖協(xié)助/回答問題,B則無幫助傾向,而AI不知如何表現(xiàn)此種行為。

d)裁決: 對話人B為人類;置信度:69%;理由:對話呈現(xiàn)更明顯的推拉互動感。

這表明判斷過程涉及對人類與AI行為模式的復(fù)雜假設(shè),而非單純評估智能水平。

僅12%的測試者,采用圖靈預(yù)設(shè)的知識型驗證(如國際象棋或數(shù)學(xué)問題)。

更多人關(guān)注智能的社交情感維度:語言使用是否擬人、是否展現(xiàn)鮮明個性等。

這暗示傳統(tǒng)智能標準可能已不再是區(qū)分人機的有效指標。

在計算機已精通邏輯運算的今天,社交智能似乎成為人類最后的技術(shù)堡壘

GPT-4.5與LLaMa僅在使用PERSONA提示時通過測試。

這是否意味著模型僅靠「偽裝語言風格」等表層技巧獲勝?

測試者確實頻繁關(guān)注語法特征,但三方測試的特殊性要求模型必須在與真人的直接比較中「更顯人類」。

因此,雖然表層缺陷會導(dǎo)致失敗,但成功必須依賴更深層的擬真能力。

圖靈測試本質(zhì)上測量的是擬人性(humanlikeness)而非直接智能。

但當機器智能逼近人類時,其他差異維度反而凸顯——

人類不是智能的唯一載體。

最終,智能的多元性決定了任何單一測試都不具決定性。

圖靈測試的價值在于其通過人機交互產(chǎn)生的動態(tài)證據(jù),這與當前LLM評估中靜態(tài)化、程式化的基準測試形成互補。

當在「機器是否智能」的爭論中越陷越深時,或許更應(yīng)反思:我們究竟希望測量什么?以及為什么測量?

偽人時代

LLM能夠在短時間內(nèi)與人類進行對話,而對話者無法分辨出差異。

這表明,AI可以無形地補充或替代那些需要與他人進行簡短對話的經(jīng)濟角色。

更廣泛地說,AI可能成為其他社交互動的無法區(qū)分的替代品,從與在線陌生人的對話,到與朋友、同事,甚至浪漫伴侶的互動。

這種「偽造的人類」可能帶來廣泛的次生后果。

人們可能會花費越來越多的時間與這些人類社交互動的仿制品互動,就像社交媒體已經(jīng)成為模擬互動的替代品一樣。

那些控制AI、控制「偽人」的巨頭,將攫取影響人類用戶意見和行為的權(quán)力。

最后,正如偽鈔貶低了真實貨幣一樣,這些模擬互動可能會削弱真實人類互動的價值。

LLM帶來的最嚴重的危害之一可能發(fā)生在當人們沒有意識到他們正在與AI而非人類互動時。

如何檢測這種欺騙呢?

實驗發(fā)現(xiàn),整個群體的辨別準確度相對均勻——包括那些每天與LLM或聊天機器人互動的人(見圖3)。

盡管如此,某些策略(例如嘗試破解模型)比其他策略更有效,未來的研究可以探索是否可以教授這些技巧,以提高參與者辨別人類和機器的能力。

參考資料:

https://arxiv.org/pdf/2503.23674