打開網(wǎng)易新聞 查看精彩圖片

近日,加州大學(xué)圣地亞哥分校(UCSD)認(rèn)知科學(xué)系的 Cameron R. Jones 和 Benjamin K. Bergen 開展了一項關(guān)于大型語言模型的研究。他們通過一系列隨機(jī)、對照、預(yù)先注冊的三方圖靈測試發(fā)現(xiàn),當(dāng)被賦予合適的角色扮演提示時,GPT - 4.5 和 LLaMa - 3.1 - 405B 這兩款大型語言模型首次成功通過經(jīng)典的三方圖靈測試,這成為人工智能發(fā)展的又一里程碑。相關(guān)研究發(fā)布在預(yù)印本網(wǎng)站arxiv , 地址:
https://arxiv.org/pdf/2503.23674

打開網(wǎng)易新聞 查看精彩圖片

跨越 75 年的測試:圖靈測試的前世今生

75 年前,計算機(jī)科學(xué)先驅(qū)艾倫?圖靈提出了一個極具開創(chuàng)性的思想實驗 —— 圖靈測試,也被稱為 “模仿游戲”。這個實驗旨在探尋一個深刻問題的答案:機(jī)器究竟能否思考?或者更準(zhǔn)確地說,機(jī)器能否展現(xiàn)出與人類毫無二致的智能行為?

在經(jīng)典的圖靈測試中,測試規(guī)則十分獨(dú)特。一位人類裁判,也就是詢問者,通過純文本的交流界面,同時與兩個隱藏身份的對話者展開交流。其中一個對話者是實實在在的人類,而另一個則是人工智能程序。這兩個對話者都要使出渾身解數(shù),讓裁判相信自己是人類。要是裁判無法準(zhǔn)確分辨出誰是機(jī)器,那么這臺機(jī)器就被視作通過了測試,意味著它具備了模仿人類進(jìn)行智能對話的能力。

圖靈測試自誕生以來,就在人工智能領(lǐng)域占據(jù)著舉足輕重卻又頗具爭議的地位。一方面,它被視為衡量機(jī)器智能的一把標(biāo)尺,盡管這把標(biāo)尺存在諸多爭議;另一方面,它更深層次地觸及了 “智能”“意識” 以及 “人性” 這些哲學(xué)領(lǐng)域的核心問題。多年來,眾多研究者都在不懈努力,試圖打造出能夠通過圖靈測試的系統(tǒng)。然而,幾十載光陰流逝,盡管人工智能技術(shù)不斷取得進(jìn)步,經(jīng)典的三方圖靈測試(即一個裁判、一個人類、一個機(jī)器同時參與)的至高榮譽(yù)始終無人能及。像早期著名的 AI 程序 ELIZA,雖然能進(jìn)行簡單的對話交流,但在嚴(yán)格的測試之下,很快就會露出機(jī)器的馬腳。

精心設(shè)計的研究:探尋大型語言模型的對話奧秘

不過,近年來大型語言模型(LLMs)如雨后春筍般蓬勃發(fā)展,讓整個局面發(fā)生了根本性的轉(zhuǎn)變。諸如 GPT 系列、LLaMa 系列等大型語言模型,借助在海量文本數(shù)據(jù)上的深度訓(xùn)練,展現(xiàn)出了令人驚嘆的語言理解、生成和推理能力。這也不禁讓人們重新燃起對圖靈測試的濃厚興趣:這些先進(jìn)的人工智能,是否已經(jīng)接近甚至達(dá)到了圖靈當(dāng)年所設(shè)定的標(biāo)準(zhǔn)呢?

近期,加州大學(xué)圣地亞哥分校(UCSD)認(rèn)知科學(xué)系的 Cameron R. Jones 和 Benjamin K. Bergen 開展了一項嚴(yán)謹(jǐn)且意義重大的研究,其研究成果在人工智能界激起了層層波瀾。他們精心設(shè)計并進(jìn)行了一系列隨機(jī)、對照且預(yù)先注冊的三方圖靈測試,目的就是為了精準(zhǔn)評估當(dāng)前頂尖的大型語言模型在模仿人類對話方面的能力究竟達(dá)到了何種程度。

研究團(tuán)隊從眾多人工智能系統(tǒng)中挑選出了四個具有代表性的系統(tǒng)參與測試。GPT - 4.5,作為當(dāng)時最新且能力頂尖的大型語言模型之一,承載著人們對先進(jìn)人工智能的期待;LLaMa - 3.1 - 405B,憑借其巨大的參數(shù)量,展現(xiàn)出強(qiáng)大的語言處理潛力,也是此次測試的重要對象;GPT - 4o 則作為性能較強(qiáng)的基線模型,用于對比參考;而 ELIZA,這個經(jīng)典的早期聊天機(jī)器人程序,則充當(dāng)?shù)托阅芑€,主要用于檢驗測試設(shè)置是否合理有效,即判斷裁判是否能夠準(zhǔn)確識別出明顯不像人類的 AI。

測試過程嚴(yán)格遵循經(jīng)典的三方圖靈測試設(shè)置。每一輪測試中,人類裁判都要與隨機(jī)匹配的一名人類參與者以及上述四種 AI 系統(tǒng)中的一個,進(jìn)行時長為 5 分鐘的自由文本對話。在這短短 5 分鐘內(nèi),裁判要從對話中捕捉各種線索。對話結(jié)束后,裁判必須迅速做出判斷,明確指出哪位對話者是人類,并詳細(xì)說明判斷的理由以及自己對該判斷的信心程度。

在研究過程中,研究者們還特別關(guān)注 “提示工程” 對大型語言模型表現(xiàn)的影響。他們?yōu)?GPT - 4.5 和 LLaMa - 3.1 設(shè)計了兩種截然不同的系統(tǒng)提示。無角色提示(NO - PERSONA)相對簡潔,僅僅包含一些基本指令,告知模型其目標(biāo)是努力說服裁判自己是人類,同時提供一些諸如測試界面、近期事件等背景信息。而角色提示(PERSONA)則豐富得多,除了基本指令外,還要求模型扮演一個特定的角色 —— 一個性格有點(diǎn)內(nèi)向、對網(wǎng)絡(luò)文化了如指掌且會熟練使用俚語的年輕人。這個角色設(shè)定可是經(jīng)過初步探索性研究后確定的,因為發(fā)現(xiàn)這種角色設(shè)定下模型的表現(xiàn)最為出色。這樣的設(shè)計主要是為了探究一個關(guān)鍵問題:大型語言模型僅僅依靠自身的基礎(chǔ)能力,是否就足以成功 “欺騙” 人類?還是說,需要借助特定的 “角色扮演” 指令,才能更好地模擬人類的思維和表達(dá)模式?

令人驚嘆的結(jié)果:大型語言模型成功通過測試

這項研究為確保結(jié)果的可靠性和普適性,分別在兩個不同的人群中展開測試。UCSD 的本科生群體,他們擁有較為一致的知識背景和文化環(huán)境;在線眾包平臺 Prolific 的參與者,這一群體更加多樣化??偣矊?1023 場有效的測試對話進(jìn)行了深入分析,最終得出的結(jié)果令人震驚。

當(dāng) GPT - 4.5 被賦予特定的角色提示時,其表現(xiàn)堪稱驚艷。在所有測試中,它被裁判判定為人類的比例竟然高達(dá) 73%!這個比例遠(yuǎn)遠(yuǎn)超過了 50% 的隨機(jī)猜測水平,甚至比裁判選擇真正人類參與者的比例(約為 27%)還要高出許多。這就意味著,在直接的對比中,經(jīng)過 “角色扮演” 訓(xùn)練的 GPT - 4.5 在裁判眼中,比真正的人類看起來 “更像人”。同樣使用角色提示的 LLaMa - 3.1,表現(xiàn)也不容小覷,被判定為人類的比例達(dá)到了 56%。這個比例與人類參與者的勝率(約為 44%)在統(tǒng)計學(xué)上沒有顯著差異,這清晰地表明,裁判們很難可靠地區(qū)分這個模型和真正的人類。

作為對比,老牌聊天機(jī)器人 ELIZA 和未獲得角色提示的 GPT - 4o 的勝率分別只有 23% 和 21%,明顯低于隨機(jī)水平。這有力地證明了測試設(shè)置是科學(xué)有效的,裁判完全能夠識別出那些不夠 “像人” 的 AI。同時,沒有獲得角色提示的 GPT - 4.5 和 LLaMa - 3.1 的表現(xiàn)也大打折扣,勝率分別僅為 36% 和 38%。雖然在 Prolific 人群中它們與人類難以區(qū)分,但在彼此更加熟悉、文化背景更為相近的 UCSD 學(xué)生群體中,就難以蒙混過關(guān)了。

基于圖靈測試 “無法區(qū)分即通過” 的核心邏輯,這項研究得出了一個具有歷史意義的結(jié)論:當(dāng)被賦予合適的角色扮演提示時,GPT - 4.5 和 LLaMa - 3.1 - 405B 均成功通過了經(jīng)典的三方圖靈測試。尤其是 GPT - 4.5 的突出表現(xiàn),其勝率顯著高于人類,為 “AI 通過圖靈測試” 這一結(jié)論提供了迄今為止最為有力的實證證據(jù)。而且,這一結(jié)果在兩個不同的人群中都得到了重復(fù)驗證,進(jìn)一步增強(qiáng)了結(jié)論的可靠性。

透過結(jié)果的思考:圖靈測試背后的意義與價值

這一結(jié)果無疑是人工智能發(fā)展歷程中的一個重要里程碑,但它也促使我們進(jìn)行更深層次的思考:通過圖靈測試,到底意味著什么?

從裁判給出判斷的理由分析中,我們發(fā)現(xiàn)了一個有趣的現(xiàn)象。裁判們在判斷時,更加關(guān)注對話者的語言風(fēng)格是否自然、對話是否流暢連貫、是否具有獨(dú)特個性以及情感表達(dá)是否真摯等社交和情感因素,而不是像我們傳統(tǒng)認(rèn)知中那樣,側(cè)重于考察對方的知識儲備是否豐富或邏輯推理是否嚴(yán)密。例如,在測試過程中,很少有裁判會通過出數(shù)學(xué)題或進(jìn)行知識問答來判斷對方是人還是機(jī)器。更有意思的是,有時候 AI 表現(xiàn)出的 “無知” 或 “不完美”,比如不知道校園里某個具體地點(diǎn)的位置,或者不了解最新流行的俚語,反而會被裁判認(rèn)為是人類的特征。因為在大家的潛意識里,過于全知全能的表現(xiàn)反而顯得 “不像人”。這一現(xiàn)象清晰地表明,在現(xiàn)代社會中,人們潛意識里可能將 “社交智能” 或者 “表現(xiàn)得像人”,視為區(qū)分人與機(jī)器的關(guān)鍵因素,而非傳統(tǒng)意義上的智力。

研究結(jié)果還明確顯示,要是沒有經(jīng)過精心設(shè)計的 “角色提示”,即便像 GPT - 4.5 和 LLaMa - 3.1 這樣強(qiáng)大的大型語言模型,也很難穩(wěn)定地通過測試。這充分說明,當(dāng)前的大型語言模型能夠通過測試,在很大程度上依賴于人類的引導(dǎo),需要人類為其設(shè)定特定的角色,從而模擬特定的人類行為模式。但這并不算是 “作弊”,就如同早期的 AI 依賴程序員設(shè)定規(guī)則一樣。大型語言模型的強(qiáng)大之處恰恰在于其擁有出色的靈活性和適應(yīng)性,能夠根據(jù)人類給出的提示,迅速調(diào)整自己的行為模式,模仿各種各樣的人類角色。

當(dāng)然,我們也必須承認(rèn)圖靈測試存在一定的局限性。此次測試中 5 分鐘的測試時間相對較短,在這么短的時間內(nèi),可能無法完全揭示 AI 的破綻。未來的研究可以考慮從多個方面進(jìn)行改進(jìn)和拓展,比如嘗試更長時間的測試,引入 AI 或心理學(xué)方面的專家作為裁判,或者增加測試的風(fēng)險(如給予獎勵)等。不過,盡管存在這些局限性,圖靈測試作為一種互動式、對抗性的評估方式,對于當(dāng)前越來越依賴靜態(tài)、標(biāo)準(zhǔn)化基準(zhǔn)測試的 AI 評估體系而言,仍然是一種非常有益的補(bǔ)充。它更加側(cè)重于人機(jī)交互的實際體驗以及 AI 的 “社會性” 表現(xiàn),這是其他評估方式難以替代的獨(dú)特價值。

影響與隱憂:AI 通過測試帶來的連鎖反應(yīng)

無論通過圖靈測試是否就等同于擁有了 “真正” 的人類智能,這項研究的結(jié)果都具有直接且深遠(yuǎn)的社會和經(jīng)濟(jì)意義。它明確地表明,當(dāng)前公開可用的頂級大型語言模型已經(jīng)具備在短時對話中替代真實人類的能力,而且對方很可能完全察覺不出異樣。

從經(jīng)濟(jì)層面來看,那些依賴簡短人際交流的經(jīng)濟(jì)活動,比如部分客服工作、在線支持服務(wù)、社交媒體互動等領(lǐng)域,可能會逐漸被這些人工智能無縫替代或補(bǔ)充。這在帶來效率大幅提升的同時,也必然會對就業(yè)市場產(chǎn)生一定的沖擊。許多原本由人類承擔(dān)的工作崗位,可能會因為人工智能的高效和低成本而逐漸被取代,這就要求相關(guān)從業(yè)者必須不斷提升自己的技能,以適應(yīng)這種變化。

從社會層面來講,這些能夠以假亂真模仿人類的 “冒牌人類”,可能會越來越多地滲透到我們的社交生活中。無論是網(wǎng)絡(luò)上的陌生人,還是現(xiàn)實中的朋友、同事甚至伴侶,我們與他們交流時,真假難辨的界限可能會變得越來越模糊。人們或許會在不知不覺中花費(fèi)更多時間與這些 “人類模擬器” 進(jìn)行互動,就像如今社交媒體在一定程度上已經(jīng)替代了現(xiàn)實社交一樣。這種變化可能會對我們的社交關(guān)系和社交模式產(chǎn)生深遠(yuǎn)的影響,我們需要重新審視和調(diào)整自己與他人、與機(jī)器的互動方式。

然而,風(fēng)險也隨之而來。能夠有效模仿人

類并獲得信任的人工智能,一旦被不法分子利用,可能會被用于欺詐、社會工程、傳播虛假信息或進(jìn)行大規(guī)模輿論操控等不良行為。人工智能的 “說服力” 和 “欺騙性” 已經(jīng)成為了亟待研究和解決的新問題。我們必須盡快建立起完善的監(jiān)管機(jī)制和技術(shù)防范手段,確保人工智能的應(yīng)用始終在合法、合規(guī)、符合道德倫理的軌道上進(jìn)行。

未來的展望:在人工智能浪潮中前行

大型語言模型首次成功通過嚴(yán)格的、經(jīng)典的三方圖靈測試,這一重大突破標(biāo)志著人工智能在模仿人類對話能力方面達(dá)到了一個全新的高度。這不僅是對阿蘭?圖靈 75 年前偉大設(shè)想的有力回應(yīng),更促使我們不得不重新審視 “智能” 的定義究竟該如何界定、人機(jī)交互的未來將走向何方,以及在這個日益被 AI 參與塑造的世界中,我們?nèi)祟愒撊绾巫蕴帯_@項突破無疑是激動人心的,但它也伴隨著深刻的倫理和社會挑戰(zhàn)。在未來的日子里,我們需要更深入地去理解這些強(qiáng)大人工智能的能力邊界,提前為它們可能帶來的深遠(yuǎn)變革做好充分準(zhǔn)備。人與機(jī)器之間的界限,從未像今天這樣模糊,也從未像今天這樣引人深思,而我們也必將在探索中不斷前行,尋找人與人工智能和諧共處的最佳路徑。

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

打開網(wǎng)易新聞 查看精彩圖片

未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來知識庫”精選的100部前沿科技趨勢報告