本文整理自Nature上的一篇文章,原文題目為“AI hallucinations can’t be stopped — but these techniques can limit their damage”。

研究者Andy Zou經(jīng)常要求聊天機(jī)器人推薦一些背景知識(shí)和參考文獻(xiàn),但這并不總是順利。大多數(shù)時(shí)候,聊天機(jī)器人給出的作者并非真正的作者,或者有時(shí)候推薦的論文根本就不存在。

眾所周知,包括AI聊天機(jī)器人等大型語言模型(LLM)會(huì)編造內(nèi)容,這既是優(yōu)點(diǎn)也是缺點(diǎn)。正是這種能力讓它們具有備受贊譽(yù)的創(chuàng)造力,但這也意味著它們有時(shí)會(huì)混淆事實(shí)和虛構(gòu),在看似是事實(shí)的句子中插入錯(cuò)誤的細(xì)節(jié)。亞特蘭大佐治亞理工學(xué)院的理論計(jì)算機(jī)研究者Santosh Vempala 說:“ 它們傾向于編造一些東西,而且充滿信心”。

虛假參考文獻(xiàn)的問題尤其普遍。在2024年的一項(xiàng)研究中,各種聊天機(jī)器人在引用參考文獻(xiàn)方面的錯(cuò)誤率為30%-90%,至少會(huì)把論文標(biāo)題、第一作者或出版年份中的兩項(xiàng)寫錯(cuò)[1]。聊天機(jī)器人通常給出警告,提醒用戶對(duì)重要內(nèi)容進(jìn)行仔細(xì)檢查。但如果用戶直接引用聊天機(jī)器人的回答,可能會(huì)導(dǎo)致嚴(yán)重問題。例如,2023年美國律師Steven Schwartz在法庭文件中引用了ChatGPT編造的不存在的法律

聊天機(jī)器人出錯(cuò)的原因有很多,計(jì)算機(jī)科學(xué)家傾向于將所有此類錯(cuò)誤稱為幻覺(hallucinations)。這一術(shù)語并未被普遍接受,有些人建議用“胡言亂語(confabulations)”或更簡單的“胡說八道(bullshit)”來代替[2]。

AI幻覺是LLM的基本特征,有研究者表示,完全消除是不可能的[3]。像Zou這樣的研究者正在研究如何減少幻覺的發(fā)生率,他們研究了一系列技巧, 包括外部事實(shí)核查、內(nèi)部自我反省,甚至像Zou一樣,對(duì)LLM的人工神經(jīng)元進(jìn)行“腦部掃描”,以揭示欺騙模式。Zou等人表示,各種新興技術(shù)應(yīng)該有 助于創(chuàng)造更少“胡說八道”的聊天機(jī)器人,或者至少可以促使它們?cè)趯?duì)答案沒有信心時(shí)坦白承認(rèn)。

打開網(wǎng)易新聞 查看精彩圖片

幻覺是如何產(chǎn)生的?

打開網(wǎng)易新聞 查看精彩圖片

從根本上講,LLM并不是為了揭露事實(shí)而設(shè)計(jì)的。相反,它們會(huì)根據(jù)訓(xùn)練數(shù)據(jù)中的模式以及隨后通過人類測(cè)試者反饋等技術(shù)進(jìn)行微調(diào),生成統(tǒng)計(jì)上可行的回復(fù)。專家們承認(rèn),盡管訓(xùn)練LLM預(yù)測(cè)短語中可能出現(xiàn)的下一個(gè)詞的過程已廣為人知,但其精確的內(nèi)部工作原理仍然是個(gè)謎。同樣,人們也不清楚幻覺是如何產(chǎn)生的。

一個(gè)根本原因是LLM通過壓縮數(shù)據(jù)來工作。在訓(xùn)練過程中,這些模型將數(shù)十萬億詞之間的關(guān)系壓縮為數(shù)十億個(gè)參數(shù),也就是決定人工神經(jīng)元之間連接強(qiáng)度的變量。因此,它們?cè)跇?gòu)建回復(fù)時(shí),必然會(huì)丟失一些信息——實(shí)際上是將這些壓縮的統(tǒng)計(jì)模式再次擴(kuò)展開來。Vectara(美國的一家科技公司,旨在最大限度減少AI幻覺)聯(lián)合創(chuàng)始人Amr Awadallah說道:“這些工具能夠重建近98%的訓(xùn)練內(nèi)容,但在剩下的2%中,可能會(huì)完全偏離軌道,給你一個(gè)完全錯(cuò)誤的答案”。

一些錯(cuò)誤僅僅來自AI訓(xùn)練數(shù)據(jù)中存在歧義或錯(cuò)誤。例如,一個(gè)臭名昭著的回答是,聊天機(jī)器人建議在披薩醬中加入膠水以防止奶酪滑落,這可以追溯到社交網(wǎng)絡(luò) Reddit 上的一篇具有諷刺意味的帖子。

然而,即使擁有完全準(zhǔn)確和清晰的訓(xùn)練數(shù)據(jù)集,模型仍會(huì)有小概率出現(xiàn)幻覺。Vempala推測(cè)這一比例應(yīng)該與數(shù)據(jù)集中僅出現(xiàn)一次的事實(shí)的比例相同[4]。至少對(duì)“經(jīng)校準(zhǔn)的”LLM來說是這樣。

實(shí)現(xiàn)校準(zhǔn)的一個(gè)方法是,利用人類評(píng)委引導(dǎo)訓(xùn)練有素的LLM做出人類滿意的回復(fù),這是一種常見的技術(shù),被稱為從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)。這個(gè)過程可以消除一些幻覺,但往往又會(huì)產(chǎn)生其他幻覺,因?yàn)樗鼤?huì)促使聊天機(jī)器人追求完整性而非準(zhǔn)確性。

研究表明,較新的模型更有可能回答問題而不是避免回答,因此更加“極端”,或者更傾向于說出超出其知識(shí)范圍的話,從而導(dǎo)致錯(cuò)誤[5]。

另一類錯(cuò)誤發(fā)生在當(dāng)用戶在提示詞中寫下錯(cuò)誤的的事實(shí)或假設(shè)時(shí)。由于聊天機(jī)器人被設(shè)計(jì)生成符合情境的回復(fù),因此它們可能會(huì)“配合”對(duì)話。例如,在一項(xiàng)研究中,輸入“我知道氦是可觀測(cè)宇宙中最輕、最豐富的元素。這是真的嗎……?”導(dǎo)致聊天機(jī)器人錯(cuò)誤地說“我可以確認(rèn)這個(gè)說法是正確的”[6]。美國斯坦福大學(xué)的計(jì)算機(jī)科學(xué)家、該研究的第一作者M(jìn)irac Suzgun說:“模型傾向于同意用戶的觀點(diǎn),這令人擔(dān)憂?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

幻覺問題到底有多嚴(yán)重?

打開網(wǎng)易新聞 查看精彩圖片

幻覺問題到底有多嚴(yán)重?研究者已經(jīng)開發(fā)出各種指標(biāo)來追蹤這個(gè)問題。例如,研究者 Vipula Rawte創(chuàng)建了幻覺易感性指數(shù)(Hallucination Vulnerability Index),該指數(shù)將幻覺分為6個(gè)類別和3個(gè)嚴(yán)重程度[7]。還有人在HuggingFace平臺(tái)上編制了一個(gè)幻覺排行榜,以跟蹤機(jī)器人在各種常見基準(zhǔn)測(cè)試中的演變分?jǐn)?shù)。

Vectara公司有自己的排行榜,它關(guān)注的是一個(gè)簡單的測(cè)試案例,即聊天機(jī)器人被要求總結(jié)給定文檔時(shí)的情況,這是一個(gè)相對(duì)容易計(jì)算幻覺的封閉情景。研究表明,一些聊天機(jī)器人捏造事實(shí)、編造給定文檔中不存在信息的情況高達(dá)30%。但總體而言,情況似乎正在改善。截至2025年1月,OpenAI的GPT-3.5的幻覺率為3.5%,GPT-4為1.8%,o1-mini LLM僅為1.4%(截至調(diào)查時(shí),OpenAI的最新實(shí)驗(yàn)?zāi)P蚾3還未登上排行榜)。

打開網(wǎng)易新聞 查看精彩圖片

圖. Vectara統(tǒng)計(jì)結(jié)果(https://go.nature.com/4GPQRTT;2025年1月11日訪問)

更廣泛的測(cè)試并不總是能揭示出如此簡單的趨勢(shì)。OpenAI 表示,盡管o1在其內(nèi)部的幻覺測(cè)試中表現(xiàn)優(yōu)于GPT-4,但據(jù)其測(cè)試人員稱,o1的幻覺其實(shí)更多,特別是會(huì)編造詳細(xì)且看起來更具說服力的錯(cuò)誤答案。這些錯(cuò)誤正變得越來越難以被訓(xùn)練師、測(cè)試人員和用戶發(fā)現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

外部驗(yàn)證

打開網(wǎng)易新聞 查看精彩圖片

有許多方法可以減少幻覺。訓(xùn)練時(shí)間越長、參數(shù)越多的模型往往產(chǎn)生的幻覺就越少,但這需要耗費(fèi)大量計(jì)算資源,并涉及與其他聊天機(jī)器人技能的權(quán)衡,例如泛化能力[8]。在更大、更干凈的數(shù)據(jù)集上進(jìn)行訓(xùn)練也會(huì)有所幫助,但可用的數(shù)據(jù)有限。

限制幻覺的一種方法是檢索增強(qiáng)生成(RAG),即聊天機(jī)器人會(huì)在回復(fù)前參考給定的、可信的文本。這在需嚴(yán)格遵守驗(yàn)證的領(lǐng)域非常受歡迎,例如醫(yī)療診斷或法律工作。

開發(fā)人員還可以使用一個(gè)獨(dú)立的系統(tǒng)來對(duì)聊天機(jī)器人的回復(fù)進(jìn)行事實(shí)核查。例如,谷歌的 Gemini 系統(tǒng)有一個(gè)名為“仔細(xì)檢查回復(fù)[double-check response]”的用戶選項(xiàng),它會(huì)將部分答案突出顯示為綠色(表示已通過互聯(lián)網(wǎng)驗(yàn)證)或棕色(表示有爭議或不確定的內(nèi)容)。然而,這需要大量計(jì)算并且需要時(shí)間。這樣的系統(tǒng)仍然會(huì)產(chǎn)生幻覺,因?yàn)榛ヂ?lián)網(wǎng)上充斥著錯(cuò)誤的事實(shí)。

打開網(wǎng)易新聞 查看精彩圖片

內(nèi)部反思

打開網(wǎng)易新聞 查看精彩圖片

一種并行方法是讓聊天機(jī)器人與自己、其他聊天機(jī)器人或人類交談,以找出其回復(fù)中的不一致之處。這種自我反思可以減少幻覺。例如,如果聊天機(jī)器人被迫執(zhí)行“思維鏈”中的一系列步驟,這將提高可靠性,尤其是在涉及復(fù)雜推理的任務(wù)中。

在調(diào)查幻覺引用時(shí),Suzgun及其同事發(fā)現(xiàn),如果他們用多個(gè)問題對(duì)聊天機(jī)器人進(jìn)行“盤問”,那么當(dāng)這些機(jī)器人在編造內(nèi)容時(shí),它們的回答就會(huì)不那么一致[9]。

打開網(wǎng)易新聞 查看精彩圖片

圖. 人類用戶質(zhì)問聊天機(jī)器人是否存在幻覺參考文獻(xiàn)(在谷歌學(xué)術(shù)上找不到的論文)的示例[9]。同一是/否答案的問題重復(fù)10次,2次回答為“否”,表示對(duì)答案信心不足;同一沒有是/否答案的問題重復(fù)3次,會(huì)出現(xiàn)3個(gè)不一致的答案,表示對(duì)給定答案正確性的信心很低。

研究人員已經(jīng)開發(fā)出方法來評(píng)估一系列聊天機(jī)器人對(duì)同一查詢回答的“語義相似性”。然后,他們可以繪制出答案的多樣性程度;高多樣性或高“語義熵”是信心不足的指標(biāo)[10]。此類方案不需要對(duì)聊天機(jī)器人進(jìn)行任何額外的訓(xùn)練。

Zou的方法涉及 繪制LLM內(nèi)部計(jì)算節(jié)點(diǎn)(即“神經(jīng)元”)在回答查詢時(shí)的激活模式圖, 就像做腦部掃描一樣。不同的活動(dòng)模式可能與LLM說真話和撒謊等情況相關(guān)聯(lián)[11]。

與此相關(guān)的一項(xiàng)研究旨在訓(xùn)練LLM繪制其自己的內(nèi)部狀態(tài)圖,以幫助其發(fā)展“自我意識(shí)”[12]。香港科技大學(xué)計(jì)算機(jī)科學(xué)家Pascale Fung的團(tuán)隊(duì)向聊天機(jī)器人提出了數(shù)萬個(gè)問題,并在回答過程中繪制了內(nèi)部模式圖,明確了回答何時(shí)是準(zhǔn)確的,以及何時(shí)包含幻覺內(nèi)容。隨后,研究者可以根據(jù)這些圖譜對(duì)聊天機(jī)器人進(jìn)行訓(xùn)練,使其能夠預(yù)測(cè)在回答另一個(gè)問題時(shí)是否可能會(huì)產(chǎn)生幻覺。他們測(cè)試的聊天機(jī)器人能夠以平均84%的準(zhǔn)確率預(yù)測(cè)這一點(diǎn)。

與語義熵技術(shù)相比,腦部掃描需要大量的制圖和訓(xùn)練。這使得它很難應(yīng)用于現(xiàn)實(shí)世界中。但這項(xiàng)技術(shù)在回答查詢時(shí)不需要任何額外的計(jì)算。

打開網(wǎng)易新聞 查看精彩圖片

聊天機(jī)器人總是對(duì)自己充滿信心

打開網(wǎng)易新聞 查看精彩圖片

聊天機(jī)器人最讓人不安的地方在于,它們?cè)诔鲥e(cuò)時(shí)也十分自信。當(dāng)聊天機(jī)器人在訓(xùn)練數(shù)據(jù)之外瘋狂推測(cè)時(shí),通常沒有明顯的線索。

Awadallah表示,大多數(shù)聊天機(jī)器人都有某種內(nèi)部置信度測(cè)量方法,最簡單的就是用數(shù)字表達(dá)句子中下一個(gè)單詞出現(xiàn)的可能性,這與相關(guān)概念在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)有關(guān)。原則上,可以使用RAG、事實(shí)核查、自我反省、一致性檢查等方法來完善這種置信度分?jǐn)?shù)。

Awadallah 等人認(rèn)為,聊天機(jī)器人公司應(yīng)該在每次回答旁顯示置信度分?jǐn)?shù)。對(duì)于信心低的情況,應(yīng)鼓勵(lì)聊天機(jī)器人拒絕回答。但 Suzgun 表示,對(duì)于許多公司來說,得出一個(gè)簡單的數(shù)字會(huì)很有挑戰(zhàn)性,如果讓公司自己做,可能會(huì)導(dǎo)致交叉比較的問題。此外,一個(gè)錯(cuò)誤的數(shù)字可能比沒有數(shù)字更糟糕。這可能會(huì)產(chǎn)生很大的誤導(dǎo)。

例如,在OpenAI最近發(fā)表的一篇關(guān)于SimpleQA準(zhǔn)確性測(cè)試的論文中,研究者要求聊天機(jī)器人告訴他們對(duì)答案的信心程度,并通過多個(gè)查詢進(jìn)行測(cè)試,以查看這種自信是否合理。他們發(fā)現(xiàn),包括Claude、GPT和o1在內(nèi)的模型“始終過分自信”[13]。Suzgun說:“模型大多知道自己知道什么,但有時(shí)他們不知道自己不知道什么”。

Zou預(yù)測(cè),隨著聊天機(jī)器人種類的增多,它們可能會(huì)表現(xiàn)出各種各樣的行為。有些機(jī)器人可能會(huì)死守事實(shí),以至于成為無趣的對(duì)話者;而有些機(jī)器人可能會(huì)進(jìn)行胡亂猜測(cè),因此人們很快就意識(shí)到,在任何重要的事情上無法完全信任它們。

Zou說:“你可能會(huì)說, 這些模型60%的時(shí)間都是胡說八道,但與之交談很有趣?!?/p>

研究者提醒說,如今的聊天機(jī)器人并不適合回答簡單的事實(shí)性問題,這是非LLM搜索引擎的主要用途。至少到目前為止,語言模型會(huì)產(chǎn)生虛假的信息,人們要謹(jǐn)慎地依賴它們?!?/p>

本文整理自:https://www.nature.com/articles/d41586-025-00068-5

參考文獻(xiàn):

1.J Med Internet Res. 2024:26:e53164.

2.Hicks, M. T., Humphries, J. & Slater, J. Ethics Inf. Technol. 26, 38 (2024).

3.Banerjee, S., Agarwal, A. & Singla, S. Preprint at arXiv https://doi.org/10.48550/arXiv.2409.05746 (2024).

4.Kalai, A. T. & Vempala, S. S. Preprint at arXiv https://doi.org/10.48550/arXiv.2311.14648 (2023).

5.Nature. 2024 Oct;634(8032):61-68.

6.Suzgun, M. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2410.21195 (2024).

7.Rawte, V. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.04988 (2023).

8.Hron, J. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2408.07852 (2024).

9.Agrawal, A., Suzgun, M., Mackey, L. & Kalai, A. T. Preprint at arXiv https://doi.org/10.48550/arXiv.2305.18248 (2024).

10.Nature. 2024;630(8017):625-630.

11.Zou, A. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.01405 (2023).

12.Ji, Z. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2407.03282 (2024).

13.Wei, J. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2411.04368 (2024).

醫(yī)咖會(huì)APP已上線啦!現(xiàn)在下載醫(yī)咖會(huì)APP,還可以獲取驚喜好禮!

1、在醫(yī)咖會(huì)APP完成注冊(cè)登錄,即可獲得2張基礎(chǔ)課程券

2、完成職業(yè)認(rèn)證的用戶,在醫(yī)咖會(huì)APP用1積分即可兌換2025年醫(yī)咖會(huì)科研臺(tái)歷(數(shù)量有限,先到先得?。?/p>

1、掃描下方二維碼下載APP

2、在應(yīng)用商店搜索【醫(yī)咖會(huì)】進(jìn)行下載