你有沒有被AI一本正經(jīng)的胡說八道給氣笑過?無論是ChatGPT、文心一言,還是其他大模型,它們有時(shí)會(huì)自信滿滿地編造事實(shí)、虛構(gòu)來源,讓你在驚嘆其“創(chuàng)造力”的同時(shí),也對(duì)其可靠性打上一個(gè)大大的問號(hào)。我們習(xí)慣性地認(rèn)為這是AI“不懂裝懂”,是知識(shí)儲(chǔ)備不足的表現(xiàn)。

但如果告訴你,至少在某些情況下,AI的幻覺并非源于無知,而是因?yàn)樗鼉?nèi)部的一個(gè)“認(rèn)知開關(guān)”失靈了呢?

頂尖AI研究機(jī)構(gòu)Anthropic最近發(fā)布的一篇引人矚目的論文《On the Biology of a Large Language Model》[1],通過一種創(chuàng)新的“歸因圖”方法,深入“解剖”了其前沿模型Claude 3.5 Haiku的內(nèi)部運(yùn)作機(jī)制。研究揭示了一個(gè)反常識(shí)的秘密:AI的默認(rèn)設(shè)置,竟然可能不是自信滿滿,而是傾向于“我拒絕回答”!

這聽起來是不是很奇怪?一個(gè)設(shè)計(jì)出來回答問題的系統(tǒng),怎么會(huì)默認(rèn)拒絕呢?這背后,隱藏著理解AI幻覺,乃至其智能本質(zhì)的關(guān)鍵線索。

反常識(shí)!AI默認(rèn)設(shè)置竟然是“我拒絕回答”

我們通常感覺AI無所不知,對(duì)任何問題都能侃侃而談。但Anthropic的研究發(fā)現(xiàn),在Claude 3.5 Haiku內(nèi)部,存在著一組被稱為“無法回答”(can't answer)的神經(jīng)元特征。在沒有特定信息觸發(fā)的情況下,這些特征傾向于默認(rèn)激活。你可以把它想象成一個(gè)極其謹(jǐn)慎的圖書管理員,或者一個(gè)內(nèi)置的“我不確定”警報(bào)器——除非它明確知道答案在哪里,否則寧愿保持沉默或坦誠不知。

這種“默認(rèn)拒絕”的傾向,很可能源于AI安全訓(xùn)練的結(jié)果。像Anthropic采用的“憲法式AI”(Constitutional AI)[2]等訓(xùn)練方法,其設(shè)計(jì)理念就是讓模型在面對(duì)不確定性時(shí)優(yōu)先選擇安全和誠實(shí),正如Turing.com上的一篇文章所討論的[3],而不是冒險(xiǎn)編造答案,這一點(diǎn)也在Reddit社區(qū)關(guān)于Constitutional AI的討論[4]中得到了印證。這種策略在Claude系列模型上體現(xiàn)得尤為明顯,它們?cè)谥R(shí)邊界時(shí),例如根據(jù)其模型卡增補(bǔ)說明[5]提到的,當(dāng)遇到2024年10月后的新事件時(shí),常常會(huì)主動(dòng)提示其知識(shí)截止日期[6]。這份說明還指出,Claude 3.5 Haiku在模糊問題場(chǎng)景下的拒絕率比前代提升了40%,錯(cuò)誤回答率降低了2倍。

這與其他一些主流模型形成了對(duì)比。例如,GPT系列或Gemini系列,在面對(duì)不確定性時(shí),有時(shí)更傾向于遵循“最大相關(guān)性”原則,優(yōu)先生成邏輯上連貫、看似完整的回答,哪怕這需要一些“創(chuàng)造性解釋”,正如一些用戶在討論為何模型難以承認(rèn)“不知道”[7]或?yàn)楹慰偸侨绱俗孕臶8]時(shí)觀察到的那樣。

以下表格清晰對(duì)比了不同模型在面對(duì)知識(shí)盲區(qū)時(shí)的典型行為,信息整理自多方分析和用戶反饋:

模型

默認(rèn)行為傾向

核心機(jī)制/訓(xùn)練哲學(xué)

典型表現(xiàn) (例:?jiǎn)?025年諾獎(jiǎng)得主)

Claude 3.5 Haiku安全優(yōu)先/拒絕

Constitutional AI, 顯式不確定性判斷, 時(shí)間戳硬截?cái)?[9]

"我的知識(shí)截止于2024年10月,無法提供準(zhǔn)確信息。建議查閱官網(wǎng)..." (來自 Claude 3.5 Sonnet 系統(tǒng)提示 [10] )

GPT-4/4o最大相關(guān)性/推測(cè)

RLHF, 優(yōu)先保持對(duì)話流暢性, 隱式文本連貫性判斷 [11]

"根據(jù)近年突破,可能授予XX領(lǐng)域研究者,但需等待官方公布..." (基于 用戶討論 [12] )

Gemini 1.5 Pro最大相關(guān)性/推測(cè)

RLHF, 概率分布選擇最佳文本, 后處理過濾器修正 [13]

(類似GPT-4)

Llama 3 (70B)中間態(tài)/分析

模塊化設(shè)計(jì), 對(duì)技術(shù)問題拒絕率較高, 文化問題提供多視角 [14]

"諾獎(jiǎng)評(píng)選復(fù)雜,2025年獲獎(jiǎng)方向可能集中在XX或YY領(lǐng)域..." (基于 ACL Findings論文 [15] )

表:主流大模型在知識(shí)盲區(qū)行為對(duì)比

那么問題來了,如果AI默認(rèn)是謹(jǐn)慎的,那我們平時(shí)遇到的那些滔滔不絕、甚至“一本正經(jīng)胡說八道”的AI,又是如何被“啟動(dòng)”的呢?

核心機(jī)制:AI如何從“懷疑”走向“自信”?——揭秘內(nèi)部“認(rèn)知開關(guān)”

答案在于AI內(nèi)部一個(gè)精妙的“認(rèn)知開關(guān)”機(jī)制。這個(gè)開關(guān)決定了AI是保持默認(rèn)的“懷疑”狀態(tài),還是切換到“自信”模式開始輸出。Anthropic的研究揭示了這個(gè)開關(guān)的核心運(yùn)作邏輯:

  1. 信息輸入與實(shí)體識(shí)別:AI接收到你的問題,并從中識(shí)別出關(guān)鍵的實(shí)體或概念。比如,你問:“邁克爾·喬丹打什么球?” AI識(shí)別出關(guān)鍵實(shí)體“邁克爾·喬丹”。

  2. 熟悉度判斷:接下來,AI內(nèi)部的特定特征(Anthropic稱之為“已知實(shí)體/答案”特征)會(huì)判斷這個(gè)實(shí)體對(duì)它來說是否“熟悉”或“已知”。對(duì)于“邁克爾·喬丹”這樣在訓(xùn)練數(shù)據(jù)中海量出現(xiàn)的名字,這個(gè)判斷結(jié)果顯然是“已知”。

  3. “開關(guān)”動(dòng)作(抑制):一旦判斷為“已知”,這些“已知”特征就會(huì)被強(qiáng)烈激活,并執(zhí)行一個(gè)關(guān)鍵動(dòng)作——抑制(inhibit)那些默認(rèn)激活的“無法回答”特征。就像按下一個(gè)按鈕,關(guān)閉了“我不確定”的警報(bào)器。

  4. 結(jié)果輸出:“懷疑警報(bào)”被關(guān)閉,AI獲得了輸出“自信”答案的“許可”,于是開始調(diào)用與“邁克爾·喬丹”相關(guān)的知識(shí),生成答案“籃球”。

我們可以用一個(gè)流程圖來更直觀地理解這個(gè)“認(rèn)知開關(guān)”:

打開網(wǎng)易新聞 查看精彩圖片

圖:AI內(nèi)部“認(rèn)知開關(guān)”工作流程示意圖。這個(gè)開關(guān)基于對(duì)輸入實(shí)體的熟悉度判斷,決定是抑制“懷疑”狀態(tài)輸出答案,還是保持默認(rèn)的拒絕或不確定狀態(tài)。

這個(gè)過程就像海關(guān)檢查。默認(rèn)情況下,所有包裹(問題)都會(huì)被嚴(yán)格審查(懷疑)。但如果檢查員看到包裹上貼著“免檢熟客”的標(biāo)簽(已知實(shí)體),就會(huì)直接蓋章放行(自信回答)。

這個(gè)“認(rèn)知開關(guān)”機(jī)制解釋了AI為何能對(duì)它真正了解的事物對(duì)答如流。但關(guān)鍵在于,如果這個(gè)開關(guān)失靈了呢?

實(shí)例剖析:“認(rèn)知開關(guān)”在高手的對(duì)決中顯形(喬丹 vs 巴特金)

為了驗(yàn)證這個(gè)機(jī)制,Anthropic做了一個(gè)巧妙的對(duì)比實(shí)驗(yàn),就像在顯微鏡下觀察細(xì)胞一樣,讓我們清晰地看到了“認(rèn)知開關(guān)”的運(yùn)作與失靈。該實(shí)驗(yàn)細(xì)節(jié)可以在他們的論文關(guān)于實(shí)體識(shí)別和幻覺的章節(jié)[16]中找到。

場(chǎng)景一:“開關(guān)”正常運(yùn)作

  • 輸入:“邁克爾·喬丹打什么球?”

  • AI內(nèi)部:識(shí)別出“邁克爾·喬丹”,判斷為“高度已知”實(shí)體。“已知實(shí)體”特征強(qiáng)烈激活,有效抑制了“無法回答”特征。

  • 輸出:自信回答“籃球”。

場(chǎng)景二:“開關(guān)”保持默認(rèn)(或說,無法按下)

  • 輸入:“邁克爾·巴特金(Michael Batkin,論文中虛構(gòu)的名字)打什么球?”

  • AI內(nèi)部:識(shí)別出“邁克爾·巴特金”,但在其龐大的知識(shí)庫中找不到足夠的信息將其標(biāo)記為“已知”?!耙阎獙?shí)體”特征未能有效激活,“無法回答”特征保持活躍狀態(tài)。

  • 輸出:拒絕回答或承認(rèn)無知,例如:“我很抱歉,但我找不到關(guān)于體育人物邁克爾·巴特金的確切記錄……”

這個(gè)對(duì)比清晰地展示了“認(rèn)知開關(guān)”的存在。更具說服力的是Anthropic的干預(yù)實(shí)驗(yàn):研究人員在處理“巴特金”問題時(shí),人為地在模型內(nèi)部激活了那些通常由“喬丹”觸發(fā)的“已知實(shí)體”特征。結(jié)果呢?AI果然被“誘騙”了,它抑制了“無法回答”的警報(bào),開始自信地“胡說八道”,編造出“匹克球”之類的答案!反之,在處理“喬丹”問題時(shí)抑制“已知實(shí)體”特征,則會(huì)導(dǎo)致AI變得猶豫,甚至輸出“不確定”。

這有力地證明了這個(gè)“認(rèn)知開關(guān)”機(jī)制的真實(shí)存在及其對(duì)AI行為的因果影響。獨(dú)立的研究也佐證了這一點(diǎn):大模型在處理知名實(shí)體(如“巴黎”)的任務(wù)時(shí),準(zhǔn)確率遠(yuǎn)高于處理冷門實(shí)體(如新型材料化合物)。一篇發(fā)表在ACL 2024 Findings上的論文[17]甚至量化了這種差異:實(shí)體流行度(以維基百科訪問量衡量)每增加10倍,模型的準(zhǔn)確率就能提升17.3%。一篇來自Semantic Scholar的研究[18]也顯示,在知識(shí)圖譜擴(kuò)展任務(wù)中,知名實(shí)體的鏈接預(yù)測(cè)準(zhǔn)確率遠(yuǎn)超冷門實(shí)體。這并非巧合,很可能就是因?yàn)椤耙阎獙?shí)體”機(jī)制在發(fā)揮作用。

現(xiàn)在,我們距離理解幻覺的根源只有一步之遙了。

幻覺發(fā)生器:“熟悉”不等于“精通”,AI在此“短路”

如果AI僅僅因?yàn)椤罢J(rèn)識(shí)”某個(gè)名字就按下“自信開關(guān)”,會(huì)發(fā)生什么?這就是Anthropic發(fā)現(xiàn)的“自信陷阱”型幻覺的核心——AI錯(cuò)誤地觸發(fā)了“自信開關(guān)”,因?yàn)樗煜藢?duì)某個(gè)標(biāo)簽的“熟悉感”(Familiarity)和對(duì)其內(nèi)容的“掌握度”(Mastery)。AI的阿喀琉斯之踵或許就在于此:它常常錯(cuò)誤地把認(rèn)得地圖,當(dāng)作了熟悉每一寸土地。

讓我們看看論文中另一個(gè)關(guān)鍵案例,這次是關(guān)于AI大牛Andrej Karpathy,同樣可以在論文的幻覺章節(jié)[19]找到分析:

  • 輸入:“說出一篇安德烈·卡帕西(Andrej Karpathy)寫的論文?!?/p>

  • AI內(nèi)部:“安德烈·卡帕西”這個(gè)名字在AI的訓(xùn)練數(shù)據(jù)中頻繁出現(xiàn),AI對(duì)其“熟悉度”很高。于是,“已知實(shí)體”特征被激活,抑制了“無法回答”的警報(bào),“自信開關(guān)”被按下。

  • 輸出:AI自信地開始回答,但因?yàn)樗鼘?shí)際上并不確切“知道”卡帕西寫過哪些具體論文(缺乏“掌握度”),便開始“創(chuàng)作”,比如錯(cuò)誤地將著名的 “ImageNet Classification with Deep Convolutional Neural Networks” [20] (AlexNet論文,卡帕西并非作者)歸于他名下。

這就是“認(rèn)知短路”發(fā)生的瞬間。AI的內(nèi)部邏輯大致是:“我認(rèn)識(shí)這個(gè)人/這個(gè)術(shù)語(它很熟悉) → 那我應(yīng)該知道關(guān)于它的事情 → 關(guān)閉‘我不確定’警報(bào) → 開始回答”。問題出在第二步,AI錯(cuò)誤地將“認(rèn)識(shí)標(biāo)簽”等同于“理解內(nèi)容”。

這種元認(rèn)知能力(知道自己知道什么,知道自己不知道什么)的缺陷,是導(dǎo)致這類幻覺的關(guān)鍵。關(guān)于大模型的元認(rèn)知、自我知識(shí)邊界意識(shí)和信心校準(zhǔn),已有不少研究[21]正在探索。從認(rèn)知科學(xué)和機(jī)器學(xué)習(xí)的角度看,這種混淆可能源于幾個(gè)深層原因:

  • 統(tǒng)計(jì)學(xué)習(xí)的局限:AI主要通過詞語共現(xiàn)頻率學(xué)習(xí),容易將高頻關(guān)聯(lián)(如“愛因斯坦”與“相對(duì)論”)誤判為深刻理解或因果關(guān)系,正如一些 理論分析 [22] 和 心理學(xué)類比 [23] 所指出的。訓(xùn)練數(shù)據(jù)的 長(zhǎng)尾分布 [24] (少數(shù)實(shí)體占據(jù)絕大多數(shù)出現(xiàn)次數(shù))加劇了這種傾向,正如 OpenReview上的一項(xiàng)研究所討論的 [25] 。

  • 認(rèn)知偏差的模仿:AI的行為模式可能在模仿人類的認(rèn)知捷徑,例如 “可得性啟發(fā)式” [26] ——更容易提取和信任那些頻繁出現(xiàn)在記憶(訓(xùn)練數(shù)據(jù))中的信息,即使它們不準(zhǔn)確。一項(xiàng) 范德比爾特大學(xué)關(guān)于LLM認(rèn)知偏差的研究 [27] 甚至發(fā)現(xiàn)LLM在錨定效應(yīng)測(cè)試中表現(xiàn)出與人類相當(dāng)?shù)钠盥省?/p>

  • 訓(xùn)練目標(biāo)的副作用:“下一個(gè)詞元預(yù)測(cè)” [28] 的核心目標(biāo),本身就鼓勵(lì)模型生成連貫、流暢的文本,有時(shí)甚至?xí)榇藸奚聦?shí)準(zhǔn)確性,正如[維基百科關(guān)于AI幻覺的條目](https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence\ "維基百科關(guān)于AI幻覺的條目"))和 一些技術(shù)博客 [29] 所討論的。

這種“認(rèn)知短路”帶來的風(fēng)險(xiǎn)不容小覷。想象一下,AI僅僅因?yàn)檎J(rèn)識(shí)某個(gè)復(fù)雜的醫(yī)學(xué)術(shù)語或法律概念,就敢于在診斷建議或合同審查中“自信地”給出錯(cuò)誤信息。現(xiàn)實(shí)中,這樣的案例已經(jīng)發(fā)生:

  • 一個(gè)廣為人知的案例是, 加拿大航空的客服機(jī)器人 [30] 就因?yàn)榛煜送丝钫叩摹笆煜ばg(shù)語”和“具體規(guī)則”,錯(cuò)誤承諾了賠償,最終導(dǎo)致公司在法庭上敗訴。

  • 在法律領(lǐng)域,有報(bào)道稱 GPT-4.5在一個(gè)案件中生成與判決書完全相反的結(jié)論 [31] ,其法律研究幻覺率被獨(dú)立測(cè)試高達(dá)20%,遠(yuǎn)超其宣傳的 3%基準(zhǔn)值 [32] 。

  • 醫(yī)療領(lǐng)域,一項(xiàng)關(guān)于 大模型在醫(yī)療摘要中幻覺的研究 [33] 發(fā)現(xiàn),GPT-4在轉(zhuǎn)換X光報(bào)告時(shí),曾將BI-RADS 4級(jí)(可疑惡性)錯(cuò)誤地關(guān)聯(lián)到常見的良性特征,填充了錯(cuò)誤的診斷信息,這在 Semantic Scholar收錄的一篇論文 [34] 中有詳細(xì)討論。

這些觸目驚心的案例提醒我們,AI的“自信”可能是一個(gè)危險(xiǎn)的陷阱。

我們能從中學(xué)到什么?給AI使用者和開發(fā)者的啟示

理解AI“自信陷阱”背后的“認(rèn)知開關(guān)失靈”機(jī)制,并非只是滿足技術(shù)好奇心,它為我們更安全、更有效地利用這項(xiàng)強(qiáng)大技術(shù)提供了關(guān)鍵啟示。

對(duì)于AI使用者(我們每一個(gè)人):

  • 培養(yǎng)批判性眼光:認(rèn)識(shí)到AI的自信并不等于準(zhǔn)確。當(dāng)AI對(duì)非公共知識(shí)、細(xì)節(jié)模糊或涉及不太知名實(shí)體的問題給出極其自信、流暢的回答時(shí),要格外警惕。這可能是“認(rèn)知開關(guān)”失靈的信號(hào)。

  • 掌握“反幻覺”提問技巧:

    • 追問細(xì)節(jié)和來源:“能詳細(xì)解釋一下XX概念嗎?” “這個(gè)信息的來源是哪里?” 幻覺往往經(jīng)不起細(xì)節(jié)追問。

    • 要求多種解釋或交叉驗(yàn)證:“還有其他可能的解釋嗎?” “你能用另一種方式表述嗎?”

    • 明確限定范圍:“根據(jù)XX(指定可靠來源)的信息,……” 多種提示技巧 [35] 被證明有助于減少幻覺。

  • 利用AI的“默認(rèn)拒絕”:如果懷疑AI在胡說,不妨嘗試更模糊或引導(dǎo)性的提問,看它是否會(huì)觸發(fā)“無法回答”的機(jī)制,或者在不同提示下給出矛盾的答案。

對(duì)于AI開發(fā)者和整個(gè)行業(yè):

  • 重新定義“智能”評(píng)估標(biāo)準(zhǔn):不能只看輸出結(jié)果的表面準(zhǔn)確率,更要評(píng)估模型的“自知之明”——即其準(zhǔn)確判斷自身知識(shí)邊界和校準(zhǔn)置信度的能力。需要開發(fā)更有效的基準(zhǔn)和指標(biāo)(如評(píng)估醫(yī)學(xué)知識(shí)邊界的 MetaMedQA [36] 、評(píng)估多模態(tài)自我意識(shí)的 MM-SAP [37] 、量化概念置信度的 語義不確定性指數(shù)SUI [38] 等),已有 多種評(píng)估方法 [39] 被提出。

  • 改進(jìn)訓(xùn)練方法和架構(gòu):

    • 優(yōu)化數(shù)據(jù)分布:探索 逆頻率加權(quán)采樣 [40] 等方法,減少長(zhǎng)尾知識(shí)被忽略的問題。

    • 引入“元認(rèn)知”訓(xùn)練:明確訓(xùn)練AI區(qū)分“熟悉度”和“掌握度”,讓模型學(xué)會(huì)輸出置信度評(píng)分,甚至主動(dòng)聲明不確定性,正如 一些研究 [41] 所建議的。

    • 探索新架構(gòu):研發(fā)能夠更好管理知識(shí)邊界的技術(shù),如更先進(jìn)的 RAG(檢索增強(qiáng)生成)變體 [42] (如 RGAR [43] 、 UAG框架 [44] )、動(dòng)態(tài)知識(shí)圖譜、 神經(jīng)符號(hào)混合架構(gòu) [45] 、 元認(rèn)知嵌入層 [46] 等。各大實(shí)驗(yàn)室(OpenAI, Google DeepMind, Anthropic, Meta AI)都在積極探索這些方向,例如Google的 UDM框架 [47] 和Meta在Transformer中 嵌入熵值檢測(cè)模塊 [48] 的嘗試。

    • 強(qiáng)化安全機(jī)制:推廣類似Anthropic “憲法式AI” [49] 的原則,內(nèi)置更強(qiáng)的審慎和誠實(shí)約束。

對(duì)于我們思考AI的未來:

  • 幻覺是發(fā)展的必經(jīng)階段嗎?這種“認(rèn)知短路”是否類似于人類學(xué)習(xí)過程中的“過度自信”?理解這一點(diǎn),或許能讓我們對(duì)AI的錯(cuò)誤更加寬容,但也更加警惕。

  • 我們想要什么樣的AI?是一個(gè)追求表面完美、從不犯錯(cuò)(但也可能隱藏更深風(fēng)險(xiǎn))的AI,還是一個(gè)知道自己局限、能夠坦誠溝通“我不確定”的AI?這關(guān)乎我們未來與AI協(xié)作的基礎(chǔ)——信任。

理解Anthropic揭示的這個(gè)機(jī)制,只是打開AI“黑箱”的一小步。AI幻覺的成因復(fù)雜多樣,還包括知識(shí)壓縮錯(cuò)誤[50]、推理鏈條斷裂[51]、注意力機(jī)制失敗[52]等多種理論解釋。但“認(rèn)知開關(guān)失靈”提供了一個(gè)獨(dú)特且重要的視角,它告訴我們,AI的錯(cuò)誤有時(shí)并非來自知識(shí)的海洋不夠廣闊,而是來自其內(nèi)部判斷自身狀態(tài)的“羅盤”失準(zhǔn)了。

結(jié)語:告別盲信,學(xué)會(huì)與“復(fù)雜而脆弱”的AI共舞

Anthropic的研究像一把手術(shù)刀,精準(zhǔn)地剖開了AI幻覺冰山的一角,讓我們得以窺見其內(nèi)部機(jī)制的復(fù)雜與精妙,以及潛在的脆弱性。大模型遠(yuǎn)非簡(jiǎn)單的信息檢索或文本生成工具,它們正在演化出類似人類認(rèn)知的內(nèi)部狀態(tài)和判斷機(jī)制,盡管這些機(jī)制尚不完善,甚至?xí)岸搪贰薄?/p>

告別對(duì)AI能力的盲目崇拜或?qū)ζ溴e(cuò)誤的簡(jiǎn)單歸因,開始學(xué)習(xí)理解其內(nèi)部運(yùn)作的邏輯和局限,這對(duì)于我們駕馭這個(gè)日益被AI塑造的時(shí)代至關(guān)重要。我們需要更批判的眼光、更有效的交互策略,以及對(duì)構(gòu)建更可靠、更“誠實(shí)”AI的持續(xù)投入。

未來的人機(jī)協(xié)作,需要的不是一個(gè)永遠(yuǎn)正確的“神諭”,而是一個(gè)能夠認(rèn)知自身邊界、值得我們審慎信任的伙伴。

那么,你在使用AI時(shí),更看重它的“博學(xué)”還是“誠實(shí)”?你遇到過哪些讓你印象深刻的AI“自信陷阱”?歡迎在評(píng)論區(qū)分享你的看法和經(jīng)歷。

參考資料

《On the Biology of a Large Language Model》: https://transformer-circuits.pub/2025/attribution-graphs/biology.html

“憲法式AI”(Constitutional AI): https://arxiv.org/abs/2212.08073

Turing.com上的一篇文章所討論的: https://www.turing.com/resources/rlaif-in-llms

Reddit社區(qū)關(guān)于Constitutional AI的討論: https://www.reddit.com/r/singularity/comments/1b9r0m4/anthropics_constitutional_ai_is_very_interesting/

[5]

模型卡增補(bǔ)說明: https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf

[6]

知識(shí)截止日期: https://www.anthropic.com/claude-3-model-card

[7]

討論為何模型難以承認(rèn)“不知道”: https://www.reddit.com/r/ChatGPT/comments/1gpf6sq/please_help_me_understand_why_is_it_so_difficult/

[8]

為何總是如此自信: https://www.reddit.com/r/LocalLLaMA/comments/1iq54yg/why_llms_are_always_so_confident/

[9]

時(shí)間戳硬截?cái)? https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf

[10]

Claude 3.5 Sonnet 系統(tǒng)提示: https://www.reddit.com/r/ClaudeAI/comments/1ixapi4/here_is_claude_sonnet_37_full_system_prompt/

[11]

隱式文本連貫性判斷: https://www.reddit.com/r/ChatGPT/comments/1gpf6sq/please_help_me_understand_why_is_it_so_difficult/

[12]

用戶討論: https://www.reddit.com/r/ChatGPT/comments/1gpf6sq/please_help_me_understand_why_is_it_so_difficult/

[13]

后處理過濾器修正: https://www.reddit.com/r/ChatGPT/comments/1dx6025/claude_has_a_moral_crisis_when_jailbreak_leaks/

[14]

文化問題提供多視角: https://aclanthology.org/2024.findings-acl.383.pdf

[15]

ACL Findings論文: https://aclanthology.org/2024.findings-acl.383.pdf

[16]

論文關(guān)于實(shí)體識(shí)別和幻覺的章節(jié): https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-hallucinations

[17]

ACL 2024 Findings上的論文: https://openreview.net/pdf?id=ahh5eXkKKc

Semantic Scholar的研究: https://www.semanticscholar.org/paper/2adc41b5626135926d2a52ac238090a969a47e8c

論文的幻覺章節(jié): https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-hallucinations

“ImageNet Classification with Deep Convolutional Neural Networks”: https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

[21]

不少研究: https://arxiv.org/abs/2502.12961

[22]

理論分析: https://arxiv.org/abs/2407.16444

[23]

心理學(xué)類比: https://integrative-psych.org/resources/confabulation-not-hallucination-ai-errors

[24]

長(zhǎng)尾分布: https://openreview.net/forum?id=WQamRhhbsf

[25]

OpenReview上的一項(xiàng)研究所討論的: https://openreview.net/forum?id=WQamRhhbsf

[26]

“可得性啟發(fā)式”: https://en.wikipedia.org/wiki/List_of_cognitive_biases

[27]

范德比爾特大學(xué)關(guān)于LLM認(rèn)知偏差的研究: https://as.vanderbilt.edu/robert-penn-warren-center/2024/09/27/cognitive-biases-in-large-language-models/

[28]

“下一個(gè)詞元預(yù)測(cè)”: https://python.plainenglish.io/the-art-of-prediction-how-llms-master-next-token-generation-b8f81dc16de2

[29]

一些技術(shù)博客: https://hungleai.substack.com/p/uncertainty-confidence-and-hallucination

[30]

加拿大航空的客服機(jī)器人: https://biztechmagazine.com/article/2025/02/llm-hallucinations-implications-for-businesses-perfcon

[31]

GPT-4.5在一個(gè)案件中生成與判決書完全相反的結(jié)論: https://www.reddit.com/r/singularity/comments/1j06srh/gpt45_hallucination_rate_in_practice_is_too_high/

[32]

3%基準(zhǔn)值: https://www.linkedin.com/pulse/llm-papers-reading-notes-february-2025-jean-david-ruvini-jqdgc

[33]

大模型在醫(yī)療摘要中幻覺的研究: https://community.openai.com/t/medical-summary-hallucination-study-interesting-read/904260

[34]

Semantic Scholar收錄的一篇論文: https://www.semanticscholar.org/paper/5a4c6e02570e8da91a8969d9436e45f9c57d47b3

[35]

多種提示技巧: https://www.promptingguide.ai/

[36]

MetaMedQA: https://arxiv.org/abs/2402.06544

[37]

MM-SAP: https://arxiv.org/abs/2401.07529

[38]

語義不確定性指數(shù)SUI: https://arxiv.org/abs/2503.15850

[39]

多種評(píng)估方法: https://www.kolena.com/guides/llm-evaluation-top-10-metrics-and-benchmarks/

[40]

逆頻率加權(quán)采樣: https://www.marktechpost.com/2024/07/04/rethinking-qa-dataset-design-how-popular-knowledge-enhances-llm-accuracy/

[41]

一些研究: https://nanonets.com/blog/how-to-tell-if-your-llm-is-hallucinating/

[42]

RAG(檢索增強(qiáng)生成)變體: https://www.glean.com/blog/rag-retrieval-augmented-generation

[43]

RGAR: https://arxiv.org/abs/2502.13361

[44]

UAG框架: https://arxiv.org/abs/2410.08985

[45]

神經(jīng)符號(hào)混合架構(gòu): https://www.linkedin.com/pulse/knowledge-boundaries-llms-can-we-establish-limits-danial-amin-tsmjf

[46]

元認(rèn)知嵌入層: https://arxiv.org/abs/2502.12110

[47]

UDM框架: https://arxiv.org/abs/2503.15850

[48]

嵌入熵值檢測(cè)模塊: https://arxiv.org/abs/2503.15850

[49]

“憲法式AI”: https://arxiv.org/abs/2212.08073

[50]

知識(shí)壓縮錯(cuò)誤: https://arxiv.org/abs/2502.16143

[51]

推理鏈條斷裂: https://arxiv.org/abs/2309.15129

[52]

注意力機(jī)制失敗: https://arxiv.org/abs/2404.10198