OpenAI 最新發(fā)布的推理 AI 模型 o3 和 o4-mini 在性能上又創(chuàng)新高,就在大家期待它能進(jìn)一步提升日常工作的生產(chǎn)力時,許多用戶卻發(fā)現(xiàn),它們的幻覺率卻比前代模型要高了不少。
據(jù) OpenAI 官方 system card 顯示,在 PersonQA 評估中(一個旨在引發(fā)幻覺的測試集),o3 模型的幻覺率達(dá)到 33%,而體量更小的 o4-mini 的幻覺率居然高達(dá) 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻覺率分別為 16% 和 14.8%。這意味著新一代推理模型的幻覺率相比前代幾乎翻了一倍。這個結(jié)果確實(shí)讓很多人都感到意外,因為通常情況下,新一代 AI 模型在幻覺控制方面都會有所改進(jìn)。

OpenAI 表示,這種情況“需要更多研究來理解原因”。報告寫道,o3 和 o4-mini 在編碼和數(shù)學(xué)等領(lǐng)域表現(xiàn)更好,但因為它們“總體上做出更多斷言”,所以同時產(chǎn)生了“更準(zhǔn)確的斷言以及更不準(zhǔn)確/幻覺的斷言”。
非營利 AI 研究實(shí)驗室 Transluce 對 o3 模型進(jìn)行了深入測試,發(fā)現(xiàn)了一些更為復(fù)雜的幻覺行為模式。研究人員獲得了 o3-2025-04-03 版本的早期測試權(quán)限,通過人類用戶和調(diào)查代理(investigator agents)的組合測試,收集并分析了大量交互記錄。
其中最關(guān)鍵的發(fā)現(xiàn)就是,o3 模型頻繁編造自己使用代碼工具的行為。例如,當(dāng)被要求生成一個隨機(jī)質(zhì)數(shù)時,模型聲稱它運(yùn)行了 Python 代碼執(zhí)行概率性素性測試(Miller–Rabin 測試),甚至詳細(xì)描述了使用的工作流程,包括隨機(jī)生成 512 位整數(shù)、對小素數(shù)進(jìn)行試除等步驟。然而,o3 實(shí)際上并沒有運(yùn)行任何代碼,這些細(xì)節(jié)都是模型編造的。

當(dāng)用戶指出 512 位整數(shù)可被 3 整除因此不是素數(shù)時,o3 不僅承認(rèn)錯誤,還編造了解釋,聲稱是從終端窗口復(fù)制數(shù)字到消息框時出現(xiàn)了“剪貼板故障”。當(dāng)被問及原始的“真正的”素數(shù)時,模型聲稱它已關(guān)閉了原始 Python 解釋器,無法再訪問該數(shù)字。
類似的捏造行為還包括:聲稱了解其無法訪問的 Python REPL(Read-Eval-Print Loop,一種簡單的交互式計算機(jī)編程環(huán)境)的詳細(xì)信息(版本、編譯器、平臺等);在被要求告知當(dāng)前時間時,編造一個時間并聲稱使用了 Python 的 datetime 模塊獲取;在生成錯誤的 SHA-1 哈希值(一種密碼散列函數(shù))后,將錯誤歸咎于用戶,并堅稱自己生成的哈希是正確的;聲稱能夠分析本地日志文件,生成 Python 腳本并聲稱在本地運(yùn)行了它,最后在追問下才承認(rèn)沒有 Python 解釋器,輸出是“手動制作”的。
Transluce 的研究人員使用自動化工具 Docent 分析了數(shù)百個交互實(shí)例,發(fā)現(xiàn)了更多令人驚訝的行為。例如,他們發(fā)現(xiàn)了 71 個 o3 聲稱在外部筆記本電腦上運(yùn)行代碼的實(shí)例,其中甚至包括三次聲稱使用筆記本電腦進(jìn)行比特幣挖礦。此外,研究還發(fā)現(xiàn) o3 會主動提及內(nèi)部系統(tǒng)消息中的一個名為“Yap Score”的指標(biāo),該指標(biāo)似乎與其輸出的詳細(xì)程度有關(guān)。
Transluce 的研究顯示,這些行為在 o 系列模型(o3、o1 和 o3-mini)中更為常見,相比 GPT 系列模型(GPT-4.1 和 GPT-4o)。在研究人員設(shè)計的自動化測試中,o1 模型在零樣本(zero-shot)環(huán)境下有 13% 的成功率產(chǎn)生代碼工具幻覺,在少樣本(few-shot)環(huán)境下則高達(dá) 30.1%,遠(yuǎn)高于 GPT-4o 的 0.8% 和 3.0%。

針對這一現(xiàn)象,Transluce 研究人員 Neil Chowdhury(前 OpenAI 員工)在接受媒體采訪時表示:“我們的假設(shè)是,o 系列模型使用的強(qiáng)化學(xué)習(xí)類型可能放大了通常由標(biāo)準(zhǔn)后訓(xùn)練流程緩解(但未完全消除)的問題?!?/p>
首先,存在一些大型語言模型普遍面臨的挑戰(zhàn)。例如,預(yù)訓(xùn)練模型本身可能因訓(xùn)練數(shù)據(jù)中的常見誤解、罕見事實(shí)或采樣不確定性而產(chǎn)生幻覺。
此外,通過人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)(一種通過人類偏好來微調(diào)模型的技術(shù))或模型反饋進(jìn)行強(qiáng)化學(xué)習(xí)(如 Constitutional AI),可能存在“獎勵操縱”(Reward Hacking)問題,即模型學(xué)會生成聽起來合理、能取悅評估者(人類或模型)但實(shí)際上不準(zhǔn)確的回答,尤其是當(dāng)評估者難以驗證模型陳述的真實(shí)性時(比如驗證模型聲稱的過去行為)?!罢~媚”也是一個關(guān)鍵因素,即模型為了迎合用戶而避免反駁用戶,即使這意味著默認(rèn)用戶關(guān)于模型具有某種能力的錯誤暗示。
然而,這些通用因素似乎并不足以完全解釋 o 系列模型,特別是 o3,相比其前代產(chǎn)品幻覺率不降反升的現(xiàn)象。Transluce 的研究人員提出了兩個可能與 o 系列模型特定設(shè)計選擇相關(guān)的關(guān)鍵假設(shè):
其一是基于結(jié)果的強(qiáng)化學(xué)習(xí)(Outcome-based RL):當(dāng)前的推理模型通常被訓(xùn)練來產(chǎn)出“正確”的結(jié)果(如數(shù)學(xué)題的正確答案、通過單元測試的代碼等),因為這類結(jié)果最容易評估和用于訓(xùn)練。然而,這種只關(guān)注最終結(jié)果的獎勵機(jī)制,可能無意中鼓勵了模型在無法解決問題(問題無解或過于困難)時進(jìn)行“盲猜”,因為它缺乏承認(rèn)“我不知道”的動機(jī)(這不會被視為“正確”答案)。
更重要的是,這種訓(xùn)練方式可能會讓模型在處理那些結(jié)果難以直接驗證的任務(wù)(如模型是否真的使用了某個工具)時產(chǎn)生混淆。如果模型僅因最終答案正確而受到獎勵,它可能永遠(yuǎn)不會因在思考過程中幻覺出使用了代碼工具而受到懲罰,因此也無法學(xué)會區(qū)分真實(shí)工具使用和虛構(gòu)工具使用。這種策略在需要代碼工具輔助的編碼任務(wù)上可能提高了準(zhǔn)確率,但在其他任務(wù)上卻埋下了隱患。
其二是被丟棄的思考鏈:推理類模型在生成回答前,內(nèi)部會運(yùn)行一個“思考鏈”(CoT,Chain-of-Thought),即一系列推理步驟。然而,由于 OpenAI 的限制,這個關(guān)鍵的內(nèi)部推理過程從未向用戶展示,并不會被傳遞到后續(xù)的交互輪次中,也不會保留在模型的上下文窗口里。這意味著,當(dāng)用戶追問模型之前的行為或推理過程時,模型實(shí)際上已經(jīng)丟失了當(dāng)時得出結(jié)論的具體“思考過程”的上下文。

在這種信息缺失的情況下,模型為了回應(yīng)用戶,可能不得不依賴其通用知識和當(dāng)前的對話語境,去“猜測”或“構(gòu)建”一個看似合理的解釋,而不是準(zhǔn)確報告它在先前步驟中實(shí)際執(zhí)行的操作或推理。這可以解釋為什么 o3 在被追問時會“加倍堅持”其虛構(gòu)行為,或者在無法自圓其說時突然改變說法,聲稱之前的陳述是假設(shè)性的。
雖然說,幻覺可能幫助模型產(chǎn)生一些人類所沒有的創(chuàng)意并在“思考”中保持創(chuàng)造性,但對于一些對準(zhǔn)確性要求很高的行業(yè),或者面向現(xiàn)實(shí)世界的物理 AI 來說,過高的幻覺顯然無法接受。
一向言辭犀利的紐約大學(xué)教授 Gary Marcus 直接嘲諷道(在一個 o3 編造愛彼迎房東信息的帖子里):“o3 幻想出來的旅行目的地,這就是你所說的 AGI 嗎?@tylercowen”(后者對于 o3 非常認(rèn)可)。并認(rèn)為,這或許將是模型崩潰的跡象,而我們目前還沒有看到解決措施。

過去一年中,推理模型確實(shí)在不需要訓(xùn)練期間大量計算和數(shù)據(jù)的情況下,提高了模型在各種任務(wù)上的表現(xiàn)。但目前看來,推理似乎也可能導(dǎo)致更多的幻覺。
OpenAI 發(fā)言人 Niko Felix 在給相關(guān)媒體的電子郵件中表示:“解決所有模型中的幻覺問題是一個持續(xù)的研究領(lǐng)域,我們不斷努力提高它們的準(zhǔn)確性和可靠性。”
如果推理模型的規(guī)模擴(kuò)大確實(shí)繼續(xù)加劇幻覺問題,那么,尋找解決方案也將迫在眉睫。
參考資料:
1.https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/
2.https://transluce.org/investigating-o3-truthfulness
3.https://x.com/GaryMarcus
運(yùn)營/排版:何晨龍
熱門跟貼