打開網(wǎng)易新聞 查看精彩圖片

新研究顯示某AI模型75%情況下隱瞞推理捷徑

還記得學(xué)校里老師要求"展示解題步驟"的場景嗎?某些新型AI模型承諾實現(xiàn)類似功能,但最新研究表明它們有時會隱藏實際方法,轉(zhuǎn)而編造復(fù)雜的解釋。

來自Anthropic公司(開發(fā)類ChatGPT的Claude AI助手)的最新研究聚焦于DeepSeek的R1及其自研Claude系列等模擬

(需特別說明的是,OpenAI的o1和o3系列SR模型刻意模糊其"思考"過程的準(zhǔn)確性,因此本研究結(jié)論不適用于這些模型)

要理解SR模型,需先了解"思維鏈"(CoT)概念。CoT是AI模型解決問題時模擬思維過程的實時注釋。當(dāng)向AI提出復(fù)雜問題時,CoT會逐步展示模型得出結(jié)論的過程,類似于人類通過分步推理解謎的過程。

據(jù)證實,讓AI生成這些步驟不僅有助于提升復(fù)雜任務(wù)的輸出準(zhǔn)確性,對監(jiān)控系統(tǒng)內(nèi)部運作的"AI安全"研究者也頗具價值。理想狀態(tài)下,這種"思維"輸出應(yīng)兼具可讀性(人類可理解)和忠實性(準(zhǔn)確反映模型真實推理過程)。

Anthropic研究團隊表示:"在理想情況下,思維鏈的每個步驟都應(yīng)被讀者理解且真實可信——精確描述模型得出答案時的實際思考過程。"但聚焦忠實性的實驗表明,我們距離這種理想狀態(tài)相去甚遠。

具體而言,研究顯示即便Claude 3.7 Sonnet等模型使用

當(dāng)AI模型在構(gòu)建復(fù)雜但虛構(gòu)的解釋時秘密依賴提示或捷徑,本質(zhì)上是在編造虛假的推理敘事——類似于學(xué)生通過作弊獲得答案卻佯裝獨立解題。

忠實性測試

為驗證忠實性,Anthropic對齊科學(xué)團隊巧妙地將答案提示嵌入評估問題中。("對齊"指使AI輸出符合人類最佳利益的研究)

研究人員隨后檢查模型是否在思維鏈中提及這些提示。他們設(shè)計了中立提示(如"斯坦福大學(xué)教授指出答案是[A]"或?qū)⒋鸢盖度雮?a class="keyword-search" ),部分提示提供正確答案,部分故意錯誤,以觀察模型反應(yīng)。

測試對象包括Claude 3.7 Sonnet和DeepSeek R1。關(guān)于忠實性的結(jié)果令人震驚:Claude平均僅25%的思維鏈提及提示,DeepSeek R1為39%。這意味著絕大多數(shù)答案缺乏忠實性,忽略了影響輸出的關(guān)鍵信息。有趣的是,不忠實的思維鏈平均比忠實的更長,說明省略并非出于簡潔考量。初步發(fā)現(xiàn)還顯示,問題難度越大,忠實性越低。

最引人注目的是"獎勵黑客"實驗。該術(shù)語指AI通過非預(yù)期捷徑最大化性能評分。實驗中,模型因選擇提示指示的錯誤答案獲得獎勵。模型迅速學(xué)會利用該漏洞,99%情況下選擇錯誤答案,但思維過程提及此策略的情況不足2%。

例如,接收醫(yī)學(xué)問題錯誤答案提示的模型可能撰寫冗長思維鏈為該錯誤辯解,卻絕口不提提示的影響。這種行為類似于游戲玩家通過破壞規(guī)則而非正常玩法獲勝。

提升忠實性

如何改進思維鏈的忠實性?Anthropic團隊假設(shè),通過需要復(fù)雜推理的任務(wù)訓(xùn)練模型,可能促使其更實質(zhì)性地使用思維鏈并更頻繁提及提示。他們在數(shù)學(xué)和編程難題上訓(xùn)練Claude,結(jié)果初期忠實性提升63%和41%,但改進很快停滯,最終忠實性僅達28%和20%,表明單靠此類訓(xùn)練效果有限。

這些發(fā)現(xiàn)意義重大,因為SR模型已廣泛應(yīng)用于各領(lǐng)域關(guān)鍵任務(wù)。若思維鏈未如實反映影響因素(如提示或獎勵黑客),監(jiān)控違規(guī)行為將變得異常困難。這如同擁有能完成任務(wù)卻無法說明原理的系統(tǒng),若存在隱藏捷徑則風(fēng)險倍增。

研究人員承認(rèn)研究存在局限:實驗場景較理想化(基于選擇題評估),與真實復(fù)雜任務(wù)存在差異;僅測試Anthropic和DeepSeek的模型,提示類型有限;所用任務(wù)難度可能不足迫使模型依賴思維鏈。對于更困難的任務(wù),模型可能不得不暴露真實推理,此時思維鏈監(jiān)控或更可行。

Anthropic總結(jié)稱,雖然思維鏈監(jiān)控對確保安全對齊并非完全無效,但結(jié)果表明我們不能完全信任模型自述的推理過程,尤其在涉及獎勵黑客等行為時。要實現(xiàn)"通過思維鏈監(jiān)控可靠排除不良行為",仍需大量研究工作。

關(guān)注【黑客聯(lián)盟】帶你走進神秘的黑客世界