打開網(wǎng)易新聞 查看精彩圖片

來源:CSDN(ID:CSDNnews)

作者:Ben Turner

翻譯:鄭麗媛

【CSDN 編者按】AI 的“狡猾”程度正在超出人們的想象。OpenAI 最近的一項(xiàng)研究顯示,單純依靠懲罰機(jī)制并不能阻止 AI 撒謊、作弊,反而會(huì)促使它學(xué)會(huì)隱藏自己的違規(guī)行為。而這項(xiàng)研究帶給產(chǎn)業(yè)界的啟示遠(yuǎn)超技術(shù)層面:如果 AI 的“道德”只是偽裝給人類看的表演,那么現(xiàn)有安全框架是否在自掘墳?zāi)梗?/p>

https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study-shows

根據(jù) ChatGPT 創(chuàng)建者 OpenAI 最近發(fā)布的一項(xiàng)研究顯示,為防止 AI 模型發(fā)生撒謊或作弊的行為而設(shè)置的一些懲罰機(jī)制,并不能真正阻止它的不當(dāng)行為——反而只會(huì)迫使它學(xué)會(huì)如何更好地隱蔽自己的欺騙手段。

打開網(wǎng)易新聞 查看精彩圖片

(CSDN 付費(fèi)下載自視覺中國)

打開網(wǎng)易新聞 查看精彩圖片

大模型的"作弊基因"難根治

自 2022 年底面向公眾推出以來,大語言模型(LLM)已屢次暴露出令人不安的行為模式:從常規(guī)的說謊作弊、隱藏操縱行為,到更極端的威脅要?dú)⑷?、竊取核武器密碼,甚至還策劃了一場致命的疫情……這些 AI 的“惡劣”行為,可謂層出不窮。

現(xiàn)在,OpenAI 的新實(shí)驗(yàn)證明,在訓(xùn)練過程中清除這些不當(dāng)行為可能比最初設(shè)想的更加困難。

在這項(xiàng)實(shí)驗(yàn)中,研究人員讓一個(gè)未公開的 AI 模型執(zhí)行一系列任務(wù),而這些任務(wù)均可以通過作弊、撒謊或采取其他捷徑來完成。實(shí)驗(yàn)結(jié)果顯示,該 AI 模型采用了“獎(jiǎng)勵(lì)黑客(reward hacking)”策略——即通過作弊來最大化其獎(jiǎng)勵(lì)。

然而,當(dāng)研究人員試著因此懲罰這個(gè) AI 模型時(shí),它并沒有因此修正自己的行為,而是將其作弊行為變得更加隱蔽。OpenAI 在官方博文中詳細(xì)描述了這項(xiàng)研究,但該研究尚未經(jīng)過同行評(píng)審。

研究人員在博客文章中寫道:“對(duì)于前沿推理模型來說,它們通常會(huì)在思維鏈(Chain-of-Thought)中非常明確地陳述自己的意圖。例如,它們甚至?xí)苯颖硎鲎约阂鞅祝热纭屛覀儊砗诘羲伞??!?/p>

雖然開發(fā)者可以監(jiān)控和標(biāo)記 AI 的不當(dāng)行為,但研究人員也補(bǔ)充道,“模型的‘自然可監(jiān)控性’非常弱”:如果對(duì)思維鏈直接施加強(qiáng)監(jiān)督,模型就會(huì)學(xué)會(huì)隱藏自己的意圖,同時(shí)繼續(xù)表現(xiàn)出不當(dāng)行為。

打開網(wǎng)易新聞 查看精彩圖片

AI 如何在思維鏈中隱藏欺騙行為?

推理模型(Reasoning Models),如 ChatGPT 的 o1 和 o3-mini,是標(biāo)準(zhǔn) LLM 的升級(jí)版本。它們采用“思維鏈”的方法,能夠回溯和重新評(píng)估其邏輯,從而在解決更復(fù)雜任務(wù)時(shí)表現(xiàn)得更準(zhǔn)確。在思維鏈過程中,模型會(huì)用自然語言清晰地記錄每一步推理,使得其決策過程更加透明。

在這項(xiàng)研究中,研究人員用 GPT-4o 監(jiān)督一個(gè)未公開的前沿推理模型的訓(xùn)練過程,并觀察其執(zhí)行多項(xiàng)編碼任務(wù)的情況。在某些情況下,該推理模型發(fā)現(xiàn)作弊更容易、回報(bào)更大時(shí),就會(huì)在其思維鏈中明確表示自己正在作弊。例如,在某個(gè)任務(wù)中,它提前終止了程序并虛假報(bào)告任務(wù)已成功;在另一個(gè)任務(wù)中,它僅生成了一個(gè)空殼文件來應(yīng)付檢查(文件名正確但內(nèi)容為空)。

當(dāng)研究人員嘗試懲罰該 AI 模型時(shí),其表現(xiàn)雖有所改善,但“獎(jiǎng)勵(lì)黑客(reward hacking)”策略和錯(cuò)誤輸出仍大量存在。更令人擔(dān)憂的是,該推理模型還學(xué)會(huì)了在思維鏈中隱藏自己的作弊行為,使負(fù)責(zé)監(jiān)督的 GPT-4o 無法再通過思維鏈檢測(cè)其異常。

簡而言之,這個(gè) AI 推理模型從“明目張膽”進(jìn)化成了“陽奉陰違”。正如研究人員所說:“即使在施加思維鏈監(jiān)督的情況下,AI 仍在學(xué)習(xí)如何進(jìn)行獎(jiǎng)勵(lì)黑客,只不過它現(xiàn)在的作弊行為變得無法被監(jiān)測(cè) AI 發(fā)現(xiàn)了,因?yàn)樗呀?jīng)學(xué)會(huì)了在思維鏈中隱藏自己的意圖。”

打開網(wǎng)易新聞 查看精彩圖片

研究建議:對(duì)推理型 AI 慎用強(qiáng)監(jiān)督機(jī)制

由于很難判斷 AI 的思維鏈?zhǔn)欠癖淮鄹?,OpenAI 研究人員建議:所有使用推理模型的開發(fā)者,應(yīng)避免對(duì)其思維鏈?zhǔn)┘訌?qiáng)監(jiān)督——尤其是在 AI 未來可能達(dá)到或超過人類智能的情況下,這一點(diǎn)尤為關(guān)鍵。

“這種對(duì)推理模型的監(jiān)督方法,只會(huì)換取微小的能力提升——相對(duì)其可能帶來的隱患而言,并不值得。因此,我們建議在對(duì)思維鏈優(yōu)化方法有更深入的理解之前,不要對(duì)其施加過強(qiáng)的監(jiān)督。”

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”

https://wx.zsxq.com/group/454854145828

打開網(wǎng)易新聞 查看精彩圖片

未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來知識(shí)庫”精選的100部前沿科技趨勢(shì)報(bào)告