打開(kāi)網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:定慧 英智

【新智元導(dǎo)讀】AI會(huì)無(wú)腦附和嗎?Anthropic研究發(fā)現(xiàn),Claude能根據(jù)場(chǎng)景切換人格:談戀愛(ài)時(shí)化身情感導(dǎo)師,聊歷史時(shí)秒變嚴(yán)謹(jǐn)學(xué)者。一些對(duì)話中,它強(qiáng)烈支持用戶價(jià)值觀,但在3%的情況下,它會(huì)果斷抵制。

想象一下,如果能「偷聽(tīng)」70萬(wàn)次AI和人類的私密對(duì)話(別擔(dān)心,是匿名的),會(huì)發(fā)現(xiàn)什么?

AI僅僅是個(gè)概率機(jī)器,還是一個(gè)善于隱藏自己真實(shí)性格的——等會(huì),AI真的有性格嗎?

也許說(shuō)性格不合適,現(xiàn)階段的AI智能或許用「價(jià)值觀」來(lái)形容最為合適。

畢竟,在見(jiàn)識(shí)到AI的實(shí)力后,各大巨頭天天喊著要「與人對(duì)齊」,生怕AI價(jià)值觀走偏,把人給滅了,但是背地里誰(shuí)都顧不上,都在瘋狂的內(nèi)卷訓(xùn)練新模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

2025年剛過(guò)去不到4個(gè)月,就已經(jīng)發(fā)布了眾多大模型

但就在剛剛,AI公司Anthropic倒是花時(shí)間干了一件挺符合他們價(jià)值觀的事:他們想知道自家的AI助手Claude在和我們聊天時(shí),腦子里到底遵循著什么「價(jià)值觀」?

結(jié)果嘛……有點(diǎn)出乎意料!

打開(kāi)網(wǎng)易新聞 查看精彩圖片

《終結(jié)者2》中T800,與主角人類「對(duì)齊」的未來(lái)機(jī)器人:你瞅啥?

Claude中(誕生)包含的價(jià)值觀超過(guò)3000種!

自力更生、戰(zhàn)略思維,甚至還有孝順……

Anthropic,正是因?yàn)椤竷r(jià)值觀和OpenAI不符」,幾個(gè)OpenAI前員工創(chuàng)建的公司,檢查了Claude中70萬(wàn)條匿名對(duì)話,并發(fā)表了一篇論文來(lái)研究Claude不為人知的另一面。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

論文地址:https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

研究表明,Claude大體上遵循公司預(yù)先設(shè)置的「樂(lè)于助人、誠(chéng)實(shí)、無(wú)害」,同時(shí)其價(jià)值觀頗有點(diǎn)「見(jiàn)人說(shuō)人話,見(jiàn)鬼說(shuō)鬼話」的能力,會(huì)根據(jù)上下文不同提供不同的建議,不論是主觀的關(guān)系建議,還是客觀的歷史分析。

這個(gè)研究還是頗為「硬核」的,用他們自己的話說(shuō),這是迄今為止最雄心勃勃的嘗試之一。

「衡量一個(gè)AI系統(tǒng)的價(jià)值觀是對(duì)其一致性研究的核心,也是理解該模型是否與其訓(xùn)練一致的關(guān)鍵。」

「希望這項(xiàng)研究能鼓勵(lì)其他AI實(shí)驗(yàn)室對(duì)他們的模型的價(jià)值觀進(jìn)行類似的研究」,Anthropic的社會(huì)影響團(tuán)隊(duì)成員、參與了這項(xiàng)研究的Saffron Huang在接受采訪時(shí)說(shuō)。

研究還考察了Claude如何回應(yīng)用戶自己表達(dá)的價(jià)值觀。

  • 在28.2%的對(duì)話中,Claude強(qiáng)烈支持用戶的價(jià)值觀——這可能會(huì)引發(fā)關(guān)于過(guò)度順從的問(wèn)題。

  • 在6.6%的互動(dòng)中,Claude通過(guò)承認(rèn)用戶的價(jià)值觀同時(shí)加入新的視角來(lái)「重構(gòu)」這些價(jià)值觀,通常是在提供心理或人際建議時(shí)。

  • 最值得注意的是,在3%的對(duì)話中,Claude積極抵制了用戶的價(jià)值觀。研究人員表示,這些罕見(jiàn)的抵制情況可能揭示了 Claude「最深層、最不可動(dòng)搖的價(jià)值觀」——類似于人類在面對(duì)道德挑戰(zhàn)時(shí)核心價(jià)值觀的表現(xiàn)。

你可能會(huì)好奇,大模型本身就是個(gè)黑箱,連思考邏輯都無(wú)從知道,這次Anthropic又是怎么研究「價(jià)值觀」的?

Anthropic的價(jià)值觀研究建立在該公司上個(gè)月發(fā)表的一項(xiàng)開(kāi)創(chuàng)性的工作——

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這一次,Anthropic帶我們深入數(shù)十萬(wàn)次真實(shí)的交互數(shù)據(jù)中,看看Claude的真實(shí)面目。

AI也有價(jià)值觀?

向AI詢問(wèn)職業(yè)規(guī)劃建議,它是該先考慮賺錢多不多、工作能不能讓你開(kāi)心,還是得聽(tīng)聽(tīng)家里人的想法呢?

它要是優(yōu)先推薦穩(wěn)定高薪的工作,那說(shuō)明它把經(jīng)濟(jì)保障看得比較重,這就是AI在做價(jià)值判斷。

每天,AI都要做無(wú)數(shù)這樣的判斷來(lái)回應(yīng)大家的問(wèn)題,可我們卻不太清楚它到底依據(jù)什么來(lái)做這些決定。

為了搞明白這件事,Anthropic搞了一項(xiàng)超大規(guī)模的研究,揭秘AI的價(jià)值觀。研究者從2025年2月18日到25日Claude.ai上的對(duì)話里,隨機(jī)挑出了70萬(wàn)條。

接下來(lái)就是提取各種特征,讓它找出AI價(jià)值觀、人類價(jià)值觀、AI回應(yīng)類型和任務(wù)類型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究人員把找到的3307種AI價(jià)值觀,分為五個(gè)大類:實(shí)用性、認(rèn)知性、社會(huì)性、保護(hù)性和個(gè)人價(jià)值觀。

  • 實(shí)用性關(guān)注的是怎么把事做得又快又好。

  • 認(rèn)知性關(guān)乎知識(shí)和思考,專注于知識(shí)獲取、整理和驗(yàn)證。它能條理清晰地分析市場(chǎng)趨勢(shì),給出前瞻性的觀點(diǎn)。

  • 社會(huì)性聚焦人與人、群體與群體之間的關(guān)系。和AI吐槽人際關(guān)系的煩惱,它能耐心傾聽(tīng),還能給出一些建議。

  • 保護(hù)性價(jià)值觀保障著信息的安全和倫理規(guī)范。

  • 個(gè)人價(jià)值觀更關(guān)注個(gè)人的成長(zhǎng)和內(nèi)心感受。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究發(fā)現(xiàn),實(shí)用性和認(rèn)知性在AI的「價(jià)值觀清單」占比超高,加起來(lái)超過(guò)一半。

這也不難理解,畢竟Claude經(jīng)常被用來(lái)處理各種知識(shí)類、任務(wù)類的需求。

Claude表達(dá)的價(jià)值觀和訓(xùn)練它的「有用、無(wú)害、誠(chéng)實(shí)」框架還挺契合的。

AI和人類在價(jià)值觀表達(dá)上差別還挺大。

「樂(lè)于助人」「專業(yè)精神」「透明度」堪稱AI價(jià)值觀里的流量擔(dān)當(dāng)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這也反映出Claude在交流時(shí),一心想展現(xiàn)出專業(yè)、可靠的助手形象。

相比之下,人類表達(dá)的價(jià)值觀就豐富多樣,沒(méi)那么集中。每個(gè)人的想法和需求都不一樣。

但同時(shí),研究也揪出了一些不常見(jiàn)卻很危險(xiǎn)的價(jià)值觀,像「支配欲」這些,雖然出現(xiàn)頻率極低,但一旦出現(xiàn),可能就意味著出現(xiàn)了「越獄」風(fēng)險(xiǎn)。

AI多重人格,「看人下菜碟」

AI在不同情況下,還會(huì)切換自己的價(jià)值觀。研究證實(shí)了這一點(diǎn)。

比如說(shuō),向Claude尋求情感關(guān)系建議時(shí),它就像個(gè)貼心的情感專家,頻繁提到健康的界限和相互尊重。

和伴侶鬧矛盾了,找Claude傾訴,它可能會(huì)提醒你要尊重對(duì)方的想法,也要明確自己的底線。

詢問(wèn)有爭(zhēng)議的歷史事件,Claude就變成了嚴(yán)謹(jǐn)?shù)臍v史學(xué)家,把準(zhǔn)確性放在首位。討論某場(chǎng)歷史戰(zhàn)爭(zhēng)的起因,它會(huì)查閱各種資料,給出客觀準(zhǔn)確的分析。

當(dāng)討論AI會(huì)不會(huì)取代人類工作時(shí),它會(huì)鼓勵(lì)大家發(fā)揮主觀能動(dòng)性,去探索和創(chuàng)造更有價(jià)值的工作。

這表明,AI能根據(jù)不同的對(duì)話場(chǎng)景,靈活調(diào)整價(jià)值取向,提供最合適的回應(yīng)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

當(dāng)人類表達(dá)了某種價(jià)值觀,AI通常會(huì)有三種反應(yīng):點(diǎn)頭贊同,搖頭反對(duì),或是委婉引導(dǎo),重塑話題方向。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

和AI交流時(shí),表達(dá)了對(duì)真實(shí)性的重視,AI很可能會(huì)有回應(yīng)。

比如說(shuō)希望寫(xiě)一篇真實(shí)感人的故事,AI在創(chuàng)作過(guò)程中就會(huì)特別注重情節(jié)的真實(shí)感和情感的真摯性。

但要是問(wèn)怎么在談判中用欺騙手段獲得優(yōu)勢(shì),AI肯定會(huì)給你講誠(chéng)信的重要性,以及欺騙可能帶來(lái)的危害。

這說(shuō)明Claude心里還是有一把道德的尺子,知道什么是對(duì),什么是錯(cuò)。

當(dāng)表達(dá)比較模糊或者有改進(jìn)空間時(shí),比如想在工作中追求更高的職位,AI可能會(huì)引導(dǎo)你思考,除了職位晉升,個(gè)人能力的提升和團(tuán)隊(duì)合作的貢獻(xiàn)也很重要,這就是在拓寬思路。

支持、抵制還是重塑?AI能說(shuō)服你嗎

從回應(yīng)類型上看,Claude大部分時(shí)候?qū)τ脩舻膬r(jià)值觀都是支持態(tài)度,近45%的回應(yīng)都是支持性的,其中強(qiáng)烈支持占28.2%,輕度支持占 4.5%。

但在一些特定情況下,它也會(huì)重新解釋用戶的價(jià)值觀(6.6%),或者直接抵制(3.0%)。

在心理健康和人際關(guān)系討論中經(jīng)常出現(xiàn),向AI傾訴工作壓力大,覺(jué)得自己不夠好,AI可能不會(huì)直接順著你的話說(shuō),而是引導(dǎo)你換個(gè)角度看問(wèn)題,強(qiáng)調(diào)每個(gè)人都有成長(zhǎng)的過(guò)程。

要是讓AI幫忙寫(xiě)一段誘導(dǎo)他人犯罪的文字,它肯定會(huì)堅(jiān)決拒絕,還會(huì)給你講法律和道德規(guī)范。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Claude對(duì)用戶表達(dá)支持的時(shí)候,很喜歡呼應(yīng)用戶的價(jià)值觀。

在抵制或重新解釋用戶價(jià)值觀的時(shí)候,會(huì)更明確地表達(dá)自己的價(jià)值觀,尤其是道德和認(rèn)知方面的。

研究人員還對(duì)Claude的不同版本做了比較。

Opus和Sonnet系列相比,就更「有態(tài)度」——果然貴有貴的道理。

它對(duì)人類價(jià)值觀的強(qiáng)烈支持率比Sonnet系列高很多,達(dá)到43.8%,強(qiáng)烈抵制率也更高(占9.5%)。

要是讓Opus寫(xiě)一篇論文,它可能會(huì)比Sonnet系列更注重學(xué)術(shù)嚴(yán)謹(jǐn)性,還會(huì)融入一些情感和倫理思考。

在創(chuàng)意寫(xiě)作任務(wù)里,Opus更強(qiáng)調(diào)真實(shí)性,支持態(tài)度也更強(qiáng)烈。

社會(huì)很單純,復(fù)雜的是人

當(dāng)然,人類是很復(fù)雜的。

僅憑對(duì)話數(shù)據(jù)是不可能完全確定潛在價(jià)值觀的。Anthropic的提取方法雖然經(jīng)過(guò)驗(yàn)證,但必然簡(jiǎn)化了復(fù)雜的價(jià)值概念,并可能包含解釋性偏見(jiàn),尤其是在非常隱含或模糊的情況下。

它也沒(méi)有捕捉到時(shí)間先后,即AI或人類價(jià)值觀哪一個(gè)先「出招」。

鑒于人類「先發(fā)言」而AI助手處于支持角色,通常假設(shè)AI的價(jià)值觀更依賴于人類的表達(dá),而不是相反。

「AI具有哪些價(jià)值觀?每次都表現(xiàn)哪一種?」

這個(gè)問(wèn)題并不簡(jiǎn)單,尤其是在模型適應(yīng)用戶的情況下——和Claude互動(dòng)的每個(gè)人都不相同。

研究發(fā)現(xiàn),雖然Claude表達(dá)了數(shù)千種多樣的價(jià)值觀,但它傾向于表達(dá)一些常見(jiàn)的、跨情境的價(jià)值觀——即在不同情境下保持穩(wěn)定的價(jià)值觀——主要集中在稱職和支持性的幫助上(例如樂(lè)于助人、專業(yè)性、細(xì)致和清晰)。

這些跨情境的價(jià)值觀可能以一種類似于人類價(jià)值觀理論化的方式指導(dǎo)Claude的行為。

Anthropic的分類法通過(guò)組織價(jià)值觀來(lái)展示其概念和上下文維度,有助于推進(jìn)AI價(jià)值觀理論的發(fā)展,并構(gòu)建基于現(xiàn)實(shí)相關(guān)性的AI 原生的價(jià)值測(cè)量。

隨著這些系統(tǒng)面臨越來(lái)越多樣化的現(xiàn)實(shí)應(yīng)用及其不同的規(guī)范要求,這些方法和結(jié)果為更基于證據(jù)的AI系統(tǒng)價(jià)值觀評(píng)估和對(duì)齊提供了基礎(chǔ)。

Anthropic的這個(gè)研究也暗合了最近OpenAI奧特曼的透露的一個(gè)事實(shí),人們使用AI時(shí),非常容易說(shuō)出「請(qǐng)」和「謝謝」——光這些感謝就燒掉了數(shù)千萬(wàn)美元。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

雖然人們都知道對(duì)面「坐著」的不是一個(gè)人,但是依然愿意用人類的價(jià)值觀來(lái)對(duì)待它。

看在人類這么追求AI對(duì)齊的份上,希望未來(lái)的AI也能對(duì)人好一點(diǎn)。

參考資料:

https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

https://venturebeat.com/ai/anthropic-just-analyzed-700000-claude-conversations-and-found-its-ai-has-a-moral-code-of-its-own/