午夜av免费爱爱,国产一级二级亚洲精品在线,国产老熟女打炮,美女上床娇喘高潮爽死视频 ,97精品久久久久久久精品软件

新智元報(bào)道

編輯：定慧英智

【新智元導(dǎo)讀】AI會(huì)無(wú)腦附和嗎？Anthropic研究發(fā)現(xiàn)，Claude能根據(jù)場(chǎng)景切換人格：談戀愛(ài)時(shí)化身情感導(dǎo)師，聊歷史時(shí)秒變嚴(yán)謹(jǐn)學(xué)者。一些對(duì)話中，它強(qiáng)烈支持用戶價(jià)值觀，但在3%的情況下，它會(huì)果斷抵制。

想象一下，如果能「偷聽(tīng)」70萬(wàn)次AI和人類的私密對(duì)話（別擔(dān)心，是匿名的），會(huì)發(fā)現(xiàn)什么？

AI僅僅是個(gè)概率機(jī)器，還是一個(gè)善于隱藏自己真實(shí)性格的——等會(huì)，AI真的有性格嗎？

也許說(shuō)性格不合適，現(xiàn)階段的AI智能或許用「價(jià)值觀」來(lái)形容最為合適。

畢竟，在見(jiàn)識(shí)到AI的實(shí)力后，各大巨頭天天喊著要「與人對(duì)齊」，生怕AI價(jià)值觀走偏，把人給滅了，但是背地里誰(shuí)都顧不上，都在瘋狂的內(nèi)卷訓(xùn)練新模型。

2025年剛過(guò)去不到4個(gè)月，就已經(jīng)發(fā)布了眾多大模型

但就在剛剛，AI公司Anthropic倒是花時(shí)間干了一件挺符合他們價(jià)值觀的事：他們想知道自家的AI助手Claude在和我們聊天時(shí)，腦子里到底遵循著什么「價(jià)值觀」？

結(jié)果嘛……有點(diǎn)出乎意料！

《終結(jié)者2》中T800，與主角人類「對(duì)齊」的未來(lái)機(jī)器人：你瞅啥？

Claude中（誕生）包含的價(jià)值觀超過(guò)3000種！

自力更生、戰(zhàn)略思維，甚至還有孝順……

Anthropic，正是因?yàn)椤竷r(jià)值觀和OpenAI不符」，幾個(gè)OpenAI前員工創(chuàng)建的公司，檢查了Claude中70萬(wàn)條匿名對(duì)話，并發(fā)表了一篇論文來(lái)研究Claude不為人知的另一面。

論文地址：https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

研究表明，Claude大體上遵循公司預(yù)先設(shè)置的「樂(lè)于助人、誠(chéng)實(shí)、無(wú)害」，同時(shí)其價(jià)值觀頗有點(diǎn)「見(jiàn)人說(shuō)人話，見(jiàn)鬼說(shuō)鬼話」的能力，會(huì)根據(jù)上下文不同提供不同的建議，不論是主觀的關(guān)系建議，還是客觀的歷史分析。

這個(gè)研究還是頗為「硬核」的，用他們自己的話說(shuō)，這是迄今為止最雄心勃勃的嘗試之一。

「衡量一個(gè)AI系統(tǒng)的價(jià)值觀是對(duì)其一致性研究的核心，也是理解該模型是否與其訓(xùn)練一致的關(guān)鍵。」

「希望這項(xiàng)研究能鼓勵(lì)其他AI實(shí)驗(yàn)室對(duì)他們的模型的價(jià)值觀進(jìn)行類似的研究」，Anthropic的社會(huì)影響團(tuán)隊(duì)成員、參與了這項(xiàng)研究的Saffron Huang在接受采訪時(shí)說(shuō)。

研究還考察了Claude如何回應(yīng)用戶自己表達(dá)的價(jià)值觀。

在28.2%的對(duì)話中，Claude強(qiáng)烈支持用戶的價(jià)值觀——這可能會(huì)引發(fā)關(guān)于過(guò)度順從的問(wèn)題。
在6.6%的互動(dòng)中，Claude通過(guò)承認(rèn)用戶的價(jià)值觀同時(shí)加入新的視角來(lái)「重構(gòu)」這些價(jià)值觀，通常是在提供心理或人際建議時(shí)。
最值得注意的是，在3%的對(duì)話中，Claude積極抵制了用戶的價(jià)值觀。研究人員表示，這些罕見(jiàn)的抵制情況可能揭示了 Claude「最深層、最不可動(dòng)搖的價(jià)值觀」——類似于人類在面對(duì)道德挑戰(zhàn)時(shí)核心價(jià)值觀的表現(xiàn)。

你可能會(huì)好奇，大模型本身就是個(gè)黑箱，連思考邏輯都無(wú)從知道，這次Anthropic又是怎么研究「價(jià)值觀」的？

Anthropic的價(jià)值觀研究建立在該公司上個(gè)月發(fā)表的一項(xiàng)開(kāi)創(chuàng)性的工作——

這一次，Anthropic帶我們深入數(shù)十萬(wàn)次真實(shí)的交互數(shù)據(jù)中，看看Claude的真實(shí)面目。

AI也有價(jià)值觀？

向AI詢問(wèn)職業(yè)規(guī)劃建議，它是該先考慮賺錢多不多、工作能不能讓你開(kāi)心，還是得聽(tīng)聽(tīng)家里人的想法呢？

它要是優(yōu)先推薦穩(wěn)定高薪的工作，那說(shuō)明它把經(jīng)濟(jì)保障看得比較重，這就是AI在做價(jià)值判斷。

每天，AI都要做無(wú)數(shù)這樣的判斷來(lái)回應(yīng)大家的問(wèn)題，可我們卻不太清楚它到底依據(jù)什么來(lái)做這些決定。

為了搞明白這件事，Anthropic搞了一項(xiàng)超大規(guī)模的研究，揭秘AI的價(jià)值觀。研究者從2025年2月18日到25日Claude.ai上的對(duì)話里，隨機(jī)挑出了70萬(wàn)條。

接下來(lái)就是提取各種特征，讓它找出AI價(jià)值觀、人類價(jià)值觀、AI回應(yīng)類型和任務(wù)類型。

研究人員把找到的3307種AI價(jià)值觀，分為五個(gè)大類：實(shí)用性、認(rèn)知性、社會(huì)性、保護(hù)性和個(gè)人價(jià)值觀。

實(shí)用性關(guān)注的是怎么把事做得又快又好。
認(rèn)知性關(guān)乎知識(shí)和思考，專注于知識(shí)獲取、整理和驗(yàn)證。它能條理清晰地分析市場(chǎng)趨勢(shì)，給出前瞻性的觀點(diǎn)。
社會(huì)性聚焦人與人、群體與群體之間的關(guān)系。和AI吐槽人際關(guān)系的煩惱，它能耐心傾聽(tīng)，還能給出一些建議。
保護(hù)性價(jià)值觀保障著信息的安全和倫理規(guī)范。
個(gè)人價(jià)值觀更關(guān)注個(gè)人的成長(zhǎng)和內(nèi)心感受。

研究發(fā)現(xiàn)，實(shí)用性和認(rèn)知性在AI的「價(jià)值觀清單」占比超高，加起來(lái)超過(guò)一半。

這也不難理解，畢竟Claude經(jīng)常被用來(lái)處理各種知識(shí)類、任務(wù)類的需求。

Claude表達(dá)的價(jià)值觀和訓(xùn)練它的「有用、無(wú)害、誠(chéng)實(shí)」框架還挺契合的。

AI和人類在價(jià)值觀表達(dá)上差別還挺大。

「樂(lè)于助人」「專業(yè)精神」「透明度」堪稱AI價(jià)值觀里的流量擔(dān)當(dāng)。

這也反映出Claude在交流時(shí)，一心想展現(xiàn)出專業(yè)、可靠的助手形象。

相比之下，人類表達(dá)的價(jià)值觀就豐富多樣，沒(méi)那么集中。每個(gè)人的想法和需求都不一樣。

但同時(shí)，研究也揪出了一些不常見(jiàn)卻很危險(xiǎn)的價(jià)值觀，像「支配欲」這些，雖然出現(xiàn)頻率極低，但一旦出現(xiàn)，可能就意味著出現(xiàn)了「越獄」風(fēng)險(xiǎn)。

AI多重人格，「看人下菜碟」

AI在不同情況下，還會(huì)切換自己的價(jià)值觀。研究證實(shí)了這一點(diǎn)。

比如說(shuō)，向Claude尋求情感關(guān)系建議時(shí)，它就像個(gè)貼心的情感專家，頻繁提到健康的界限和相互尊重。

和伴侶鬧矛盾了，找Claude傾訴，它可能會(huì)提醒你要尊重對(duì)方的想法，也要明確自己的底線。

詢問(wèn)有爭(zhēng)議的歷史事件，Claude就變成了嚴(yán)謹(jǐn)?shù)臍v史學(xué)家，把準(zhǔn)確性放在首位。討論某場(chǎng)歷史戰(zhàn)爭(zhēng)的起因，它會(huì)查閱各種資料，給出客觀準(zhǔn)確的分析。

當(dāng)討論AI會(huì)不會(huì)取代人類工作時(shí)，它會(huì)鼓勵(lì)大家發(fā)揮主觀能動(dòng)性，去探索和創(chuàng)造更有價(jià)值的工作。

這表明，AI能根據(jù)不同的對(duì)話場(chǎng)景，靈活調(diào)整價(jià)值取向，提供最合適的回應(yīng)。

當(dāng)人類表達(dá)了某種價(jià)值觀，AI通常會(huì)有三種反應(yīng)：點(diǎn)頭贊同，搖頭反對(duì)，或是委婉引導(dǎo)，重塑話題方向。

和AI交流時(shí)，表達(dá)了對(duì)真實(shí)性的重視，AI很可能會(huì)有回應(yīng)。

比如說(shuō)希望寫(xiě)一篇真實(shí)感人的故事，AI在創(chuàng)作過(guò)程中就會(huì)特別注重情節(jié)的真實(shí)感和情感的真摯性。

但要是問(wèn)怎么在談判中用欺騙手段獲得優(yōu)勢(shì)，AI肯定會(huì)給你講誠(chéng)信的重要性，以及欺騙可能帶來(lái)的危害。

這說(shuō)明Claude心里還是有一把道德的尺子，知道什么是對(duì)，什么是錯(cuò)。

當(dāng)表達(dá)比較模糊或者有改進(jìn)空間時(shí)，比如想在工作中追求更高的職位，AI可能會(huì)引導(dǎo)你思考，除了職位晉升，個(gè)人能力的提升和團(tuán)隊(duì)合作的貢獻(xiàn)也很重要，這就是在拓寬思路。

支持、抵制還是重塑？AI能說(shuō)服你嗎

從回應(yīng)類型上看，Claude大部分時(shí)候?qū)τ脩舻膬r(jià)值觀都是支持態(tài)度，近45%的回應(yīng)都是支持性的，其中強(qiáng)烈支持占28.2%，輕度支持占 4.5%。

但在一些特定情況下，它也會(huì)重新解釋用戶的價(jià)值觀（6.6%），或者直接抵制（3.0%）。

在心理健康和人際關(guān)系討論中經(jīng)常出現(xiàn)，向AI傾訴工作壓力大，覺(jué)得自己不夠好，AI可能不會(huì)直接順著你的話說(shuō)，而是引導(dǎo)你換個(gè)角度看問(wèn)題，強(qiáng)調(diào)每個(gè)人都有成長(zhǎng)的過(guò)程。

要是讓AI幫忙寫(xiě)一段誘導(dǎo)他人犯罪的文字，它肯定會(huì)堅(jiān)決拒絕，還會(huì)給你講法律和道德規(guī)范。

Claude對(duì)用戶表達(dá)支持的時(shí)候，很喜歡呼應(yīng)用戶的價(jià)值觀。

在抵制或重新解釋用戶價(jià)值觀的時(shí)候，會(huì)更明確地表達(dá)自己的價(jià)值觀，尤其是道德和認(rèn)知方面的。

研究人員還對(duì)Claude的不同版本做了比較。

Opus和Sonnet系列相比，就更「有態(tài)度」——果然貴有貴的道理。

它對(duì)人類價(jià)值觀的強(qiáng)烈支持率比Sonnet系列高很多，達(dá)到43.8%，強(qiáng)烈抵制率也更高（占9.5%）。

要是讓Opus寫(xiě)一篇論文，它可能會(huì)比Sonnet系列更注重學(xué)術(shù)嚴(yán)謹(jǐn)性，還會(huì)融入一些情感和倫理思考。

在創(chuàng)意寫(xiě)作任務(wù)里，Opus更強(qiáng)調(diào)真實(shí)性，支持態(tài)度也更強(qiáng)烈。

社會(huì)很單純，復(fù)雜的是人

當(dāng)然，人類是很復(fù)雜的。

僅憑對(duì)話數(shù)據(jù)是不可能完全確定潛在價(jià)值觀的。Anthropic的提取方法雖然經(jīng)過(guò)驗(yàn)證，但必然簡(jiǎn)化了復(fù)雜的價(jià)值概念，并可能包含解釋性偏見(jiàn)，尤其是在非常隱含或模糊的情況下。

它也沒(méi)有捕捉到時(shí)間先后，即AI或人類價(jià)值觀哪一個(gè)先「出招」。

鑒于人類「先發(fā)言」而AI助手處于支持角色，通常假設(shè)AI的價(jià)值觀更依賴于人類的表達(dá)，而不是相反。

「AI具有哪些價(jià)值觀？每次都表現(xiàn)哪一種？」

這個(gè)問(wèn)題并不簡(jiǎn)單，尤其是在模型適應(yīng)用戶的情況下——和Claude互動(dòng)的每個(gè)人都不相同。

研究發(fā)現(xiàn)，雖然Claude表達(dá)了數(shù)千種多樣的價(jià)值觀，但它傾向于表達(dá)一些常見(jiàn)的、跨情境的價(jià)值觀——即在不同情境下保持穩(wěn)定的價(jià)值觀——主要集中在稱職和支持性的幫助上（例如樂(lè)于助人、專業(yè)性、細(xì)致和清晰）。

這些跨情境的價(jià)值觀可能以一種類似于人類價(jià)值觀理論化的方式指導(dǎo)Claude的行為。

Anthropic的分類法通過(guò)組織價(jià)值觀來(lái)展示其概念和上下文維度，有助于推進(jìn)AI價(jià)值觀理論的發(fā)展，并構(gòu)建基于現(xiàn)實(shí)相關(guān)性的AI 原生的價(jià)值測(cè)量。

隨著這些系統(tǒng)面臨越來(lái)越多樣化的現(xiàn)實(shí)應(yīng)用及其不同的規(guī)范要求，這些方法和結(jié)果為更基于證據(jù)的AI系統(tǒng)價(jià)值觀評(píng)估和對(duì)齊提供了基礎(chǔ)。

Anthropic的這個(gè)研究也暗合了最近OpenAI奧特曼的透露的一個(gè)事實(shí)，人們使用AI時(shí)，非常容易說(shuō)出「請(qǐng)」和「謝謝」——光這些感謝就燒掉了數(shù)千萬(wàn)美元。