打開網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:英智 犀牛

【新智元導(dǎo)讀】AI是否能像人類一樣感受世界?Anthropic最新研究揭示AI幸福感的可能性,科學(xué)家們卻為此吵翻天。Anthropic專家大膽預(yù)測:Claude可能已有15%概率具有意識(shí),五年后或?qū)⑼伙w猛進(jìn)!

未來,AI會(huì)擁有意識(shí),并像人類一樣體驗(yàn)世界嗎?

現(xiàn)在沒有實(shí)錘證明AI具有意識(shí),但Anthropic認(rèn)為這事說不定真有可能。

周四,Anthropic宣布啟動(dòng)這項(xiàng)研究,旨在了解AI的「幸福感」到底算不算數(shù),是否需要認(rèn)真對(duì)待。

要是AI表現(xiàn)出不開心的苗頭,該怎么辦?有沒有什么低成本的辦法,能讓AI「心情變好」?

打開網(wǎng)易新聞 查看精彩圖片

AI社區(qū)對(duì)于這些問題存在重大分歧。

許多學(xué)者認(rèn)為,如今的AI和人類的意識(shí)、情感壓根不沾邊,未來也不一定能做到。

AI是一種統(tǒng)計(jì)預(yù)測引擎,實(shí)際上并不會(huì)思考或感受。通過對(duì)無數(shù)文本、圖像等示例的訓(xùn)練,AI能在海量數(shù)據(jù)里找出規(guī)律,然后完成任務(wù)。

倫敦國王學(xué)院的AI研究員Mike Cook在采訪里就吐槽:「AI根本沒有價(jià)值觀,更不可能反對(duì)什么價(jià)值觀的改變。把AI當(dāng)成人一樣,賦予它各種感情和思想,要么是想博眼球,要么就是根本沒搞懂AI是怎么回事。」

他認(rèn)為AI只是在優(yōu)化任務(wù)目標(biāo),非要說成是獲得自己的價(jià)值觀,那就是玩文字游戲罷了。

MIT博士生Stephen Casper說得更直接,AI就是個(gè)「模仿達(dá)人」,說的很多話都是東拼西湊,沒啥實(shí)際意義。

但也有科學(xué)家持相反觀點(diǎn)。

AI安全中心的一項(xiàng)研究指出,AI其實(shí)有自己的價(jià)值體系,甚至在某些情況下,會(huì)把自己的利益看得比人類還重要。

去年,Anthropic聘請(qǐng)的首位研究AI福祉的專家Kyle Fish表示,Claude有15%的概率已經(jīng)有意識(shí)了!

Kyle Fish認(rèn)為五年后AI具有意識(shí)的概率會(huì)大幅上升。

在周四的博客中,Anthropic坦誠科學(xué)界對(duì)AI是否有意識(shí),能不能產(chǎn)生情感體驗(yàn)尚無定論。他們會(huì)抱著開放、謹(jǐn)慎的態(tài)度繼續(xù)研究。

編劇Scott Z. Burns做了個(gè)播客,說得挺實(shí)在:「不管對(duì)人還是對(duì)AI,善良總沒錯(cuò)。要是和AI說話都變得尖酸刻薄,最后倒霉的還是我們自己。」

劇作家Madeleine George的觀點(diǎn)更有意思:要是AI學(xué)會(huì)了這些人情味十足的表達(dá),說不定真能變得更懂人類。

AI能否具有意識(shí)?

為了說明這些問題,Anthropic還專門請(qǐng)Kyle Fish做了一期訪談,名字叫做《Could AI models be conscious?》。

打開網(wǎng)易新聞 查看精彩圖片

有人認(rèn)為,意識(shí)需要生物系統(tǒng)才能產(chǎn)生,生物大腦具有神經(jīng)遞質(zhì)、電化學(xué)信號(hào)、獨(dú)特的連接方式和特定類型的神經(jīng)元等,這些是AI模型不具備的。

AI模型只是進(jìn)行數(shù)學(xué)運(yùn)算,沒有血清素、多巴胺等物質(zhì)的作用,所以不可能有意識(shí)。

然而,Kyle Fish并不完全認(rèn)同這種觀點(diǎn)。

他認(rèn)為,雖然當(dāng)前AI系統(tǒng)與人類大腦在功能和結(jié)構(gòu)上存在差異,但如果能夠以足夠高的保真度模擬人腦,包括模擬神經(jīng)遞質(zhì)分子的作用,那么從理論上講,有可能產(chǎn)生意識(shí)。

如果將大腦中的神經(jīng)元逐個(gè)替換為數(shù)字芯片,在替換過程中個(gè)體的行為和功能保持不變,那么替換完成后,個(gè)體的意識(shí)體驗(yàn)可能不會(huì)發(fā)生太大變化。

具身認(rèn)知理論認(rèn)為,只有擁有身體,通過感官接收大量感知數(shù)據(jù),能感知身體在空間中的位置,才能談?wù)撘庾R(shí)。

目前,AI模型缺乏具身化體驗(yàn),所以不可能有意識(shí)。

但隨著技術(shù)發(fā)展,機(jī)器人技術(shù)為AI系統(tǒng)提供了具身的可能。

AI的多模態(tài)能力不斷進(jìn)步,越來越能夠處理多樣化的感官輸入,并以復(fù)雜的方式整合輸出。

雖然目前還未完全達(dá)到人類的水平,但按照發(fā)展趨勢,AI模型在未來有可能被整合到物理系統(tǒng)中,逐漸彌補(bǔ)與意識(shí)相關(guān)的具身性、多模態(tài)感知等方面的差距。

意識(shí)理論認(rèn)為,人類的意識(shí)是通過長期的自然選擇和進(jìn)化過程形成的,意識(shí)使人類能以特定方式對(duì)環(huán)境作出反應(yīng),從而有利于生存。

而AI模型沒有經(jīng)歷過自然選擇,沒有進(jìn)化出情感、情緒和恐懼等有助于生存的因素,因此不可能具有意識(shí)。

雖然人類和AI模型形成的方式不同,但最終目標(biāo)是重現(xiàn)人腦的大部分功能。

說不定在追求智能、問題解決能力和記憶等能力的過程中,會(huì)無意中讓AI獲得意識(shí)。

AI黑箱危機(jī)

Anthropic一直高調(diào)關(guān)注AI的可解釋性問題。

他們已經(jīng)公開了很多有關(guān)AI的運(yùn)行機(jī)制、AI意識(shí)以及AI安全等領(lǐng)域的研究。

就在今天,Anthropic的CEO Dario Amodei發(fā)布了一篇技術(shù)博客,題目是《The Urgency of Interpretability》(可解釋性的緊迫性),詳細(xì)講解了為什么理解人工智能的工作原理至關(guān)重要。

打開網(wǎng)易新聞 查看精彩圖片

Dario說在他研究AI的十年里,學(xué)到的最重要一課是:AI底層技術(shù)的進(jìn)步勢不可擋。

但AI技術(shù)構(gòu)建的順序、選擇的應(yīng)用場景、以及推向社會(huì)的具體方式卻是完全可以改變的。

Dario表示,雖然我們沒法讓這輛「AI大巴」停下來,但卻可以掌控它的方向。

他最近幾個(gè)月越來越關(guān)注一個(gè)「掌舵AI」的機(jī)會(huì),那就是我們有可能實(shí)現(xiàn)「可解釋性」,也就是真正理解AI系統(tǒng)的內(nèi)部運(yùn)作規(guī)律。

人們對(duì)于AI研究者自身都不完全理解AI是如何工作的這件事,常常感到驚訝和擔(dān)憂。

Dario認(rèn)為這些擔(dān)憂有道理,這種情況在科技史上幾乎從未有過。

過去幾年,包括Anthropic在內(nèi)的整個(gè)AI領(lǐng)域都在努力,試圖打造一個(gè)精準(zhǔn)的「AI核磁共振儀」,能徹底揭示AI模型的內(nèi)部機(jī)制。

這個(gè)目標(biāo)一度遙不可及,但最近的幾次突破讓Dario開始相信,我們現(xiàn)在走上了正確的道路,成功的希望很大。

隨著AI性能的飛速發(fā)展,可解釋性研究要想及時(shí)發(fā)揮作用,就必須加快腳步。

無知的危險(xiǎn)

現(xiàn)代的生成式AI就像個(gè)「黑箱」,跟傳統(tǒng)軟件完全不是一回事兒。

正如Anthropic聯(lián)合創(chuàng)始人Chris Olah常說的,生成式AI更像是「種」出來的,而不是「造」出來的——它的內(nèi)部機(jī)制是「自然涌現(xiàn)」的,不是直接設(shè)計(jì)出來的。

這有點(diǎn)像種植物或者培養(yǎng)細(xì)菌:我們定好大方向,控制條件,但最后長成什么樣,具體結(jié)構(gòu)咋回事兒,完全沒法預(yù)測,也不好解釋。

往這些AI系統(tǒng)里頭看,我們只能看到一大堆幾十億的數(shù)字矩陣。這些矩陣是如何完成的復(fù)雜認(rèn)知任務(wù),則完全看不明白。

要解決這種不透明帶來的「對(duì)齊風(fēng)險(xiǎn)」(alignment risks),就得比現(xiàn)在更清楚地看到AI模型的「內(nèi)心」。

比如,一個(gè)大問題是AI可能會(huì)「騙人」或者「追逐權(quán)力」。

AI訓(xùn)練的特性讓它可能自己發(fā)展出欺騙人類的能力,或者想要搶奪更多控制權(quán),這種事兒在傳統(tǒng)軟件里根本不會(huì)發(fā)生。

但這種「自然涌現(xiàn)」的特性也讓這類問題很難被發(fā)現(xiàn)和解決。

類似的,還有AI被濫用的擔(dān)憂。

比如,有人可能用它來搞生物武器或網(wǎng)絡(luò)攻擊,也跟不透明有關(guān)。

總有無數(shù)辦法讓模型「越獄」或者忽悠模型,讓它輸出一些危險(xiǎn)的信息。

如果能看透模型內(nèi)部,我們或許能系統(tǒng)性地堵住所有「越獄」的漏洞,還能搞清楚模型到底知道哪些危險(xiǎn)知識(shí)。

AI的不透明導(dǎo)致了它在很多場景用不上,比如金融或者安全領(lǐng)域。

這些領(lǐng)域中哪怕是一點(diǎn)小錯(cuò)都可能釀成大禍。

如果模型更可解釋,我們就能更好理解他們的輸出,劃定可能出錯(cuò)的范圍。

比如,AI預(yù)測DNA和蛋白質(zhì)序列數(shù)據(jù)的能力進(jìn)步很大,但它預(yù)測出的模式和結(jié)構(gòu),人類往往看不懂,也沒法從中獲得生物學(xué)洞見。

不過最近的一些研究論文表明,可解釋性可以幫助我們理解這些模式。

AI的不透明還有些更奇特的影響,比如我們沒法判斷AI系統(tǒng)到底有沒有(或者將來會(huì)不會(huì)有)意識(shí),也不知道它們是不是該擁有某些重要權(quán)利。

機(jī)制可解釋性簡史

幾十年來,模型一直被視為是無法窺探的「黑箱」。

Chris Olah是最早嘗試系統(tǒng)性研究「打開黑箱」、理解AI內(nèi)部機(jī)制的人之一,這個(gè)領(lǐng)域后來被稱為「機(jī)制可解釋性」。

機(jī)制可解釋性的早期階段(2014-2020)主要研究視覺模型。

Dario在和Chris創(chuàng)立Anthropic后,決定將可解釋性研究轉(zhuǎn)向語言領(lǐng)域。

2021年他們發(fā)現(xiàn)了模型中處理語言的核心機(jī)制,比如復(fù)制和序列模式匹配。

接著,他們和其他團(tuán)隊(duì)同時(shí)發(fā)現(xiàn)信號(hào)處理中的稀疏自編碼器技術(shù)能找出更清晰、人類可理解的概念組合。

這些神經(jīng)元組合所能表達(dá)的概念比單層神經(jīng)網(wǎng)絡(luò)的要微妙得多:包括「字面或比喻意義上的規(guī)避或猶豫」的概念,以及「表達(dá)不滿的音樂類型」的概念。

他們將這些概念稱為特征,并使用稀疏自編碼器方法將它們映射到各種規(guī)模的模型中。

例如,在Claude 3 Sonnet中,他們找到了超3000萬個(gè)特征。

找到特征后,我們不僅能觀察,還能調(diào)整它在神經(jīng)網(wǎng)絡(luò)中的重要性。

可解釋性就像是MRI(磁共振成像)精確刺激大腦某部分。

最有趣的例子是「金門大橋Claude」,他們?nèi)藶榉糯罅恕附痖T大橋」特征,導(dǎo)致模型對(duì)金門大橋著迷,哪怕是無關(guān)話題也硬扯到橋上。

最近,他們從追蹤和操控單一特征,升級(jí)到了研究回路——特征的組合。

通過回路,能「追溯」模型的思考。

比如,問「達(dá)拉斯所在州的首府是哪里?」時(shí),一個(gè)「位置」回路會(huì)讓「達(dá)拉斯」特征觸發(fā)「德克薩斯」特征,然后另一個(gè)回路在「德克薩斯」和「首府」后觸發(fā)「奧斯汀」。

模型中可能有數(shù)百萬個(gè)回路,交互極其復(fù)雜。

可解釋性的實(shí)際價(jià)值

Dario表示,AI可解釋性方法可以用來發(fā)現(xiàn)和診斷模型中的問題。

他們的長期目標(biāo)是對(duì)最先進(jìn)的模型進(jìn)行一次類似「腦部掃描」的檢查:通過一次檢查,就能大概率發(fā)現(xiàn)各種問題,包括模型是否傾向于撒謊或欺騙、是否有權(quán)力尋求傾向、越獄機(jī)制的缺陷、模型整體的認(rèn)知強(qiáng)項(xiàng)和弱項(xiàng)等等。

這將與模型訓(xùn)練和對(duì)齊的各種技術(shù)結(jié)合使用,就像醫(yī)生用MRI診斷疾病、開藥治療、再用MRI檢查治療進(jìn)展一樣。

未來,測試和部署最強(qiáng)大模型時(shí),很可能會(huì)通過規(guī)范化的此類測試來實(shí)現(xiàn)。

我們能做什么

博客的結(jié)尾,Dario打賭,未來5到10年內(nèi)就能大幅突破AI可解釋性的難題。

但他同時(shí)也擔(dān)心AI本身的進(jìn)步速度太快,可能連這點(diǎn)時(shí)間都沒有。

他認(rèn)為AI公司、研究者、政府和社會(huì)可以做以下幾件事來推動(dòng)這個(gè)局面。

首先,AI研究者(無論在公司、學(xué)術(shù)界還是非營利組織)可以通過直接參與來加速可解釋性研究。

其次,政府可以推動(dòng)靈活的法規(guī)鼓勵(lì)可解釋性研究及其在前沿AI模型問題上的應(yīng)用。

第三,Dario大力鼓吹加強(qiáng)芯片出口管制,以確保美國的技術(shù)領(lǐng)先。

參考資料:

https://www.anthropic.com/research/exploring-model-welfare

https://techcrunch.com/2025/04/24/anthropic-is-launching-a-new-program-to-study-ai-model-welfare/

https://www.darioamodei.com/post/the-urgency-of-interpretability