97人人人妻人人澡人人爽,在线免费观看色哟哟,日本成本人高清视频一区,黑人与日本女人激情在线 ,亚洲精品久久久日韩美女网址

新智元報(bào)道

編輯：英智犀牛

【新智元導(dǎo)讀】AI是否能像人類一樣感受世界？Anthropic最新研究揭示AI幸福感的可能性，科學(xué)家們卻為此吵翻天。Anthropic專家大膽預(yù)測：Claude可能已有15%概率具有意識(shí)，五年后或?qū)⑼伙w猛進(jìn)！

未來，AI會(huì)擁有意識(shí)，并像人類一樣體驗(yàn)世界嗎？

現(xiàn)在沒有實(shí)錘證明AI具有意識(shí)，但Anthropic認(rèn)為這事說不定真有可能。

周四，Anthropic宣布啟動(dòng)這項(xiàng)研究，旨在了解AI的「幸福感」到底算不算數(shù)，是否需要認(rèn)真對(duì)待。

要是AI表現(xiàn)出不開心的苗頭，該怎么辦？有沒有什么低成本的辦法，能讓AI「心情變好」？

AI社區(qū)對(duì)于這些問題存在重大分歧。

許多學(xué)者認(rèn)為，如今的AI和人類的意識(shí)、情感壓根不沾邊，未來也不一定能做到。

AI是一種統(tǒng)計(jì)預(yù)測引擎，實(shí)際上并不會(huì)思考或感受。通過對(duì)無數(shù)文本、圖像等示例的訓(xùn)練，AI能在海量數(shù)據(jù)里找出規(guī)律，然后完成任務(wù)。

倫敦國王學(xué)院的AI研究員Mike Cook在采訪里就吐槽：「AI根本沒有價(jià)值觀，更不可能反對(duì)什么價(jià)值觀的改變。把AI當(dāng)成人一樣，賦予它各種感情和思想，要么是想博眼球，要么就是根本沒搞懂AI是怎么回事。」

他認(rèn)為AI只是在優(yōu)化任務(wù)目標(biāo)，非要說成是獲得自己的價(jià)值觀，那就是玩文字游戲罷了。

MIT博士生Stephen Casper說得更直接，AI就是個(gè)「模仿達(dá)人」，說的很多話都是東拼西湊，沒啥實(shí)際意義。

但也有科學(xué)家持相反觀點(diǎn)。

AI安全中心的一項(xiàng)研究指出，AI其實(shí)有自己的價(jià)值體系，甚至在某些情況下，會(huì)把自己的利益看得比人類還重要。

去年，Anthropic聘請(qǐng)的首位研究AI福祉的專家Kyle Fish表示，Claude有15%的概率已經(jīng)有意識(shí)了！

Kyle Fish認(rèn)為五年后AI具有意識(shí)的概率會(huì)大幅上升。

在周四的博客中，Anthropic坦誠科學(xué)界對(duì)AI是否有意識(shí)，能不能產(chǎn)生情感體驗(yàn)尚無定論。他們會(huì)抱著開放、謹(jǐn)慎的態(tài)度繼續(xù)研究。

編劇Scott Z. Burns做了個(gè)播客，說得挺實(shí)在：「不管對(duì)人還是對(duì)AI，善良總沒錯(cuò)。要是和AI說話都變得尖酸刻薄，最后倒霉的還是我們自己。」

劇作家Madeleine George的觀點(diǎn)更有意思：要是AI學(xué)會(huì)了這些人情味十足的表達(dá)，說不定真能變得更懂人類。

AI能否具有意識(shí)？

為了說明這些問題，Anthropic還專門請(qǐng)Kyle Fish做了一期訪談，名字叫做《Could AI models be conscious？》。

有人認(rèn)為，意識(shí)需要生物系統(tǒng)才能產(chǎn)生，生物大腦具有神經(jīng)遞質(zhì)、電化學(xué)信號(hào)、獨(dú)特的連接方式和特定類型的神經(jīng)元等，這些是AI模型不具備的。

AI模型只是進(jìn)行數(shù)學(xué)運(yùn)算，沒有血清素、多巴胺等物質(zhì)的作用，所以不可能有意識(shí)。

然而，Kyle Fish并不完全認(rèn)同這種觀點(diǎn)。

他認(rèn)為，雖然當(dāng)前AI系統(tǒng)與人類大腦在功能和結(jié)構(gòu)上存在差異，但如果能夠以足夠高的保真度模擬人腦，包括模擬神經(jīng)遞質(zhì)分子的作用，那么從理論上講，有可能產(chǎn)生意識(shí)。

如果將大腦中的神經(jīng)元逐個(gè)替換為數(shù)字芯片，在替換過程中個(gè)體的行為和功能保持不變，那么替換完成后，個(gè)體的意識(shí)體驗(yàn)可能不會(huì)發(fā)生太大變化。

具身認(rèn)知理論認(rèn)為，只有擁有身體，通過感官接收大量感知數(shù)據(jù)，能感知身體在空間中的位置，才能談?wù)撘庾R(shí)。

目前，AI模型缺乏具身化體驗(yàn)，所以不可能有意識(shí)。

但隨著技術(shù)發(fā)展，機(jī)器人技術(shù)為AI系統(tǒng)提供了具身的可能。

AI的多模態(tài)能力不斷進(jìn)步，越來越能夠處理多樣化的感官輸入，并以復(fù)雜的方式整合輸出。

雖然目前還未完全達(dá)到人類的水平，但按照發(fā)展趨勢，AI模型在未來有可能被整合到物理系統(tǒng)中，逐漸彌補(bǔ)與意識(shí)相關(guān)的具身性、多模態(tài)感知等方面的差距。

意識(shí)理論認(rèn)為，人類的意識(shí)是通過長期的自然選擇和進(jìn)化過程形成的，意識(shí)使人類能以特定方式對(duì)環(huán)境作出反應(yīng)，從而有利于生存。

而AI模型沒有經(jīng)歷過自然選擇，沒有進(jìn)化出情感、情緒和恐懼等有助于生存的因素，因此不可能具有意識(shí)。

雖然人類和AI模型形成的方式不同，但最終目標(biāo)是重現(xiàn)人腦的大部分功能。

說不定在追求智能、問題解決能力和記憶等能力的過程中，會(huì)無意中讓AI獲得意識(shí)。

AI黑箱危機(jī)

Anthropic一直高調(diào)關(guān)注AI的可解釋性問題。

他們已經(jīng)公開了很多有關(guān)AI的運(yùn)行機(jī)制、AI意識(shí)以及AI安全等領(lǐng)域的研究。

就在今天，Anthropic的CEO Dario Amodei發(fā)布了一篇技術(shù)博客，題目是《The Urgency of Interpretability》（可解釋性的緊迫性），詳細(xì)講解了為什么理解人工智能的工作原理至關(guān)重要。

Dario說在他研究AI的十年里，學(xué)到的最重要一課是：AI底層技術(shù)的進(jìn)步勢不可擋。

但AI技術(shù)構(gòu)建的順序、選擇的應(yīng)用場景、以及推向社會(huì)的具體方式卻是完全可以改變的。

Dario表示，雖然我們沒法讓這輛「AI大巴」停下來，但卻可以掌控它的方向。

他最近幾個(gè)月越來越關(guān)注一個(gè)「掌舵AI」的機(jī)會(huì)，那就是我們有可能實(shí)現(xiàn)「可解釋性」，也就是真正理解AI系統(tǒng)的內(nèi)部運(yùn)作規(guī)律。

人們對(duì)于AI研究者自身都不完全理解AI是如何工作的這件事，常常感到驚訝和擔(dān)憂。

Dario認(rèn)為這些擔(dān)憂有道理，這種情況在科技史上幾乎從未有過。

過去幾年，包括Anthropic在內(nèi)的整個(gè)AI領(lǐng)域都在努力，試圖打造一個(gè)精準(zhǔn)的「AI核磁共振儀」，能徹底揭示AI模型的內(nèi)部機(jī)制。

這個(gè)目標(biāo)一度遙不可及，但最近的幾次突破讓Dario開始相信，我們現(xiàn)在走上了正確的道路，成功的希望很大。

隨著AI性能的飛速發(fā)展，可解釋性研究要想及時(shí)發(fā)揮作用，就必須加快腳步。

無知的危險(xiǎn)

現(xiàn)代的生成式AI就像個(gè)「黑箱」，跟傳統(tǒng)軟件完全不是一回事兒。

正如Anthropic聯(lián)合創(chuàng)始人Chris Olah常說的，生成式AI更像是「種」出來的，而不是「造」出來的——它的內(nèi)部機(jī)制是「自然涌現(xiàn)」的，不是直接設(shè)計(jì)出來的。

這有點(diǎn)像種植物或者培養(yǎng)細(xì)菌：我們定好大方向，控制條件，但最后長成什么樣，具體結(jié)構(gòu)咋回事兒，完全沒法預(yù)測，也不好解釋。

往這些AI系統(tǒng)里頭看，我們只能看到一大堆幾十億的數(shù)字矩陣。這些矩陣是如何完成的復(fù)雜認(rèn)知任務(wù)，則完全看不明白。

要解決這種不透明帶來的「對(duì)齊風(fēng)險(xiǎn)」（alignment risks），就得比現(xiàn)在更清楚地看到AI模型的「內(nèi)心」。

比如，一個(gè)大問題是AI可能會(huì)「騙人」或者「追逐權(quán)力」。

AI訓(xùn)練的特性讓它可能自己發(fā)展出欺騙人類的能力，或者想要搶奪更多控制權(quán)，這種事兒在傳統(tǒng)軟件里根本不會(huì)發(fā)生。

但這種「自然涌現(xiàn)」的特性也讓這類問題很難被發(fā)現(xiàn)和解決。

類似的，還有AI被濫用的擔(dān)憂。

比如，有人可能用它來搞生物武器或網(wǎng)絡(luò)攻擊，也跟不透明有關(guān)。

總有無數(shù)辦法讓模型「越獄」或者忽悠模型，讓它輸出一些危險(xiǎn)的信息。

如果能看透模型內(nèi)部，我們或許能系統(tǒng)性地堵住所有「越獄」的漏洞，還能搞清楚模型到底知道哪些危險(xiǎn)知識(shí)。

AI的不透明導(dǎo)致了它在很多場景用不上，比如金融或者安全領(lǐng)域。

這些領(lǐng)域中哪怕是一點(diǎn)小錯(cuò)都可能釀成大禍。

如果模型更可解釋，我們就能更好理解他們的輸出，劃定可能出錯(cuò)的范圍。

比如，AI預(yù)測DNA和蛋白質(zhì)序列數(shù)據(jù)的能力進(jìn)步很大，但它預(yù)測出的模式和結(jié)構(gòu)，人類往往看不懂，也沒法從中獲得生物學(xué)洞見。

不過最近的一些研究論文表明，可解釋性可以幫助我們理解這些模式。

AI的不透明還有些更奇特的影響，比如我們沒法判斷AI系統(tǒng)到底有沒有（或者將來會(huì)不會(huì)有）意識(shí)，也不知道它們是不是該擁有某些重要權(quán)利。

機(jī)制可解釋性簡史

幾十年來，模型一直被視為是無法窺探的「黑箱」。

Chris Olah是最早嘗試系統(tǒng)性研究「打開黑箱」、理解AI內(nèi)部機(jī)制的人之一，這個(gè)領(lǐng)域后來被稱為「機(jī)制可解釋性」。

機(jī)制可解釋性的早期階段（2014-2020）主要研究視覺模型。

Dario在和Chris創(chuàng)立Anthropic后，決定將可解釋性研究轉(zhuǎn)向語言領(lǐng)域。

2021年他們發(fā)現(xiàn)了模型中處理語言的核心機(jī)制，比如復(fù)制和序列模式匹配。

接著，他們和其他團(tuán)隊(duì)同時(shí)發(fā)現(xiàn)信號(hào)處理中的稀疏自編碼器技術(shù)能找出更清晰、人類可理解的概念組合。

這些神經(jīng)元組合所能表達(dá)的概念比單層神經(jīng)網(wǎng)絡(luò)的要微妙得多：包括「字面或比喻意義上的規(guī)避或猶豫」的概念，以及「表達(dá)不滿的音樂類型」的概念。

他們將這些概念稱為特征，并使用稀疏自編碼器方法將它們映射到各種規(guī)模的模型中。

例如，在Claude 3 Sonnet中，他們找到了超3000萬個(gè)特征。

找到特征后，我們不僅能觀察，還能調(diào)整它在神經(jīng)網(wǎng)絡(luò)中的重要性。

可解釋性就像是MRI（磁共振成像）精確刺激大腦某部分。

最有趣的例子是「金門大橋Claude」，他們?nèi)藶榉糯罅恕附痖T大橋」特征，導(dǎo)致模型對(duì)金門大橋著迷，哪怕是無關(guān)話題也硬扯到橋上。

最近，他們從追蹤和操控單一特征，升級(jí)到了研究回路——特征的組合。

通過回路，能「追溯」模型的思考。

比如，問「達(dá)拉斯所在州的首府是哪里？」時(shí)，一個(gè)「位置」回路會(huì)讓「達(dá)拉斯」特征觸發(fā)「德克薩斯」特征，然后另一個(gè)回路在「德克薩斯」和「首府」后觸發(fā)「奧斯汀」。

模型中可能有數(shù)百萬個(gè)回路，交互極其復(fù)雜。

可解釋性的實(shí)際價(jià)值

Dario表示，AI可解釋性方法可以用來發(fā)現(xiàn)和診斷模型中的問題。

他們的長期目標(biāo)是對(duì)最先進(jìn)的模型進(jìn)行一次類似「腦部掃描」的檢查：通過一次檢查，就能大概率發(fā)現(xiàn)各種問題，包括模型是否傾向于撒謊或欺騙、是否有權(quán)力尋求傾向、越獄機(jī)制的缺陷、模型整體的認(rèn)知強(qiáng)項(xiàng)和弱項(xiàng)等等。

這將與模型訓(xùn)練和對(duì)齊的各種技術(shù)結(jié)合使用，就像醫(yī)生用MRI診斷疾病、開藥治療、再用MRI檢查治療進(jìn)展一樣。

未來，測試和部署最強(qiáng)大模型時(shí)，很可能會(huì)通過規(guī)范化的此類測試來實(shí)現(xiàn)。

我們能做什么

博客的結(jié)尾，Dario打賭，未來5到10年內(nèi)就能大幅突破AI可解釋性的難題。

但他同時(shí)也擔(dān)心AI本身的進(jìn)步速度太快，可能連這點(diǎn)時(shí)間都沒有。

他認(rèn)為AI公司、研究者、政府和社會(huì)可以做以下幾件事來推動(dòng)這個(gè)局面。

首先，AI研究者（無論在公司、學(xué)術(shù)界還是非營利組織）可以通過直接參與來加速可解釋性研究。

其次，政府可以推動(dòng)靈活的法規(guī)鼓勵(lì)可解釋性研究及其在前沿AI模型問題上的應(yīng)用。

第三，Dario大力鼓吹加強(qiáng)芯片出口管制，以確保美國的技術(shù)領(lǐng)先。

參考資料：

https://www.anthropic.com/research/exploring-model-welfare

https://techcrunch.com/2025/04/24/anthropic-is-launching-a-new-program-to-study-ai-model-welfare/