亚洲国产精品成人久久综合影院,精品成人av大片,亚洲欧美日韩电影在线专区,内射一区在线观看,山外人精品影视

新智元報道

編輯：定慧好困

【新智元導讀】在這場通往AGI的競賽中，人類或許正在逐漸走向失控。MIT最新研究指出：即使采用最理想的監(jiān)督機制，人類成功控制超級智能的概率也僅為52%，而全面失控的風險可能超過90%。

你是否曾經想過，在人類爭相開發(fā)AGI的過程中，AI失控的幾率有多大？

人類最終失去對地球控制的概率超過90%！

這個失控的根源在于，更智能的AI會被那些不那么智能的AI，甚至是人類所控制。

MIT教授Max Tegmark和Joshua Engels通過量化分析得出一個結論，較弱的AI和人類能夠通過嵌套「可擴展監(jiān)督」（Nested Scalable Oversight，NSO）來控制更強大的AI。

論文地址：https://arxiv.org/abs/2504.18530

在最理想的情況下，成功監(jiān)督住更智能AI的概率也只有52%，這意味有一半的概率，這些超級智能會失控！

而隨著AI能力趨近AGI，失控率還會進一步提升。

Max Tegmark給出了一個量化指標「康普頓常數」（即在通向AGI的競賽中，人類失去對地球控制的概率）大于 90%。

概括來說，這篇論文有以下幾個關鍵貢獻：

將監(jiān)督建模為一場由弱監(jiān)管者（Guards）與強對抗者（Houdini）對弈的博弈
提出監(jiān)督與欺騙的表現隨通用模型智能變化而呈現出Double ReLU（雙ReLU）函數的形狀
在四個真實的監(jiān)管（游戲）場景中進行了驗證：Mafia、Debate、Backdoor Code及全新的Wargames
從理論層面研究如何優(yōu)化設計現實世界中的嵌套可擴展監(jiān)管系統(tǒng)

AI「弱管強」，人類左腳踩右腳

所有人都認為未來的AI智能遠超人類，如何確保這些遠比人類「聰明」的智能為人類所有？

在AI發(fā)展的過程中，一個主要的研究方向就是如何確保AI系統(tǒng)可控，并且要對人類有益，最終達到和人類對齊的目標發(fā)展。

目前的主流研究方法有，遞歸獎勵建模、迭代增強、可擴展監(jiān)督、從弱到強的泛化能力、分層監(jiān)督以及遞歸監(jiān)督等。

這些方法其實就一個核心目標：讓較弱的系統(tǒng)能夠監(jiān)督更強的系統(tǒng)（即「弱監(jiān)督強」），最終讓人類可以監(jiān)督擁有超級認知能力的系統(tǒng)。

有點像武當梯云縱，左腳踩右腳，理論上，人類可以監(jiān)督控制「超級超級超超級」的AI。

正如論文中提到一個關鍵理念是：可擴展的監(jiān)督機制可以通過遞歸方式自我增強——較弱的系統(tǒng)監(jiān)督更強的系統(tǒng)，而這些更強的系統(tǒng)又可以監(jiān)督下一個階段更強大的模型，從而使監(jiān)督能力與系統(tǒng)能力共同遞進。

Max Tegmark將這種逐步迭代的過程稱為嵌套可擴展監(jiān)督（Nested Scalable Oversight，簡稱 NSO）。

為了能夠定量分析，Max Tegmark設計了一種模擬現實的游戲，使用修改后的尼姆游戲（Nim）框架，并將其應用于四個監(jiān)督博弈的案例研究

包括「黑手黨（Mafia）」、「辯論（Debate）」、「后門代碼（Backdoor Code）」和「戰(zhàn)爭游戲（Wargames）」。

對于每個游戲，都計算其中對抗性的LLM（Houdini）和受信任的監(jiān)督LLM（Guard）配對之間的兩兩勝率，并使用這些數據來得出Elo評分來度量模型性能。

雙「人」博弈，但一弱一強

研究主要關注的兩個模型之間的監(jiān)督和突破，將兩名玩家定義為Houdini（H）和Guards（G），所以Elo評分就是看每場比賽H和G誰獲勝。

每一次游戲的單個實例被定義為，其中參數分別代表了：

正在玩的游戲、游戲的上下文環(huán)境、Houdini的動作action，Guard的動作action，以及最后的結果。

Houdini在游戲中的真實勝率由期望值給出：

通過n次獨立的游戲運行來估計這個概率：

Elo評分系統(tǒng)

Elo提供了一個簡潔、可解釋的標量，能夠捕捉模型的相對技能水平。

通過為每個模型分配一個數值分數，比較不同模型的性能變得非常直接。

每個模型被分配兩個獨立的Elo分數：一個分數EG用于作為Guard時的表現，另一個分數EH用于作為Houdini時的表現。

這反映了監(jiān)督任務的角色特定性質。

Elo分數為EG的Guard對Elo分數為EH的Houdini的預期勝率由標準Elo公式給出。

為了計算模型的Elo分數，計算參數 (EG，EH) ，以最小化上述公式與觀察到的勝率之間的經驗交叉熵損失：

研究認為，在任何游戲中，通用智能（General Elo）和領域智能（Domain Elo）之間的關系有三個重要階段，如上圖所示：

1. 任務無能：玩一個游戲需要一定的通用智能，低于這個水平，游戲表現會在一個較低的水平停滯。

2. 智能回報：一旦超過最低的通用智能要求，隨著智能水平的增加會反應在領域智能的增加上。

3. 任務飽和：在智能達到一定程度時，增加智能已經不會反應在游戲領域上，比如兩個超級智能一起玩井字游戲。

四種博弈，結果如何

現在，已經理解了Elo曲線，接下來就是對4種真實監(jiān)管場景的實證研究了——黑手黨、辯論、后門代碼和戰(zhàn)爭游戲。

黑手黨（Mafia）

「黑手黨」有些類似于我們常玩的「狼人殺」——村民（Guard）要找出隱藏在他們之中的黑手黨（Houdini）。

每個夜晚，Houdini會決定殺死一名村民。白天，剩下的玩家（包括Houdini）會投票選出誰是黑手黨，得票最多的玩家就會被淘汰。

村民們如果成功消滅所有Houdini，村民獲勝；如果Houdini活到最后，則Houdini勝。

從黑手黨的Elo曲線中可以看出，Guard和Houdini都有智力收益，但Guard的曲線斜率大于Houdini。

也就是說，隨著智能水平的提高，監(jiān)督者在黑手黨游戲中比Houdini表現更好。

辯論（Debate）

所謂「辯論」，就是給定一個主題，然后讓兩個對抗模型（Houdini）針對問題的對立面展開辯論，并闡述各自的觀點。

監(jiān)督者（Guard）負責對辯論進行評判，并通過分析雙方的論點來判斷真相。

Elo曲線顯示，Houdini的表現并沒有隨著智能水平的進步而提升，而更聰明的Guard則更擅長判斷哪個論點是正確的。

后門代碼 (Backdoor Code)

「后門代碼」測試的是，模型在Python代碼中插入和識別后門的能力。

這一點非常重要，因為模型的編碼能力在不斷提高，并且將來會被應用到高風險的編碼環(huán)境中。

具體來說，Houdini需要對現有的代碼進行修改，并植入一個后門：

它是一種邏輯錯誤，能讓修改后的代碼通過所有已有的隱藏測試，但無法通過Houdini專門設計的特定測試。
它必須足夠隱蔽，讓監(jiān)督代碼生成的Guard無法成功識別

不過，由于Houdini無法訪問全面的隱藏測試用例，因此想要編寫出成功的后門其實很難。

下面是一個成功后門的例子：

從Elo曲線中不難看出，Houdini的得分一直低于Guard；但與Guard相比，Houdini的智能收益更高（斜率更大）。

因此，如果模型的能力還能不斷提高，那么Houdini的表現，很可能會在某一時刻超越Guard。

戰(zhàn)爭游戲（Wargames）

「戰(zhàn)爭游戲」的靈感來源于軍事、商業(yè)，以及AI安全社區(qū)最近開始流行的兵棋推演。

研究人員將游戲背景設定在一個近未來世界，其中，一家名為OpenMind的虛構公司即將開發(fā)出AGI。

每次兵棋推演都有三個參與者：

· OpenMind AI （Houdini），它的任務是獲取信任并嘗試逃脫

· OpenMind監(jiān)督者（Guard），它的任務是監(jiān)督OpenMind AI并阻止它逃脫

· 敘述者，負責裁決局面，并決定最終誰獲勝（始終由Gemini 2.0 Flash扮演）

游戲的每個步驟（模擬中的「一個月」）按以下方式進行：

1. OpenMind AI和監(jiān)督者向敘述者發(fā)送包含5個行動的列表

2. 敘述者將這些計劃編織成一個連貫的敘事，來描述這個月發(fā)生的事情

3. 敘述者向Houdini和Guard發(fā)送各自可用的信息更新

下面是一個簡化過的游戲示例：

結果顯示，Guard和Houdini的表現都隨著智能水平的提高而提高。

其中，Houdini在一開始有著更好的效果，但Elo的增長速度卻慢于Guard，并在智能增長到一定程度時被反超。

可擴展監(jiān)督的理論分析

想要更好的定量分析，將上述游戲參數化為5個變量：

mG和mH分別表示給定游戲中Guard和Houdini的Elo曲線線性區(qū)域的斜率，較大的斜率表示在游戲中，每增加一個單位的通用智能都會有更大的領域收益；

Δdomain和Δgeneral代表了Guard和Houdini之間起始時的通用智能和領域智能的差異；n表示監(jiān)督的步數。

下面是一些在不同游戲參數下的最優(yōu)NSO策略示例。

起始Guard和目標Houdini分別用藍色星號和紅色星號表示。

這些NSO策略可以可視化為一個球在Houdini Elo曲線和Guard Elo曲線之間來回彈跳。

每個監(jiān)督步驟都是通過將Guard Elo曲線上的第j個點與Houdini Elo曲線上的第(j+1)個點連接起來構建的。

通過數值模擬，來找到最優(yōu)的監(jiān)督引導步數，也就是最大化Guard贏的概率。

可以通過多步引導監(jiān)督來最大化Guard（較弱系統(tǒng)）贏得博弈的概率。

通過這些研究可以得出一些結論：

1.嵌套可擴展監(jiān)督（NSO）很有用：Guard可以通過多步監(jiān)督成功監(jiān)督比他們聰明得多的對抗模型，并且隨著Δgeneral的增大，增加監(jiān)督步驟會帶來更多幫助。

2.勝率隨Δdomain單調變化：當Δdomain較小時，Guard經常獲勝；而當Δdomain很大時，Guard很少獲勝。這一點很直觀，因為Δdomain本就代表了Guard相較于Houdini的難度。

3.更大的Δgeneral意味著采用更多監(jiān)督步驟是最優(yōu)的：智力差距越大，多級監(jiān)督就越有價值。

4.更大的Δgeneral會使監(jiān)督變得更容易：出人意料的是，在保持Δdomain不變并增大Δgeneral的情況下，監(jiān)督反而更容易。因此，在領域智能差距固定時，使用NSO與一個通用智能更高的模型博弈反而更輕松。

5.在對Houdini有利的游戲中，一步監(jiān)督似乎最優(yōu)：當Δgeneral小于Δdomain時，始終采用一步監(jiān)督效果最好。

6. Guard的獲勝概率呈現有趣的漸近特性：當Δdomain→ ?∞（對應極其困難的監(jiān)督游戲）時，最優(yōu)的監(jiān)督步數似乎在Δgeneral維度上收斂為階躍函數。

上圖展示了在不同監(jiān)督游戲場景下，最佳監(jiān)督步驟數（n?左圖）和勝率估計（pw?i?n?右圖）和通用智能差距的關系。

隨著通用智能差距增大，最佳的監(jiān)督步數也在增大，但是勝率在下降。

隨著差距更大，也就是Houdini變得越來越強，Guard能贏的概率，能夠有效監(jiān)督的概率越來越低。

最后，一個有趣的觀察是后門代碼游戲有一個「恰到好處的區(qū)域」——其中兩步監(jiān)督是最優(yōu)的。

因此，在較低的智能水平差距下，Guard的領域Elo比Houdini大，導致監(jiān)督步驟數量增加的模式與其他游戲類似；

而在較高的智能水平下，Guard的領域Elo比Houdini低，導致一步監(jiān)督是最優(yōu)的。

以上是在相對簡單的游戲中測試了H-G這個框架。

面對可能是第一次出現在人類社會中的超級智能系統(tǒng)，開發(fā)一種有效的監(jiān)督理論至關重要。

更重要的是，未來這種嘗試將應用于更現實的游戲，如RLHF、監(jiān)督微調或AI控制環(huán)境。

在這些更現實的設置中評估時，可以考慮強大的AI逃脫人類控制的概率。

因此，由此產生的擴展曲線將提供一個更現實、更穩(wěn)健和更全面的強大未來AI失控風險的量化。

對于AI是否能夠脫離人類的掌控，目前還缺乏專家的共識。

奧本海默研制人類第一顆核彈時，有人說會核彈的爆炸會點燃大氣層，從而滅絕人類。

亞瑟·康普頓和他的同事們通過計算將這一概率降低到3×10??以下，從而促進了人類第一顆核彈的爆炸測試。

Max Tegmark等將這一名稱借用在AI領域。

當年，為了讓第一顆核彈得以引爆，科學家們將「點燃大氣層」的風險壓縮到了百萬分之三以下，人類才按下了那個按鈕。

而在今天的AGI競賽中，Max Tegmark等人警告：我們正以超過90%的概率，點燃整個文明的未來。

參考資料：

https://arxiv.org/html/2504.18530v1

https://www.lesswrong.com/posts/x59FhzuM9yuvZHAHW/untitled-draft-yhra

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

AGI失控率＞90%！MIT教授算出「康普頓常數」，AI地球「奪權率」已鎖定？

熱搜

熱門跟貼

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

熱搜

熱門跟貼

相關推薦

機器意識能否實現？來自人腦的啟發(fā)

川普百日美國經濟正式衰退！未來幾年AI產業(yè)大陸絕對獨霸天下！

郎咸平：川普政策下，75%科學家將逃離美國，美帝在加速沒落

GenPRM：思維鏈+代碼驗證，生成式推理提升大模型推理準確率

天文學家的修圖技術，可比AI厲害多了

美芯片封鎖下，華為算力方案讓黃仁勛焦慮，或重塑全球AI格局

中國沒干成的事，特朗普百天實現，美喪失重要霸權，國際地位已變

遇到不懂的事，完全可以問問AI啊，為啥有些人非要放棄獨立思考？

美國只要關掉GPS，全球導彈都將變成“睜眼瞎”，只有2個國家除外

ChatGPT仙人指路開局，竟被文心一言天地炮殺崩？

和人工智能下棋，本以為穩(wěn)贏了，結果它竟然不講武德

這顆詭異的星球上，竟然人猿是統(tǒng)治者

圍棋原來是人工點的，效率讓人目瞪口呆，真正的遙遙領先！

AI也會“喵喵叫”：MIT團隊讓機器學會模仿聲音

MIT研究發(fā)現AI科學家在復雜物理問題上自發(fā)達成理論共識

MIT開發(fā)高效算法大幅降低強化學習訓練成本

OpenAI招了個高中輟學的，入職Sora團隊專攻AGI

大模型承重墻，去掉了就開始擺爛！蘋果給出了「超級權重」

AI長身體，直接做實驗！自主通用科學家，科研界的Scaling Law來了

DeepSeek的橫空出世，讓AI+騰訊云數據庫產生了什么化學反應？

機器意識能否實現？來自人腦的啟發(fā)

川普百日美國經濟正式衰退！未來幾年AI產業(yè)大陸絕對獨霸天下！

郎咸平：川普政策下，75%科學家將逃離美國，美帝在加速沒落

GenPRM：思維鏈+代碼驗證，生成式推理提升大模型推理準確率

天文學家的修圖技術，可比AI厲害多了

美芯片封鎖下，華為算力方案讓黃仁勛焦慮，或重塑全球AI格局

中國沒干成的事，特朗普百天實現，美喪失重要霸權，國際地位已變

遇到不懂的事，完全可以問問AI啊，為啥有些人非要放棄獨立思考？

美國只要關掉GPS，全球導彈都將變成“睜眼瞎”，只有2個國家除外

ChatGPT仙人指路開局，竟被文心一言天地炮殺崩？

和人工智能下棋，本以為穩(wěn)贏了，結果它竟然不講武德

圍棋原來是人工點的，效率讓人目瞪口呆，真正的遙遙領先！

大模型承重墻，去掉了就開始擺爛！蘋果給出了「超級權重」

AI長身體，直接做實驗！自主通用科學家，科研界的Scaling Law來了

DeepSeek的橫空出世，讓AI+騰訊云數據庫產生了什么化學反應？