
新智元報道
編輯:定慧 英智
【新智元導(dǎo)讀】谷歌DeepMind研發(fā)的DreamerV3實現(xiàn)重大突破:無需任何人類數(shù)據(jù),通過強化學(xué)習(xí)與「世界模型」,自主完成《我的世界》中極具挑戰(zhàn)的鉆石收集任務(wù)。該成果被視為通往AGI的一大步,并已登上Nature。
AI又進化了,在沒有任何人類數(shù)據(jù)的參與下,自己玩《我的世界》還能找到鉆石!
在剛剛登上Nature的論文中,谷歌DeepMind的智能體通過純·自我學(xué)習(xí),順利完成了收集鉆石的任務(wù)。

論文鏈接:https://www.nature.com/articles/s41586-025-08744-2
對此,DeepMind的計算機科學(xué)家Danijar Hafner表示:「Dreamer是一個重要的里程碑,標(biāo)志著AI又朝著通用人工智能前進了一大步?!?/p>
又是AI和《我的世界》,為何這次就成了邁向AGI的一大步
用AI來挑戰(zhàn)《我的世界》早已是AI界「喜聞樂見」的項目了。
作為世界上排名第一且月活超過1億的游戲,《我的世界》可以說是涵蓋了幾乎所有年齡段的人群。
早在兩三年前,包括OpenAI在內(nèi)的各個模型都有挑戰(zhàn)《我的世界》的嘗試。

更早在2019年,研究人員就認(rèn)為《我的世界》的開放式游戲環(huán)境可能非常適合AI研究。
比如一個七歲的小孩在觀看了10分鐘演示視頻后就能學(xué)會如何在游戲中找到稀有的鉆石,而當(dāng)年的AI還遠(yuǎn)遠(yuǎn)做不到這一點。
AI從《我的世界》中的一個隨機位置開始,必須完成某些任務(wù)來找到鉆石
為何這次DeepMind就敢說是「通向AGI的一大步」呢?
這次的任務(wù)——在游戲內(nèi)尋找鉆石——聽起來容易,但其實非常困難,「高玩」們也要花20-30分鐘才能找到一個鉆石。

給不熟悉游戲的朋友解釋下這個任務(wù)為什么這么困難:
1. 每一次的游戲場景都是隨機世界,包含各種地形的虛擬 3D 世界,包括森林、山脈、沙漠和沼澤,這讓AI無法只記住一種特定策略來作弊;
2. 想要獲得鉆石需要經(jīng)過一系列復(fù)雜的前置流程,并不是隨機在地圖尋找,比如你需要:
先找到樹木
然后將樹木分解為木材,木材也僅僅是用來制作一個工作臺
有了工作臺再加上更多的木材你才可以制作一個木頭鎬頭
然后才能開始挖掘以尋找鉆石
鉆石恒久遠(yuǎn),AI不疲倦
AI研究人員專注于在《我的世界》中尋找鉆石,Hafner說因為這需要一系列復(fù)雜的步驟,是一個很長的里程碑鏈條,因此它需要非常深入的探索。
DeepMind的Dreamer AI在《我的世界》中進行了多次游戲?qū)W習(xí)如何收集鉆石
之前的嘗試讓AI系統(tǒng)收集鉆石依賴于使用人類游戲的視頻或研究人員引導(dǎo)系統(tǒng)完成各個步驟。
相比之下,Dreamer通過強化學(xué)習(xí)的試錯技術(shù)自行探索游戲的所有內(nèi)容——它識別出可能帶來獎勵的動作,重復(fù)這些動作并放棄其他動作。
強化學(xué)習(xí)是一些重大AI進展的基礎(chǔ),但之前的程序都是專家型的——它們無法從零開始在新領(lǐng)域應(yīng)用知識。
成功的關(guān)鍵是構(gòu)建「世界模型」
Dreamer成功的關(guān)鍵在于它構(gòu)建了周圍環(huán)境的模型,并使用這個世界模型來「想象」未來的情景并指導(dǎo)決策。

就像我們自己的抽象思維一樣,世界模型并不是周圍環(huán)境的精確復(fù)制品。
世界模型允許Dreamer嘗試不同的事情,「世界模型真正賦予了人工智能系統(tǒng)想象未來的能力」Hafner 說。
這種能力還可能有助于創(chuàng)造能夠在現(xiàn)實世界中學(xué)習(xí)互動的機器人——在現(xiàn)實世界中,試錯的成本要比在視頻游戲中高得多。
研究團隊一開始并不是奔著「鉆石測試」去研究的,測試Dreamer在鉆石挑戰(zhàn)上的表現(xiàn)是一個事后的想法。
「在構(gòu)建整個算法時并沒有考慮到這一點」,Hafner 說,但團隊意識到,這是測試其算法是否能夠開箱即用、處理不熟悉任務(wù)的理想方式。
在《我的世界》中,團隊使用了一種協(xié)議,每當(dāng)Dreamer完成鉆石收集過程中涉及的12個逐步步驟之一時,就會獲得一個「+1」的獎勵——這些步驟包括制作木板和熔爐、開采鐵礦并鍛造鐵鎬。
這些中間獎勵促使 Dreamer 選擇了更有可能獲得鉆石的動作。團隊每 30 分鐘重置一次游戲,這樣Dreamer就不會適應(yīng)某個特定的配置——而是學(xué)會了獲得更多獎勵的一般規(guī)則。
在這種設(shè)置下,Dreamer需要連續(xù)玩大約九天才能找到至少一顆鉆石。
而高手玩家找到一顆鉆石需要20到30分鐘,新手則需要更長的時間。
在Minecraft中進行鉆石挑戰(zhàn)
游戲中的每一次都設(shè)定在一個獨特的隨機生成且無限的三維世界中。 每一次持續(xù)到玩家死亡或達(dá)到36,000步(相當(dāng)于30分鐘),根據(jù)MineRL競賽提供的動作形成了一個分類動作空間,其中包括抽象的制作動作。

據(jù)DeepMind宣稱,Dreamer是第一個在不使用人類數(shù)據(jù)的情況下從零開始在《我的世界》中收集鉆石的算法。
所有的Dreamer智能體都在一億次步驟內(nèi)發(fā)現(xiàn)了鉆石。所有物品的成功率顯示在圖右擴展數(shù)據(jù)中。
盡管其他幾個強大的算法(例子中的PPO、Rainbow和IMPALA)進展到了諸如鐵鎬等高級物品,但沒有一個發(fā)現(xiàn)鉆石。
Dreamer算法核心原理
Dreamer算法的核心是學(xué)習(xí)一個世界模型。 這就像是智能體的大腦,讓智能體具備豐富的感知能力,通過想象未來場景來規(guī)劃行動。 算法由三個關(guān)鍵的神經(jīng)網(wǎng)絡(luò)組成:世界模型、評論家網(wǎng)絡(luò)和行動者網(wǎng)絡(luò)。 世界模型通過自動編碼學(xué)習(xí)感官輸入的表示,并通過預(yù)測潛在動作的未來表示和獎勵來實現(xiàn)規(guī)劃。 將世界模型實現(xiàn)為遞歸狀態(tài)空間模型,如圖所示。

評論家網(wǎng)絡(luò)則對世界模型預(yù)測的每個結(jié)果進行價值判斷,評估這個結(jié)果對實現(xiàn)目標(biāo)的幫助有多大。
行動者網(wǎng)絡(luò)根據(jù)評論家的判斷,選擇能達(dá)到最佳結(jié)果的行動。
這三個網(wǎng)絡(luò)相互協(xié)作,在智能體與環(huán)境交互的過程中,通過重放經(jīng)驗同時進行訓(xùn)練。
在訓(xùn)練過程中,世界模型的學(xué)習(xí)至關(guān)重要。它要學(xué)習(xí)從感官輸入中提取有用信息,還要預(yù)測未來的狀態(tài)和獎勵。
為實現(xiàn)這一目標(biāo),世界模型需要最小化預(yù)測損失、動態(tài)損失和表示損失。

預(yù)測損失用于訓(xùn)練解碼器和獎勵預(yù)測器,動態(tài)損失訓(xùn)練序列模型預(yù)測下一個表示,表示損失則讓表示更具可預(yù)測性。
圖中可視化了世界模型的長期視頻預(yù)測。

實驗結(jié)果
DeepMind團隊在8個領(lǐng)域的150多個任務(wù)中評估Dreamer算法的通用性,包括連續(xù)和離散動作、視覺和低維輸入、密集和稀疏獎勵、不同的獎勵尺度、二維和三維世界以及程序生成。

圖中展示了基準(zhǔn)測試結(jié)果,Dreamer在所有測試中均有更好的表現(xiàn)。

在Atari基準(zhǔn)測試中,它能在使用少量計算資源的情況下,超越MuZero算法,也優(yōu)于Rainbow和IQN算法。
在ProcGen基準(zhǔn)測試中,面對隨機生成的關(guān)卡和視覺干擾,Dreamer算法在5000萬幀的預(yù)算內(nèi),超過了經(jīng)過調(diào)優(yōu)的PPG和Rainbow算法。
在DMLab基準(zhǔn)測試?yán)?,它?億幀訓(xùn)練后,性能超過了IMPALA和R2D2+智能體,數(shù)據(jù)效率大幅提升。
在Atari100k基準(zhǔn)測試中,盡管訓(xùn)練預(yù)算僅為40萬幀,Dreamer算法依然能超越其他方法。
在BSuite基準(zhǔn)測試中,它同樣表現(xiàn)出色,在尺度穩(wěn)健性方面有很大改進。
研究人員進行了消融實驗,結(jié)果表明,所有的穩(wěn)健性技術(shù)都有助于提高算法性能。

研究人員還對Dreamer算法的縮放屬性進行了研究。
他們訓(xùn)練了不同規(guī)模的模型,參數(shù)從12M到4M。結(jié)果發(fā)現(xiàn),擴大模型規(guī)模不僅能提高任務(wù)性能,還能減少數(shù)據(jù)需求。
更多的梯度步數(shù)也能減少學(xué)習(xí)成功行為所需的交互次數(shù)。這表明Dreamer算法在計算資源增加時,能夠穩(wěn)健地提升性能,為實際應(yīng)用提供了更靈活的選擇。
這篇論文是關(guān)于訓(xùn)練一個單一算法,期望其能在多樣化的強化學(xué)習(xí)任務(wù)中表現(xiàn)出色。
在《我的游戲》中尋找鉆石也許僅僅通向AGI之路的第一關(guān)。
AI的下一個更大目標(biāo)是《我的世界》玩家面臨的終極挑戰(zhàn):擊殺末影龍,這個虛擬世界中最可怕的生物。
參考資料:
https://www.nature.com/articles/d41586-025-01019-w#ref-CR1
https://www.nature.com/articles/s41586-025-08744-2
https://x.com/danijarh/status/1907511182598222095
熱門跟貼