
如果你曾在夜幕降臨時,慌忙圍出一塊勉強能放下一張床的木屋,躲避午夜里徘徊的怪物;如果你曾在那片方塊拼接的世界里,復(fù)現(xiàn)從自家校園到逶迤阿房的一切建筑;如果你曾沿著蜿蜒的礦道深挖,只為追尋巖漿洞穴里那抹耀眼的藍(lán)綠色……那么,你一定懂得《我的世界》(Minecraft)的魅力!


AI能否找到鉆石?
Minecraft這款沙盒游戲是許多90、00后的共同記憶。它沒有炫目的光影渲染,也沒有峰回路轉(zhuǎn)的劇情,卻承載著無數(shù)玩家的冒險與創(chuàng)造。僅僅是方塊便堆砌起山川與河流,孕育出奇珍異寶,滋生了夜色中的怪物……
每個新開檔的世界都是一張白紙,等待著玩家盡情涂抹想象。在創(chuàng)造模式里,玩家可以在山谷里建起宏偉的城堡,也能挖通屬于自己的縱橫交錯的地鐵網(wǎng)絡(luò);在生存模式里,從砍下第一棵樹開始,我們的“史蒂夫”便需要摸索出一條漫長的求生之旅,學(xué)會制作工具、搭建庇護所、獵取食物,找到最閃耀的鉆石。
這一切,似乎是再普通不過的沙盒游戲玩法??扇绻麚Q成一個AI,它真的能像人類一樣去學(xué)習(xí)、規(guī)劃、探索,建立起自己的世界地圖,最終找到鉆石嗎?

起初,人們并沒有把“玩好《我的世界》這樣的開放世界游戲”當(dāng)作AI的目標(biāo)。畢竟,AI在更“正經(jīng)”的游戲里早已大放異彩——它能在圍棋中戰(zhàn)勝頂級棋手,也能在《Dota2》里讓職業(yè)高手潰不成軍。但這些策略型游戲的規(guī)則是相對固定的,目標(biāo)也相對明確,AI只需要計算出最優(yōu)解,就能輕松取勝。
《我的世界》卻不一樣——這里沒有清晰的游戲目標(biāo),也沒有固定的玩法,甚至地圖都是隨機種子生成的,每次進入都是全新的挑戰(zhàn)。在一個新世界里,熟悉《我的世界》的人類玩家可以憑借直覺、經(jīng)驗和創(chuàng)造力去適應(yīng)環(huán)境,那么AI呢?這些總是依賴于目標(biāo)損失函數(shù)學(xué)習(xí)的家伙,真的能在這個無限開放的世界里“活下去”嗎?
早在2019年,就有人決定讓AI玩《我的世界》試試看。Facebook推出了CraftAssist Bot[1],讓AI能在游戲里執(zhí)行人類指令,比如建造房屋、馴服動物、和村民交易。同年,CMU、微軟、DeepMind、OpenAI等機構(gòu)也聯(lián)合發(fā)起了MineRL大賽[2],嘗試將互聯(lián)網(wǎng)視覺數(shù)據(jù)融入《我的世界》的技能學(xué)習(xí)中,探索超越傳統(tǒng)強化學(xué)習(xí)方法的路徑。

mineRL的目標(biāo)很簡單——讓AI在游戲里成功挖到鉆石。聽起來好像沒什么難度?但現(xiàn)實狠狠地教育了研究人員:900多個頂尖團隊傾盡全力,竟沒有一個AI成功拿到鉆石。在實驗中,這些智能體(agent)不能像新手玩家那樣直接尋找攻略,而是得從最基礎(chǔ)的采集木頭、合成工具開始,深入黑暗的地底,一步步摸索通往鉆石的路徑。

然而,在沒有人類經(jīng)驗可供借鑒的情況下,這些AI在比賽過程中冒出了許多令人哭笑不得的錯誤——有的砍樹砍得不亦樂乎,卻完全不懂得如何合成斧頭;有的好不容易造出了熔爐,卻壓根不知道要把礦石放進去;還有一些倒是學(xué)會了挖礦,但它們選擇了最“直截了當(dāng)”的方法——垂直往下挖,結(jié)果一頭栽進了巖漿里,把可憐的史蒂夫活活燒死了。
這聽上去像是一場荒唐的鬧劇,但事實上,mineRL恰恰揭示了AI在面對開放世界時的困境——它不像人類那樣擁有豐富的常識和直覺,而是必須從零開始,一步步推導(dǎo)出世界的運行規(guī)則,并在其中尋找最優(yōu)解。
這也正是《我的世界》與眾不同的地方:它不僅僅是一個游戲,更是一個濃縮了“真實世界”特質(zhì)的小宇宙:考驗的不只是操作技巧,還有對環(huán)境的理解、對資源的管理、對長遠(yuǎn)目標(biāo)的規(guī)劃。這些能力,正是人類智慧的體現(xiàn),也是通用人工智能(AGI)未來必須攻克的核心技能。
來自強化學(xué)習(xí)的外掛
在此過程中,強化學(xué)習(xí)(Reinforcement Learning,RL)逐漸成為成為AI在《我的世界》中取得突破的關(guān)鍵。
強化學(xué)習(xí)的原理并不復(fù)雜:AI就像一個真正的小白玩家,通過與環(huán)境不斷互動來獲得反饋。當(dāng)AI做出正確決策時,它會得到獎勵;當(dāng)決策不當(dāng),它也會受到懲罰。如此反復(fù),它的策略會在試錯中不斷進化。就像新手玩家一邊挖礦、一邊拼湊著木棍和石塊,慢慢學(xué)會如何合成工具,如何規(guī)劃行動路線,如何應(yīng)對潛伏在暗處的怪物。隨著時間的推移,AI逐漸能夠更有效地探索地圖,學(xué)會管理資源、打造裝備,乃至執(zhí)行更復(fù)雜的長期任務(wù)。相比傳統(tǒng)“按部就班”的AI系統(tǒng),強化學(xué)習(xí)賦予AI某種“適應(yīng)”能力,讓它不再只會照本宣科,而是能根據(jù)環(huán)境做出靈活決策。
作為一款以第一人稱視角展開、具有高度自由度的開放式視頻游戲,《我的世界》憑借其獨特的游戲結(jié)構(gòu),成為了強化學(xué)習(xí)研究中的理想平臺。與傳統(tǒng)電子游戲相比,《我的世界》并沒有明確的通關(guān)目標(biāo)或預(yù)設(shè)路線,而是鼓勵玩家在一個幾乎無限的虛擬世界中自主探索、建造和生存。
這種稀疏獎勵的機制——即,玩家只有在完成特定復(fù)雜任務(wù)或達成自定義目標(biāo)時才會獲得明確反饋——更貼近現(xiàn)實環(huán)境中智能體所面臨的學(xué)習(xí)挑戰(zhàn)。其龐大的空間尺度和可持續(xù)發(fā)展的世界設(shè)定,為訓(xùn)練智能體在長期任務(wù)中學(xué)習(xí)規(guī)劃、策略制定和適應(yīng)性提供了豐富場景。正因為如此,《我的世界》不僅能模擬復(fù)雜的感知-行動循環(huán),還能支持多層次、多階段的任務(wù)設(shè)計,使其在強化學(xué)習(xí)尤其是通用智能體訓(xùn)練領(lǐng)域中具有非常廣泛的應(yīng)用潛力。

自從Malmo模擬器發(fā)布以來,研究人員便嘗試了多種方法來訓(xùn)練智能體在《我的世界》中完成各種任務(wù)。這些方法包括基于模型的強化學(xué)習(xí)、分層強化學(xué)習(xí)、基于目標(biāo)的強化學(xué)習(xí)以及獎勵塑造等等。
當(dāng)AI變成Steam牢玩家
隨著大語言模型(LLM)如GPT-4的出現(xiàn),新的研究方向開始浮現(xiàn)。研究者發(fā)現(xiàn),LLM能夠充當(dāng)“游戲智囊團”:它們基于互聯(lián)網(wǎng)大數(shù)據(jù)所學(xué)習(xí)到的文本信息,能為AI在游戲世界中的行為提供更成熟的任務(wù)規(guī)劃和技能順序安排。換言之,如果說強化學(xué)習(xí)讓AI學(xué)會“怎么做”,那么LLM則能幫AI思考“為什么做”,以及“先做什么,再做什么”。在這些研究中,智能體從完全的游戲小白變成了Steam庫上百的牢玩家,既能統(tǒng)籌所需技能,又能反思游戲環(huán)境帶來的變化,從而一步步逼近最終目標(biāo)(挖掘鉆石)。
然而,這些研究仍面臨一個棘手的問題——數(shù)據(jù)往往十分稀缺,尤其是在需要人類示范或注釋的情況下。為了解決這一瓶頸,MineCLIP項目提出了用來自YouTube的73萬個沒有動作標(biāo)簽的旁白視頻作為額外資源,訓(xùn)練視覺語言模型,為智能體提供輔助獎勵信號,讓它們可以汲取互聯(lián)網(wǎng)豐富的非結(jié)構(gòu)化數(shù)據(jù),將其轉(zhuǎn)化為有效的游戲知識庫。
在科學(xué)家們不斷改進AI模型的過程中,AI在《我的世界》里的表現(xiàn)也逐漸進化。2022年,騰訊AILab的“絕悟”[3]以絕對優(yōu)勢拿下當(dāng)時的MineRL冠軍,首次證明了AI能夠在這一開放世界游戲中取得“像模像樣”的成績。


緊接著,2023年,OpenAI用“視頻預(yù)訓(xùn)練”(VPT)技術(shù)[4],通過投喂70,000小時的含標(biāo)記的網(wǎng)絡(luò)視頻,使用逆動態(tài)模型進行訓(xùn)練,進而進行行為克隆,讓它學(xué)會了人類玩家的復(fù)雜操作,比如高效采集資源、制作工具,甚至還能自己規(guī)劃行動。
2024年,DeepMind的DreamerV3[5]實現(xiàn)了近乎真正的自主探索——它沒有看任何人類數(shù)據(jù),完全靠自己摸索,僅用17天就完成了MineRL挑戰(zhàn),成了首個能“自力更生”挖到鉆石的AI。

AI在《我的世界》中的征程遠(yuǎn)未結(jié)束。時間來到2025年2月,DeepMind2最新研究[6]又一次刷新了認(rèn)知邊界,他們讓AI不僅能在游戲世界里生存下去,還能超越人類的操作水平。

總體來說,研究者在二維版《我的世界》——Craftax-classic環(huán)境——中打造的強化學(xué)習(xí)智能體,不僅能規(guī)劃、探索,還能在有限的交互數(shù)據(jù)下高效學(xué)習(xí),并逐漸掌握高效的生存之道,最終超越了人類“牢玩家”的成績。
?Craftax example [7]
這背后的關(guān)鍵是基于模型的強化學(xué)習(xí)(MBRL)和Transformer世界模型(TWM)的結(jié)合。在以往的MBRL模型中,基于數(shù)據(jù)的策略性學(xué)習(xí)效率仍然是一個關(guān)鍵挑戰(zhàn),特別是在需要大量交互的復(fù)雜環(huán)境中,往往需要海量的學(xué)習(xí)范例才能構(gòu)建起一張內(nèi)化的“認(rèn)知地圖”。
只靠想象推演能行嗎?
近年來,像IRIS(Micheli, 2022)和DreamerV3(Hafner, 2023)這樣的MBRL方法,已經(jīng)展示了在游戲和機器人等任務(wù)中的強大能力。但它們主要依賴于世界模型生成的想象軌跡(imagined trajectories)進行策略訓(xùn)練,完全舍棄了真實環(huán)境中的數(shù)據(jù)。
不過,Deepmind Kevin Murphy團隊的最新研究卻給“純想象”的道路潑了一盆冷水。他們發(fā)現(xiàn),如果完全放棄真實數(shù)據(jù),AI可能會變得“閉門造車”,缺乏對真實世界的適應(yīng)能力。因此他們提出了一種新型架構(gòu),將世界模型融合到強化學(xué)習(xí),讓智能體像圍棋高手一樣,在正式“落子”前先在腦海中推演對局細(xì)節(jié)。如此一來,AI 不需要每一次都在真實環(huán)境里試錯,從而縮小了策略空間,也能預(yù)判未來的發(fā)展,并以更高效率做出決策。這意味著AI不再是單純的“試錯機器”,而是擁有了某種程度的“想象力”。
事實上,早在1990年,研究者就提出了Dyna 方法(ref),將世界模型引入強化學(xué)習(xí)[8]。其核心思想是:先讓智能體在真實環(huán)境中與環(huán)境交互并收集數(shù)據(jù);再將這些數(shù)據(jù)用于更新策略和訓(xùn)練世界模型,使世界模型能夠準(zhǔn)確模擬環(huán)境的動態(tài)變化;最終讓智能體在世界模型生成的模擬環(huán)境中進行額外的策略訓(xùn)練,從而減少對真實交互的需求,提高數(shù)據(jù)利用效率。
Dyna方法的提出,標(biāo)志著強化學(xué)習(xí)從完全依賴真實數(shù)據(jù)(無模型強化學(xué)習(xí))向利用模擬數(shù)據(jù)(基于模型的強化學(xué)習(xí))邁出了重要的一步。然而,近些年來,一些MBRL方法(如IRIS和DreamerV3)過度依賴模擬軌跡,忽視了真實數(shù)據(jù)的珍貴價值,導(dǎo)致AI在虛擬中風(fēng)光無限,卻在現(xiàn)實里頻頻失利。
如何超越人類,
在《我的世界》封神?
針對這一問題,DeepMind的最新突破,提出了一系列關(guān)鍵改進,通過一種結(jié)合真實數(shù)據(jù)和模擬數(shù)據(jù)的新方法,在多個方面對世界模型進行了優(yōu)化。

(1)同時利用真實數(shù)據(jù)和想象軌跡
正如我們之前所說,許多MBRL方法僅在世界模型生成的想象軌跡上訓(xùn)練策略,完全不使用真實環(huán)境數(shù)據(jù)。這種做法的問題在于,如果世界模型本身的誤差較大,策略就可能過度適應(yīng)模擬環(huán)境,而在真實環(huán)境中的表現(xiàn)較差(即“模擬-現(xiàn)實差距”問題)。為了解決這一問題,Deepmind團隊的新方法回歸到Dyna框架,通過同時使用真實數(shù)據(jù)和模擬數(shù)據(jù)進行訓(xùn)練,以提高策略的泛化能力。這種方法不僅能利用真實數(shù)據(jù)提高策略的可靠性,還能借助世界模型生成的數(shù)據(jù)提高訓(xùn)練效率。
(2) 優(yōu)化視覺信息的離散化編碼,提高世界模型的學(xué)習(xí)效率
在MBRL方法中,世界模型需要將環(huán)境的視覺信息(如游戲畫面)轉(zhuǎn)換為計算機可以處理的離散表示(discretere presentations),這一過程稱為令牌化(tokenization)。過去的方法,如IRIS和DART(Agarwaletal.,2024),主要采用矢量量化變分自編碼器(Vector Quantized Variational Autoencoder, VQ-VAE)。其過程如下:
先用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取圖像特征;
再使用離散向量庫(codebook)將特征映射為固定數(shù)量的離散令牌;
最終,世界模型使用這些令牌來預(yù)測環(huán)境狀態(tài)的變化。
然而,VQ-VAE存在一個問題:離散向量庫的含義會隨著訓(xùn)練不斷變化,導(dǎo)致世界模型的學(xué)習(xí)難度增加。為了解決這個問題,研究者提出了兩個改進:
基于圖像塊(patch-based)進行獨立令牌化:與其對整張圖像進行一次性量化,先將圖像劃分為多個小塊(patches),然后分別進行令牌化。這種方法使世界模型能夠更精細(xì)地理解局部信息,提高對復(fù)雜視覺輸入的建模能力。
采用最近鄰令牌化器(Nearest-Neighbor Tokenizer, NNT)替代VQ-VAE:NNT具有更穩(wěn)定的離散向量庫,不會在訓(xùn)練過程中動態(tài)變化,從而降低了世界模型的學(xué)習(xí)難度,提高建模精度。

這種優(yōu)化使得世界模型在處理視覺信息時更加高效,減少了由于編碼不穩(wěn)定帶來的誤差累積。
(3)更高效的訓(xùn)練方法——塊式教師強制(BTF)
目前,大多數(shù)世界模型的訓(xùn)練采用自回歸方法,即按照時間順序逐步預(yù)測環(huán)境的未來狀態(tài)。然而,這種方式存在兩個問題:(1)采樣效率低:每一步預(yù)測依賴于上一時刻的輸出,導(dǎo)致訓(xùn)練速度較慢;(2)誤差累積:如果某一步預(yù)測出錯,后續(xù)所有預(yù)測都會受到影響。
為了解決這個問題,研究者提出了一種新的訓(xùn)練方法,稱為塊式教師強制(Block Teacher Forcing, BTF)。其核心思想是:讓世界模型在生成令牌前,先整體推理所有可能的未來狀態(tài),再并行采樣所有令牌,而不是逐步生成。這種方法類似于寫文章時,先想好整篇文章的大綱,再動筆寫每一部分,而不是逐句即興發(fā)揮。實驗表明,BTF使得訓(xùn)練速度更快,生成的想象軌跡更準(zhǔn)確,從而提升了策略優(yōu)化的效率。

在Craftax-classic環(huán)境的實驗中,這些改進一步步帶來了顯著的分?jǐn)?shù)攀升。起初的基線方法(MBRL)只拿到31.93%的獎勵值;基線方法+Dyna訓(xùn)練,將真實環(huán)境與虛擬環(huán)境相結(jié)合,獎勵值提高至43.36%;再將輸入的圖像分割成多個小塊(patches),然后對每個小塊進行獨立處理,則達到了58.92%,在此基礎(chǔ)上,采用了NNT來替代傳統(tǒng)的VQ-VAE方法,獎勵值64.96%;最后集合所有技術(shù),并利用上塊級教師強制,將獎勵值沖到67.42%。訓(xùn)練時間還腰斬了一半。與其他高級MBRL或MFRL 方法相比,這套方案輕松拔得頭籌。

更重要的是,這款A(yù)I在多人評測對戰(zhàn)中戰(zhàn)勝了人類高手,成為首個超越人類表現(xiàn)的智能體(“人類表現(xiàn)”數(shù)據(jù)是基于5位專家玩家在100場游戲中的表現(xiàn)統(tǒng)計而得出的(Hafner,2021))。這個結(jié)果證明,RL AI不僅能自主學(xué)習(xí),還能在高度復(fù)雜的環(huán)境中做出比人類更優(yōu)的決策。

考慮到《我的世界》并非一個單純的游戲,而是一個近乎真實的虛擬生態(tài)系統(tǒng)。它就像一個微縮的真實世界,玩家要面對資源短缺、環(huán)境探索、目標(biāo)規(guī)劃等重重挑戰(zhàn)。所以,當(dāng)AI在這里闖出名堂時,它學(xué)到的絕不止是“挖鉆石”的小技巧,而是如何理解世界、制定策略、應(yīng)對變化——真正的高層次智慧。
從最初連最基本的生存都難以維持,到如今能夠自主規(guī)劃行動,高效地挖掘鉆石;從模仿人類玩家的操作風(fēng)格,到實現(xiàn)超越人類玩家的更優(yōu)探索策略,這一連串令人驚嘆的進步讓人不禁遐想——或許有一天,AI真的可以像人類一樣,在這個無限廣闊的像素世界里自由探索、創(chuàng)造,成為某個數(shù)字宇宙里的創(chuàng)世神。
后記
我之所以寫下這個話題,源自哈佛B(yǎng)CS Neurolunch上聽到Kempner fellow Wilka Carvalho的talk。他基于preplay的RL方法在空間導(dǎo)航任務(wù)方面比目前的SOTA,Deepmind2025新發(fā)布的Dyna-based MBRL,更接近人類行為(由于是未發(fā)表工作,我在網(wǎng)絡(luò)上沒有找到具體的文章和細(xì)節(jié))。身為一名《我的世界》牢玩家,感到非常有趣,遂整理成文。誰知道呢,在有生之年,也許我們真能在這片方塊大陸見證“血肉苦弱,機械飛升”。
[1] Gray, Jonathan, et al. "Craftassist: A framework for dialogue-enabled interactive agents." arXiv preprint arXiv:1907.08584 (2019).
[2] Guss, William H., et al. "Minerl: A large-scale dataset of minecraft demonstrations." arXiv preprint arXiv:1907.13440 (2019).
[3] Lin, Zichuan, et al. "Juewu-mc: Playing minecraft with sample-efficient hierarchical reinforcement learning." arXiv preprint arXiv:2112.04907 (2021).
[4] Baker, Bowen, et al. "Video pretraining (vpt): Learning to act by watching unlabeled online videos." Advances in Neural Information Processing Systems 35 (2022): 24639-24654.
[5] Hafner, Danijar, et al. "Mastering diverse domains through world models." arXiv preprint arXiv:2301.04104 (2023).
[6] Dedieu, Antoine, et al. "Improving Transformer World Models for Data-Efficient RL." arXiv preprint arXiv:2502.01591 (2025).
[7] https://github.com/wcarvalho/nicewebrl
[8] Sutton, Richard S. "Dyna, an integrated architecture for learning, planning, and reacting." ACM Sigart Bulletin 2.4 (1991): 160-163.








關(guān)于追問nextquestion
天橋腦科學(xué)研究院旗下科學(xué)媒體,旨在以科學(xué)追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學(xué)的邊界。如果您有進一步想要討論的內(nèi)容,歡迎評論區(qū)留言,或后臺留言“社群”即可加入社群與我們互動。
關(guān)于天橋腦科學(xué)研究院
天橋腦科學(xué)研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建的世界最大私人腦科學(xué)研究機構(gòu)之一,圍繞全球化、跨學(xué)科和青年科學(xué)家三大重點,支持腦科學(xué)研究,造福人類。
Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學(xué)院合作成立了加州理工天橋神經(jīng)科學(xué)研究院。
Chen Institute建成了支持腦科學(xué)和人工智能領(lǐng)域研究的生態(tài)系統(tǒng),項目遍布?xì)W美、亞洲和大洋洲,包括、、、科研型臨床醫(yī)生獎勵計劃、、等。
熱門跟貼