玩過《我的世界》的同學(xué)都知道,鉆石是這款游戲中最稀有的物品之一,產(chǎn)量低,找尋復(fù)雜,即使準(zhǔn)備充分,玩家更多的時候也得靠運氣。
在搜索引擎中搜索“我的世界如何快速找到鉆石”,會發(fā)現(xiàn)有1000萬+的內(nèi)容量,可見“找鉆石”應(yīng)該算是《我的世界》玩家的頭號大事了。
但就是這樣一個必須靠運氣加成才能完成的事情,Google的Dreamer3在不利用任何數(shù)據(jù),僅憑強化學(xué)習(xí)就完成了。
其實不止《我的世界》中的鉆石任務(wù),Dreamer 3 算法在150余個不同類型控制任務(wù)中的表現(xiàn)都非常出色,不同于其他的強化學(xué)習(xí)算法,不同環(huán)境下都需要重新訓(xùn)練或大量人工干預(yù),Dreamer 3不需要調(diào)整數(shù)據(jù)和參數(shù),只需要一套固定的參數(shù)配置就可以完成不同環(huán)境下的不同類型任務(wù)。

計算機科學(xué)家楊立昆(LeCun Yann)前段時間在講世界模型時認(rèn)為,未來模型的基礎(chǔ)不是token,而是要像人一樣去理解世界。
人類之所以能夠掌握多種技能,很大程度上是因為我們有能力在頭腦中模擬動作的結(jié)果,預(yù)測未來可能發(fā)生的情況,然后據(jù)此調(diào)整自己的行為。這種"在腦中預(yù)演"的能力是我們適應(yīng)性學(xué)習(xí)的關(guān)鍵。
Dreamer 3算法就是類似這樣的工作機制,在不利用任何先驗數(shù)據(jù)的情況下,僅通過強化學(xué)習(xí)激勵就形成了世界模型,具備在不同環(huán)境下腦補“未來”,感知和適應(yīng)世界的能力。
研究背景:十年磨一劍的"世界模型"探索
Dreamer 3由Google DeepMind和多倫多大學(xué)的研究團隊共同完成,論文于2025年4月2日在《自然》雜志上正式發(fā)表,并于2025年4月17日作為第640卷的一部分出版。
研究延續(xù)了團隊在"世界模型"領(lǐng)域的長期積累——從2019年第一代Dreamer專注機器人控制,到第二代征服雅達(dá)利游戲,再到如今第三代實現(xiàn)跨領(lǐng)域通用。
團隊選擇《我的世界》作為終極試驗場也絕非偶然。這款沙盒游戲被AI研究者稱為"數(shù)字版荒野求生":玩家需要在地下礦洞探索、合成工具、應(yīng)對突發(fā)危險,整個過程涉及長鏈條決策和稀疏獎勵。此前最接近成功的VPT算法需要觀看70000小時人類游玩視頻,而Dreamer3僅憑游戲畫面和基礎(chǔ)操作指令,就完成了從零開始自主學(xué)習(xí)的過程。
核心成果:會"做夢"的AI
Dreamer3算法的核心成果可以用一個簡單的比喻來解釋:它就像是一個會"做白日夢"的AI。當(dāng)我們?nèi)祟悓W(xué)習(xí)新技能時,比如學(xué)習(xí)騎自行車,我們不僅僅是通過實際嘗試來學(xué)習(xí),還會在腦海中想象自己騎車的場景,預(yù)測可能的結(jié)果,然后據(jù)此調(diào)整自己的行為。
Dreamer3算法正是模擬了這種人類的學(xué)習(xí)方式。
Dreamer算法由三個關(guān)鍵組件組成:世界模型、“評論員”和“執(zhí)行者”。
世界模型負(fù)責(zé)預(yù)測未來,理解眼前的場景并根據(jù)行動預(yù)測未來畫面。就像是一個能夠想象"如果我這樣做會發(fā)生什么"的大腦。當(dāng)Dreamer看到一個場景時,它不只是被動地反應(yīng),而是主動地預(yù)測接下來可能發(fā)生的事情。這個世界模型通過觀察環(huán)境的變化來學(xué)習(xí),逐漸建立起對世界運作方式的理解。
“評論員”則像是一個內(nèi)部顧問,它的工作是評估不同行動的價值,為每一種想象中的未來畫面打分。這幫助算法區(qū)分好的行動和壞的行動。
“執(zhí)行者”根據(jù)世界模型的預(yù)測和“評論員”的評分,選擇最有可能帶來好結(jié)果的行動。

就像你在玩一款策略游戲時,先預(yù)見下一步敵人可能出現(xiàn)的位置,再衡量哪一步能獲得最大優(yōu)勢,最后才按下操作鍵。與以往需要在每個新任務(wù)上重新調(diào)參不同,Dreamer3 把“想象”與“評估”與“決策”三者融合到一起,并且通過一系列穩(wěn)健化技巧,讓這套流水線在各種不同的場景中都能保持穩(wěn)定的表現(xiàn)。
這三個組件協(xié)同工作,形成了一個強大的學(xué)習(xí)系統(tǒng),能夠在150多種不同的任務(wù)中表現(xiàn)出色,而且只需要一套固定的參數(shù)配置。這就像是一個人不需要為每項新技能重新調(diào)整自己的學(xué)習(xí)方法,而是用同一套學(xué)習(xí)策略掌握了彈鋼琴、騎自行車和游泳等完全不同的技能。
Dreamer3算法的一個突破性成就是在Minecraft游戲中收集鉆石。
在Minecraft中收集鉆石需要完成一系列復(fù)雜的子任務(wù):找到木頭、制作工具、挖掘石頭、尋找稀有礦物等等。每個子任務(wù)本身就很復(fù)雜,而且它們之間存在長期的依賴關(guān)系——你必須先完成前面的任務(wù)才能進行后面的任務(wù)。
Dreamer3完全是從像素輸入開始學(xué)習(xí)的,沒有任何人類示范數(shù)據(jù)或預(yù)設(shè)課程。這就像是一個嬰兒被放在一個復(fù)雜的世界中,僅通過觀察屏幕上的像素變化,就學(xué)會了完成一系列復(fù)雜的任務(wù)。在100小時的訓(xùn)練后,Dreamer3能夠在Minecraft中找到鉆石,這在以前是無法想象的。
Dreamer3算法的另一個重要成就是它在各種基準(zhǔn)測試中的表現(xiàn)。
研究團隊在8個不同領(lǐng)域的測試中評估了Dreamer3,包括Atari游戲、機器人控制、視覺控制等。結(jié)果顯示,Dreamer3不僅能夠匹配專門為這些領(lǐng)域設(shè)計的算法的表現(xiàn),在許多情況下還能超越它們。這就像是一個全能運動員,不僅能在自己擅長的項目中獲勝,還能在各種不同的運動中擊敗專業(yè)選手。

Dreamer3實現(xiàn)了這些成就的方式非常高效。與其他需要大量計算資源的算法相比,Dreamer3能夠在有限的資源下取得優(yōu)異的結(jié)果。在某些基準(zhǔn)測試中,它的數(shù)據(jù)效率提高了1000%以上,這意味著它能夠用更少的嘗試次數(shù)學(xué)到更多的知識。
方法評析:穩(wěn)定學(xué)習(xí)的秘密配方
Dreamer3的世界模型是如何工作的?
想象你正在學(xué)習(xí)打籃球,你不會每次投籃都完全隨機,而是會根據(jù)之前的經(jīng)驗來調(diào)整姿勢。
Dreamer3的世界模型就像是一個內(nèi)部模擬器,它通過觀察環(huán)境的變化來學(xué)習(xí)"物理規(guī)則"。
這個模型由幾個關(guān)鍵部分組成:
序列模型就像是Dreamer3的記憶系統(tǒng),它記住了環(huán)境是如何隨時間變化的。就像你記得"如果我這樣投籃,球會沿這樣的軌跡運動"。
編碼器和解碼器則負(fù)責(zé)將復(fù)雜的感官輸入(如圖像)轉(zhuǎn)換為更簡單的表示,再從這些表示重建原始輸入。這就像是你看到籃球場的復(fù)雜場景,但大腦會自動提取關(guān)鍵信息:籃筐的位置、其他球員的站位等。
動態(tài)預(yù)測器預(yù)測下一個狀態(tài),獎勵預(yù)測器預(yù)測可能獲得的獎勵,而繼續(xù)預(yù)測器則預(yù)測任務(wù)是否結(jié)束。這三個組件共同工作,使Dreamer3能夠在腦海中"模擬"未來可能發(fā)生的情況。

Dreamer3的一個關(guān)鍵創(chuàng)新是它如何處理不同規(guī)模的信號。
在現(xiàn)實世界中,不同的信號有不同的重要性和規(guī)模。比如在駕駛時,路上的行人比路邊的樹更重要;在烹飪時,火候的控制比廚房的溫度更關(guān)鍵。Dreamer3使用了一種叫做"symlog"的技術(shù)來處理這個問題。
想象你是一個音樂制作人,需要調(diào)整不同樂器的音量。有些樂器聲音很大,如鼓,有些則很輕,如三角鐵。如果你簡單地放大所有聲音,鼓聲可能會過于震耳欲聾,而三角鐵的聲音可能仍然微不可聞。Dreamer3的symlog函數(shù)就像是一個智能音量調(diào)節(jié)器,它能夠適當(dāng)?shù)胤糯?小信號,同時防止大信號過度放大,使得所有信號都能被合理地處理。
Dreamer3的另一個重要的技術(shù)是自由位(free bits)。這個概念可能聽起來很抽象,但可以用一個簡單的比喻來解釋:想象你正在學(xué)習(xí)一門新語言,有些單詞你已經(jīng)掌握得很好,而有些則還很陌生。自由位就像是允許你在學(xué)習(xí)過程中對那些陌生的單詞給予更多的注意力,而不是平均分配注意力到所有單詞上。這使得Dreamer3能夠更有效地學(xué)習(xí)那些它還不太了解的環(huán)境特征。
Dreamer3在“評論員”學(xué)習(xí)方面也有創(chuàng)新。傳統(tǒng)的強化學(xué)習(xí)算法通常假設(shè)獎勵是立即可見的,就像是你投籃后立刻知道是否得分。但在許多實際問題中,獎勵可能是延遲的,就像是你現(xiàn)在的學(xué)習(xí)可能要等到幾年后才能看到職業(yè)上的回報。Dreamer3通過想象未來可能的軌跡,計算長期回報,從而解決了這個問題。
在“執(zhí)行者”學(xué)習(xí)方面,Dreamer3使用了一種固定的熵正則化器。這聽起來很復(fù)雜,但實際上就像是在學(xué)習(xí)過程中保持一定程度的探索。想象你在一個新城市尋找最好的餐廳。如果你只去評分最高的餐廳,你可能會錯過一些尚未被發(fā)現(xiàn)的美食。Dreamer3的熵正則化器就像是確保算法不會過早地固定在一種行為模式上,而是繼續(xù)探索新的可能性。
Dreamer3算法的一個顯著優(yōu)勢是它的穩(wěn)健性。在強化學(xué)習(xí)中,一個常見的問題是算法可能在某些環(huán)境中表現(xiàn)良好,但在稍有變化的環(huán)境中就完全失效,Dreamer3通過一系列的正則化技術(shù),如歸一化、平衡和變換,使得算法能夠在各種不同的環(huán)境中穩(wěn)定學(xué)習(xí)。
當(dāng)然,Dreamer3也有其局限性。
它的世界模型需要足夠的數(shù)據(jù)來學(xué)習(xí)環(huán)境的動態(tài)特性。在數(shù)據(jù)極其稀少的情況下,Dreamer3可能無法建立準(zhǔn)確的世界模型。
雖然Dreamer3在許多任務(wù)上表現(xiàn)出色,但在某些特定類型的問題上,專門設(shè)計的算法可能仍然有優(yōu)勢。Dreamer3的計算復(fù)雜度相對較高,這可能限制它在資源受限的設(shè)備上的應(yīng)用。
但不可否認(rèn)Dreamer3提供了一種更加通用和穩(wěn)健的學(xué)習(xí)范式,使AI系統(tǒng)能夠更接近人類那樣靈活地學(xué)習(xí)和適應(yīng)新環(huán)境。
結(jié)論:通向通用人工智能的基石
Dreamer3的真正價值在于證明了"世界模型"的通用潛力。
通過將"想象"能力引入AI系統(tǒng),研究團隊創(chuàng)造了一種能夠在多種不同任務(wù)中表現(xiàn)出色的通用算法。這項研究的意義遠(yuǎn)不止于解決特定的技術(shù)問題,它為我們思考AI系統(tǒng)如何學(xué)習(xí)和適應(yīng)提供了新的視角。
Dreamer3算法大大提高了數(shù)據(jù)效率。傳統(tǒng)的強化學(xué)習(xí)算法往往需要數(shù)百萬次甚至數(shù)十億次的嘗試才能掌握復(fù)雜任務(wù),這在實際應(yīng)用中是不切實際的。想象一個機器人需要摔倒數(shù)百萬次才能學(xué)會走路,或者一個自動駕駛系統(tǒng)需要發(fā)生數(shù)百萬次事故才能學(xué)會安全駕駛。Dreamer3通過在內(nèi)部模型中進行想象性規(guī)劃,大大減少了與環(huán)境交互的需求,使得學(xué)習(xí)過程更加高效。
同時Dreamer3展示了跨領(lǐng)域泛化的能力。在AI研究中,一個常見的問題是算法往往只在特定類型的任務(wù)上表現(xiàn)良好。就像是一個只會下圍棋的AI,換成國際象棋就完全不會玩。Dreamer3打破了這種局限,它能夠在從Atari游戲到機器人控制,再到Minecraft這樣復(fù)雜的3D環(huán)境中都表現(xiàn)出色。這種通用性對于構(gòu)建能夠在現(xiàn)實世界中適應(yīng)多種情況的AI系統(tǒng)至關(guān)重要。
Dreamer3的方式表明,模型驅(qū)動的方法可能是解決復(fù)雜強化學(xué)習(xí)問題的關(guān)鍵。
與直接從經(jīng)驗中學(xué)習(xí)的方法相比,通過建立世界模型并在這個模型中進行規(guī)劃的方法能夠更好地處理長期依賴和稀疏獎勵的問題。這就像是人類學(xué)習(xí)復(fù)雜技能時,不僅僅依靠試錯,還會在腦海中模擬和規(guī)劃。
從應(yīng)用場景來看,Dreamer3算法的潛力是巨大的。
在機器人領(lǐng)域,它可以幫助機器人更快地學(xué)習(xí)復(fù)雜的操作任務(wù),如抓取不規(guī)則物體或在復(fù)雜環(huán)境中導(dǎo)航。
在自動駕駛領(lǐng)域,它可以使系統(tǒng)更好地預(yù)測其他道路使用者的行為,并做出更安全的決策。
在游戲和虛擬環(huán)境中,它可以創(chuàng)造出更智能、更適應(yīng)性強的AI角色。
在醫(yī)療領(lǐng)域,類似Dreamer3的算法可以幫助預(yù)測患者對不同治療方案的反應(yīng),從而制定個性化的治療計劃。
在氣候科學(xué)中,它可以用于模擬和預(yù)測復(fù)雜的氣候系統(tǒng),幫助我們更好地理解和應(yīng)對氣候變化。
至頂AI實驗室洞見
Dreamer3在《我的世界》這樣復(fù)雜的環(huán)境中,能夠完成快速的找到并且收集鉆石的任務(wù),在我們看來,這不僅是技術(shù)上的成功,更是概念上的勝利。
即使在高度復(fù)雜、長期規(guī)劃和稀疏獎勵的環(huán)境中,基于模型的方法也能取得成功。這打破了強化學(xué)習(xí)只適用于簡單、即時反饋環(huán)境的刻板印象。
它改變了我們思考AI學(xué)習(xí)方式的角度,傳統(tǒng)的強化學(xué)習(xí)研究過于關(guān)注如何在特定環(huán)境中最大化獎勵,而忽視了學(xué)習(xí)過程的效率和通用性。這就像是我們教一個孩子下棋,只關(guān)注他能贏多少盤,而不關(guān)心他是否真正理解了游戲的策略,以及能否將這些策略應(yīng)用到其他游戲中。
Dreamer3算法通過引入世界模型和想象性規(guī)劃,將重點轉(zhuǎn)向了"理解環(huán)境"和"預(yù)測結(jié)果",這與人類學(xué)習(xí)新技能的方式更加接近。
未來,我們期待看到更多"逆向思維"的創(chuàng)新:或許未來不是讓人工智能適應(yīng)人類預(yù)設(shè)的任務(wù),而是讓它們像生命體般自主定義目標(biāo)。今天的世界模型技術(shù),可能就是打開通用智能之門的首把鑰匙。
論文地址:https://www.nature.com/articles/s41586-025-08744-2
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個人提供切實可行的解決方案。
熱門跟貼