打開網(wǎng)易新聞 查看精彩圖片

摘要

開發(fā)一種能夠廣泛學(xué)習(xí)解決各類任務(wù)的通用算法,一直是人工智能領(lǐng)域的根本性挑戰(zhàn)。盡管現(xiàn)有強化學(xué)習(xí)算法可輕松應(yīng)用于與其開發(fā)目標(biāo)相似的任務(wù),但要將其配置應(yīng)用于新領(lǐng)域,仍需耗費大量專業(yè)人力進行調(diào)試和實驗。本文提出的第三代Dreamer算法,僅憑單一配置就在150多個不同任務(wù)中超越了專業(yè)算法。該算法通過構(gòu)建環(huán)境模型,并借助對未來情景的推演來優(yōu)化行為。基于歸一化、平衡和轉(zhuǎn)換的魯棒性技術(shù),確保了跨領(lǐng)域?qū)W習(xí)的穩(wěn)定性。據(jù)我們所知,Dreamer是首個無需人類數(shù)據(jù)或課程設(shè)計,僅憑像素輸入和開放世界中稀疏獎勵,就能從零開始采集《我的世界》鉆石的算法——這一成就曾被學(xué)術(shù)界視為檢驗人工智能能否實現(xiàn)長遠像素級探索的重要挑戰(zhàn)。我們的研究使得無需大量實驗即可解決復(fù)雜控制問題,極大拓展了強化學(xué)習(xí)的應(yīng)用范圍。

關(guān)鍵詞:DeepMind、DreamerV3算法、通用強化學(xué)習(xí)(General RL)、世界模型(World Model)、《我的世界》(Minecraft)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning)、多任務(wù)泛化(Multi-task Generalization)

集智編輯部丨作者

打開網(wǎng)易新聞 查看精彩圖片

論文題目:Mastering diverse control tasks through world models 發(fā)表時間:2025年4月2日 論文地址:https://www.nature.com/articles/s41586-025-08744-2 期刊名稱:Nature

在人工智能領(lǐng)域,開發(fā)一種無需調(diào)整超參數(shù)即可適應(yīng)多樣化任務(wù)的通用強化學(xué)習(xí)(RL)算法,一直是研究者追逐的“圣杯”。傳統(tǒng)RL算法(如PPO)需針對不同任務(wù)進行繁瑣調(diào)參,而專用算法(如MuZero)雖性能卓越卻難以遷移。2025年4月,Google DeepMind在《Nature》發(fā)表第三代Dreamer算法(DreamerV3),以單一固定配置在8大領(lǐng)域、150余項任務(wù)中超越專用算法,更在無需人類數(shù)據(jù)的情況下,首次實現(xiàn)AI從零開始通關(guān)《我的世界》鉆石收集任務(wù)。這一突破標(biāo)志著通用RL向現(xiàn)實應(yīng)用邁出關(guān)鍵一步。

DreamerV3的核心架構(gòu)

Dreamer的核心創(chuàng)新在于其獨特的“世界模型-評論者-行動者(World Model-Critic-Actor)”架構(gòu),由三個

1. 世界模型將高維感官輸入(如圖像)壓縮為低維表征(Latent Representation),并預(yù)測潛在行動的未來狀態(tài)和獎勵,其關(guān)鍵組件包括編碼器、序列模型和動態(tài)預(yù)測器。

2. 評論者(Critic):評估想象軌跡的長期價值,采用雙熱分布回歸(Two-hot Regression)處理多模態(tài)獎勵。

3. 行動者(Actor):根據(jù)世界模型的預(yù)測和評論者的評估,基于歸一化回報(Return Normalization)和熵正則化(Entropy Regularization)選擇最優(yōu)行動以最大化收益。

與傳統(tǒng)RL算法不同,Dreamer完全依賴世界模型生成的抽象軌跡進行決策,而非直接與環(huán)境交互。這種設(shè)計能夠顯著降低計算成本,同時提高算法的通用性。

打開網(wǎng)易新聞 查看精彩圖片

圖 1. Dreamer的訓(xùn)練過程

關(guān)鍵技術(shù):提升跨領(lǐng)域穩(wěn)定性

為實現(xiàn)跨領(lǐng)域魯棒性,DreamerV3引入四項核心技術(shù):

1. Symlog-Symexp變換對輸入和獎勵進行雙對稱對數(shù)壓縮,避免極端值干擾

2. KL平衡與自由比特動態(tài)調(diào)整世界模型的目標(biāo)函數(shù)權(quán)重,防止表征崩塌(Collapse)

3. 百分位回報歸一化(Percentile Return Normalization)將回報縮放至[0,1]區(qū)間,平衡探索與利用

4. 雙熱損失(Two-hot Loss)將連續(xù)值預(yù)測轉(zhuǎn)化為分類問題,可解決多模態(tài)分布難題

這些技術(shù)共同作用,使DreamerV3在從Atari游戲到機器人控制的跨越中保持超參數(shù)不變。

打開網(wǎng)易新聞 查看精彩圖片

圖 2. 世界模型的視頻預(yù)測。



性能驗證:碾壓專用算法

研究團隊從四個維度驗證了Dreamer的性能:

1. 基準測試:全面覆蓋多樣化任務(wù)

在包括連續(xù)控制(如機器人運動)、離散動作(如游戲操作)、視覺輸入(如像素級決策)等8個領(lǐng)域的150多項任務(wù)中,Dreamer的表現(xiàn)與專用算法相當(dāng)甚至更優(yōu)。例如,在Atari游戲和機器人控制任務(wù)中,Dreamer無需調(diào)整即可達到頂尖水平,證明了其泛化能力。

打開網(wǎng)易新聞 查看精彩圖片

圖 3. 基準測試分數(shù)。

2.《我的世界》鉆石挑戰(zhàn):無人類數(shù)據(jù)的突破

《我的世界》的鉆石收集任務(wù)需要智能體通過復(fù)雜的行為鏈(如資源采集、工具制作)達成目標(biāo),人類玩家通常需20分鐘完成。此前,AI算法需依賴人類數(shù)據(jù)(如視頻預(yù)訓(xùn)練VPT)或課程學(xué)習(xí),而Dreamer首次在無任何先驗知識的情況下,僅通過1億環(huán)境步數(shù)(約10小時)成功挖到鉆石,這一成果展示了無監(jiān)督學(xué)習(xí)的巨大潛力。

打開網(wǎng)易新聞 查看精彩圖片

圖 4. 《我的世界》鉆石挑戰(zhàn)的表現(xiàn)。

3. 消融實驗:魯棒性技術(shù)的關(guān)鍵作用

通過消融研究,團隊驗證了Dreamer各組件的重要性:

4. 擴展性:模型規(guī)模與性能的正相關(guān)

在Crafter和DMLab任務(wù)中,團隊測試了參數(shù)規(guī)模從1200萬到4億的6個模型。結(jié)果顯示,更大的模型和更高的梯度更新次數(shù)直接提升了任務(wù)性能,同時降低了數(shù)據(jù)需求。這一發(fā)現(xiàn)為通過計算資源擴展提升AI能力提供了明確路徑。

打開網(wǎng)易新聞 查看精彩圖片

圖 5. 消融和穩(wěn)健的 Dreamer 規(guī)??s放。

未來方向:從通用模型到通用智能

Dreamer的成功為AI研究開辟了多條新路徑:

DeepMind的這項研究不僅解決了強化學(xué)習(xí)的脆性問題,更推動了AI從“專用工具”向“通用助手”的轉(zhuǎn)變。隨著計算資源的增長和數(shù)據(jù)利用效率的提升,Dreamer或?qū)⒊蔀槲磥硗ㄓ萌斯ぶ悄艿幕弧?/p>

「AI時代的學(xué)習(xí):共探學(xué)習(xí)的復(fù)雜性」主題讀書會

在技術(shù)浪潮的沖擊下,智能時代對人才培養(yǎng)的需求正發(fā)生根本性轉(zhuǎn)變——學(xué)習(xí)已不再局限于簡單的知識傳遞與記憶,當(dāng)機器能夠替代程式化技能,人類的創(chuàng)造力、批判性思維與跨界協(xié)作能力將成為核心競爭力;當(dāng)知識更新周期以月甚至天為單位迭代,教育的使命不再是填鴨式灌輸,而是培養(yǎng)終身學(xué)習(xí)者的自適應(yīng)能力。

在此背景下,集智俱樂部聯(lián)合江南大學(xué)教授王志軍,北京師范大學(xué)教授崔光佐,翼鷗教育創(chuàng)始人宋軍波,TalkingBrain 聯(lián)合創(chuàng)始人林思恩,清華大學(xué)講師方可,北京師范大學(xué)博士后郭玉娟,共同發(fā)起。希望通過匯聚教育學(xué)、系統(tǒng)科學(xué)、腦科學(xué)、計算機科學(xué)、社會學(xué)等多領(lǐng)域交叉視角,突破單一學(xué)科的局限,對人類社會未來學(xué)習(xí)發(fā)展形成更加全面深入的認識。


詳情請見:

1.

2.

3.

4.

5.

6.