
摘要
開發(fā)一種能夠廣泛學(xué)習(xí)解決各類任務(wù)的通用算法,一直是人工智能領(lǐng)域的根本性挑戰(zhàn)。盡管現(xiàn)有強化學(xué)習(xí)算法可輕松應(yīng)用于與其開發(fā)目標(biāo)相似的任務(wù),但要將其配置應(yīng)用于新領(lǐng)域,仍需耗費大量專業(yè)人力進行調(diào)試和實驗。本文提出的第三代Dreamer算法,僅憑單一配置就在150多個不同任務(wù)中超越了專業(yè)算法。該算法通過構(gòu)建環(huán)境模型,并借助對未來情景的推演來優(yōu)化行為。基于歸一化、平衡和轉(zhuǎn)換的魯棒性技術(shù),確保了跨領(lǐng)域?qū)W習(xí)的穩(wěn)定性。據(jù)我們所知,Dreamer是首個無需人類數(shù)據(jù)或課程設(shè)計,僅憑像素輸入和開放世界中稀疏獎勵,就能從零開始采集《我的世界》鉆石的算法——這一成就曾被學(xué)術(shù)界視為檢驗人工智能能否實現(xiàn)長遠像素級探索的重要挑戰(zhàn)。我們的研究使得無需大量實驗即可解決復(fù)雜控制問題,極大拓展了強化學(xué)習(xí)的應(yīng)用范圍。
關(guān)鍵詞:DeepMind、DreamerV3算法、通用強化學(xué)習(xí)(General RL)、世界模型(World Model)、《我的世界》(Minecraft)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning)、多任務(wù)泛化(Multi-task Generalization)
集智編輯部丨作者

論文題目:Mastering diverse control tasks through world models 發(fā)表時間:2025年4月2日 論文地址:https://www.nature.com/articles/s41586-025-08744-2 期刊名稱:Nature
在人工智能領(lǐng)域,開發(fā)一種無需調(diào)整超參數(shù)即可適應(yīng)多樣化任務(wù)的通用強化學(xué)習(xí)(RL)算法,一直是研究者追逐的“圣杯”。傳統(tǒng)RL算法(如PPO)需針對不同任務(wù)進行繁瑣調(diào)參,而專用算法(如MuZero)雖性能卓越卻難以遷移。2025年4月,Google DeepMind在《Nature》發(fā)表第三代Dreamer算法(DreamerV3),以單一固定配置在8大領(lǐng)域、150余項任務(wù)中超越專用算法,更在無需人類數(shù)據(jù)的情況下,首次實現(xiàn)AI從零開始通關(guān)《我的世界》鉆石收集任務(wù)。這一突破標(biāo)志著通用RL向現(xiàn)實應(yīng)用邁出關(guān)鍵一步。
DreamerV3的核心架構(gòu)
世界模型的平衡性:庫爾巴克-萊伯勒(KL)平衡和自由比特技術(shù)對穩(wěn)定訓(xùn)練至關(guān)重要。
無監(jiān)督目標(biāo)的主導(dǎo)性:即使屏蔽任務(wù)特定獎勵信號,Dreamer仍能通過世界模型的無監(jiān)督學(xué)習(xí)實現(xiàn)高效表征。這表明未來可通過互聯(lián)網(wǎng)視頻等無監(jiān)督數(shù)據(jù)進一步預(yù)訓(xùn)練模型。
4. 擴展性:模型規(guī)模與性能的正相關(guān)
在Crafter和DMLab任務(wù)中,團隊測試了參數(shù)規(guī)模從1200萬到4億的6個模型。結(jié)果顯示,更大的模型和更高的梯度更新次數(shù)直接提升了任務(wù)性能,同時降低了數(shù)據(jù)需求。這一發(fā)現(xiàn)為通過計算資源擴展提升AI能力提供了明確路徑。

圖 5. 消融和穩(wěn)健的 Dreamer 規(guī)??s放。
未來方向:從通用模型到通用智能
Dreamer的成功為AI研究開辟了多條新路徑:
跨領(lǐng)域世界模型:訓(xùn)練單一模型掌握多領(lǐng)域知識,實現(xiàn)真正的通用智能。
無監(jiān)督預(yù)訓(xùn)練:利用互聯(lián)網(wǎng)視頻等海量數(shù)據(jù),進一步提升模型的初始能力。
機器人應(yīng)用:將Dreamer的魯棒性遷移至現(xiàn)實世界的機器人控制任務(wù)。
DeepMind的這項研究不僅解決了強化學(xué)習(xí)的脆性問題,更推動了AI從“專用工具”向“通用助手”的轉(zhuǎn)變。隨著計算資源的增長和數(shù)據(jù)利用效率的提升,Dreamer或?qū)⒊蔀槲磥硗ㄓ萌斯ぶ悄艿幕弧?/p>
「AI時代的學(xué)習(xí):共探學(xué)習(xí)的復(fù)雜性」主題讀書會
在技術(shù)浪潮的沖擊下,智能時代對人才培養(yǎng)的需求正發(fā)生根本性轉(zhuǎn)變——學(xué)習(xí)已不再局限于簡單的知識傳遞與記憶,當(dāng)機器能夠替代程式化技能,人類的創(chuàng)造力、批判性思維與跨界協(xié)作能力將成為核心競爭力;當(dāng)知識更新周期以月甚至天為單位迭代,教育的使命不再是填鴨式灌輸,而是培養(yǎng)終身學(xué)習(xí)者的自適應(yīng)能力。
在此背景下,集智俱樂部聯(lián)合江南大學(xué)教授王志軍,北京師范大學(xué)教授崔光佐,翼鷗教育創(chuàng)始人宋軍波,TalkingBrain 聯(lián)合創(chuàng)始人林思恩,清華大學(xué)講師方可,北京師范大學(xué)博士后郭玉娟,共同發(fā)起。希望通過匯聚教育學(xué)、系統(tǒng)科學(xué)、腦科學(xué)、計算機科學(xué)、社會學(xué)等多領(lǐng)域交叉視角,突破單一學(xué)科的局限,對人類社會未來學(xué)習(xí)發(fā)展形成更加全面深入的認識。
詳情請見:
1.
2.
3.
4.
5.
6.
熱門跟貼