
來(lái)源:學(xué)術(shù)頭條
作者:與可
只需使用一種通用算法,就可以解決來(lái)自各個(gè)應(yīng)用領(lǐng)域的各種任務(wù),一直是人工智能(AI)行業(yè)的基本挑戰(zhàn)之一。
如今,Google DeepMind在這一方向取得了新的突破。
他們開(kāi)發(fā)的第三代Dreamer通用算法,只需一次配置,就能在150多種不同任務(wù)中勝過(guò)專(zhuān)用方法。
據(jù)介紹,Dreamer 是第一個(gè)在沒(méi)有人類(lèi)數(shù)據(jù)或課程的情況下,從零開(kāi)始在《我的世界》中收集鉆石的算法,可以在不進(jìn)行大量實(shí)驗(yàn)的情況下,解決具有挑戰(zhàn)性的控制問(wèn)題,使強(qiáng)化學(xué)習(xí)具有更廣泛的適用性。
相關(guān)研究論文以
Mastering diverse control tasks through world models為題,于今日發(fā)布在權(quán)威科學(xué)期刊 Nature 上。

Dreamer 是怎樣煉成的?
目前的強(qiáng)化學(xué)習(xí)算法可以很容易地應(yīng)用于與之相似的任務(wù),但將其應(yīng)用于新的應(yīng)用領(lǐng)域則需要大量的人類(lèi)專(zhuān)業(yè)知識(shí)和實(shí)驗(yàn)。更專(zhuān)業(yè)的算法通常用于實(shí)現(xiàn)更高的性能,針對(duì)不同應(yīng)用領(lǐng)域提出的獨(dú)特挑戰(zhàn),如連續(xù)控制、離散動(dòng)作解析獎(jiǎng)勵(lì)、圖像輸入、空間環(huán)境和棋盤(pán)游戲。
將強(qiáng)化學(xué)習(xí)算法應(yīng)用于全新的任務(wù),例如從視頻游戲轉(zhuǎn)向機(jī)器人任務(wù)需要大量的精力、專(zhuān)業(yè)知識(shí)和計(jì)算資源來(lái)調(diào)整算法的超參數(shù)。這種脆性成為將強(qiáng)化學(xué)習(xí)應(yīng)用于新問(wèn)題的瓶頸,同時(shí)也限制了強(qiáng)化學(xué)習(xí)在計(jì)算昂貴的模型或任務(wù)中的適用性。
創(chuàng)建一種無(wú)需重新配置就能掌握新領(lǐng)域的通用算法,一直是人工智能領(lǐng)域的核心挑戰(zhàn),它將為強(qiáng)化學(xué)習(xí)帶來(lái)廣泛的實(shí)際應(yīng)用。
Google DeepMind 提出的第三代 Dreamer 算法實(shí)現(xiàn)了這一突破。
據(jù)介紹,Dreamer 由3個(gè)神經(jīng)網(wǎng)絡(luò)組成:世界模型預(yù)測(cè)潛在行動(dòng)的結(jié)果,評(píng)論者判斷每個(gè)結(jié)果的價(jià)值,行動(dòng)者選擇行動(dòng)以達(dá)到最有價(jià)值的結(jié)果。

圖|Dreamer 的訓(xùn)練過(guò)程
當(dāng)行動(dòng)者與環(huán)境互動(dòng)時(shí),這 3 個(gè)部分會(huì)根據(jù)重放的經(jīng)驗(yàn)同時(shí)進(jìn)行訓(xùn)練。要在不同領(lǐng)域取得成功,3 個(gè)部分都需要適應(yīng)不同的信號(hào)幅度,并在其目標(biāo)中魯棒地平衡各項(xiàng)條件。
世界模型通過(guò)自動(dòng)編碼學(xué)習(xí)感官輸入的緊湊表征,并通過(guò)預(yù)測(cè)潛在行動(dòng)的未來(lái)表征和獎(jiǎng)勵(lì)來(lái)實(shí)現(xiàn)規(guī)劃。行動(dòng)者和評(píng)論者神經(jīng)網(wǎng)絡(luò)純粹從世界模型預(yù)測(cè)的抽象軌跡表征中學(xué)習(xí)行為。行動(dòng)者在探索過(guò)程中通過(guò)熵正則學(xué)習(xí)選擇收益最大化的行動(dòng)。
Dreamer 使用 symlog 函數(shù)對(duì)編碼器輸入和解碼器目標(biāo)進(jìn)行向量觀測(cè)轉(zhuǎn)換,并對(duì)獎(jiǎng)勵(lì)預(yù)測(cè)器和批評(píng)器采用 synexp 雙熱損失。這些技術(shù)可以在許多不同領(lǐng)域?qū)崿F(xiàn)魯棒且快速的學(xué)習(xí)。
效果怎么樣?
在固定超參數(shù)下,研究團(tuán)隊(duì)從基準(zhǔn)、《我的世界》、消融、擴(kuò)展性4 個(gè)角度評(píng)估了Dreamer 在8 個(gè)領(lǐng)域、超過(guò)150 項(xiàng)任務(wù)的通用性。
他們首先進(jìn)行了廣泛的實(shí)證研究來(lái)評(píng)估基準(zhǔn),包括連續(xù)和離散動(dòng)作、視覺(jué)和低維輸入、密集和稀疏獎(jiǎng)勵(lì)、不同獎(jiǎng)勵(lì)尺度、二維和三維世界以及程序生成。
結(jié)果發(fā)現(xiàn),在適用的領(lǐng)域中,Dreamer 可以和最好的專(zhuān)用算法相媲美,甚至表現(xiàn)更好,無(wú)論它們是否基于模型。

圖|基準(zhǔn)分?jǐn)?shù)
《我的世界》是在一個(gè)獨(dú)特的隨機(jī)生成的無(wú)限三維世界中進(jìn)行的。在此期間,玩家需要通過(guò)尋找資源和制作工具,從稀少的獎(jiǎng)勵(lì)中發(fā)現(xiàn)一連串的 12 種物品。有經(jīng)驗(yàn)的人類(lèi)玩家大約需要20 分鐘才能獲得鉆石。
Dreamer 是第一個(gè)從零開(kāi)始在《我的世界》中收集鉆石的算法,不像VPT(視頻預(yù)訓(xùn)練)或自適應(yīng)課程要求使用人工數(shù)據(jù),這實(shí)現(xiàn)了 AI 領(lǐng)域的一個(gè)重要突破。所有 Dreamer 智能體都在 1 億個(gè)環(huán)境步數(shù)內(nèi)發(fā)現(xiàn)鉆石。

圖|Dreamer在《我的世界》鉆石挑戰(zhàn)中的表現(xiàn)
在消融方面,他們?cè)?strong>14 個(gè)任務(wù)的不同集合上消融了魯棒性技術(shù)和學(xué)習(xí)信號(hào),發(fā)現(xiàn)所有魯棒性技術(shù)都有助于提高性能,其中最顯著的是世界模型目標(biāo)的庫(kù)爾巴克-萊伯勒平衡和自由比特,其次是返回歸一化和用于獎(jiǎng)勵(lì)和價(jià)值預(yù)測(cè)的 symexp 雙熱回歸。
為了研究世界模型的影響,他們消除了 Dreamer 的學(xué)習(xí)信號(hào),方法是阻止特定任務(wù)的獎(jiǎng)勵(lì)和價(jià)值預(yù)測(cè)梯度或與任務(wù)無(wú)關(guān)的重構(gòu)梯度塑造其表征。
以往的強(qiáng)化學(xué)習(xí)算法通常只依賴(lài)于特定任務(wù)的學(xué)習(xí)信號(hào),而 Dreamer 則主要依賴(lài)于其世界模型的無(wú)監(jiān)督目標(biāo)。這為未來(lái)利用無(wú)監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的算法變體提供了可能。

圖|Dreamer 的消融
在擴(kuò)展性方面,他們?cè)?strong>Crafter和DMLab任務(wù)上訓(xùn)練了參數(shù)從 1200 萬(wàn)到 4 億不等的6 個(gè)模型,并采用了不同的重放比例,這會(huì)影響智能體執(zhí)行梯度更新的次數(shù)。增加模型大小可直接轉(zhuǎn)化為更高的任務(wù)性能和更低的數(shù)據(jù)要求,梯度步數(shù)的增加進(jìn)一步減少了學(xué)習(xí)成功行為所需的交互。
結(jié)果顯示,Dreamer 能在不同的模型大小和重放比例下穩(wěn)健地學(xué)習(xí),這為通過(guò)擴(kuò)展計(jì)算資源來(lái)提高性能提供了一種可預(yù)測(cè)的方法。

圖|Dreamer 的魯棒擴(kuò)展
作為一種基于學(xué)習(xí)世界模型的高性能算法,Dreamer 為未來(lái)的研究方向鋪平了道路,包括從互聯(lián)網(wǎng)視頻中向智能體傳授世界知識(shí),以及跨領(lǐng)域?qū)W習(xí)單一世界模型,讓智能體積累越來(lái)越多的通用知識(shí)和能力。
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828

未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線(xiàn)知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類(lèi)風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
截止到2月28日 ”未來(lái)知識(shí)庫(kù)”精選的100部前沿科技趨勢(shì)報(bào)告
熱門(mén)跟貼