在线观看亚洲电影网站,免费www在线观看,看黄色片子一级片,成年奭片免费观看视频天天看,直接看黄色毛片

新智元報(bào)道

編輯：定慧英智

【新智元導(dǎo)讀】谷歌DeepMind研發(fā)的DreamerV3實(shí)現(xiàn)重大突破：無(wú)需任何人類(lèi)數(shù)據(jù)，通過(guò)強(qiáng)化學(xué)習(xí)與「世界模型」，自主完成《我的世界》中極具挑戰(zhàn)的鉆石收集任務(wù)。該成果被視為通往AGI的一大步，并已登上Nature。

AI又進(jìn)化了，在沒(méi)有任何人類(lèi)數(shù)據(jù)的參與下，自己玩《我的世界》還能找到鉆石！

在剛剛登上Nature的論文中，谷歌DeepMind的智能體通過(guò)純·自我學(xué)習(xí)，順利完成了收集鉆石的任務(wù)。

論文鏈接：https://www.nature.com/articles/s41586-025-08744-2

對(duì)此，DeepMind的計(jì)算機(jī)科學(xué)家Danijar Hafner表示：「Dreamer是一個(gè)重要的里程碑，標(biāo)志著AI又朝著通用人工智能前進(jìn)了一大步。」

又是AI和《我的世界》，為何這次就成了邁向AGI的一大步

用AI來(lái)挑戰(zhàn)《我的世界》早已是AI界「喜聞樂(lè)見(jiàn)」的項(xiàng)目了。

作為世界上排名第一且月活超過(guò)1億的游戲，《我的世界》可以說(shuō)是涵蓋了幾乎所有年齡段的人群。

早在兩三年前，包括OpenAI在內(nèi)的各個(gè)模型都有挑戰(zhàn)《我的世界》的嘗試。

更早在2019年，研究人員就認(rèn)為《我的世界》的開(kāi)放式游戲環(huán)境可能非常適合AI研究。

比如一個(gè)七歲的小孩在觀看了10分鐘演示視頻后就能學(xué)會(huì)如何在游戲中找到稀有的鉆石，而當(dāng)年的AI還遠(yuǎn)遠(yuǎn)做不到這一點(diǎn)。

AI從《我的世界》中的一個(gè)隨機(jī)位置開(kāi)始，必須完成某些任務(wù)來(lái)找到鉆石

為何這次DeepMind就敢說(shuō)是「通向AGI的一大步」呢？

這次的任務(wù)——在游戲內(nèi)尋找鉆石——聽(tīng)起來(lái)容易，但其實(shí)非常困難，「高玩」們也要花20-30分鐘才能找到一個(gè)鉆石。

給不熟悉游戲的朋友解釋下這個(gè)任務(wù)為什么這么困難：

1. 每一次的游戲場(chǎng)景都是隨機(jī)世界，包含各種地形的虛擬 3D 世界，包括森林、山脈、沙漠和沼澤，這讓AI無(wú)法只記住一種特定策略來(lái)作弊；

2. 想要獲得鉆石需要經(jīng)過(guò)一系列復(fù)雜的前置流程，并不是隨機(jī)在地圖尋找，比如你需要：

先找到樹(shù)木
然后將樹(shù)木分解為木材，木材也僅僅是用來(lái)制作一個(gè)工作臺(tái)
有了工作臺(tái)再加上更多的木材你才可以制作一個(gè)木頭鎬頭
然后才能開(kāi)始挖掘以尋找鉆石

鉆石恒久遠(yuǎn)，AI不疲倦
AI研究人員專(zhuān)注于在《我的世界》中尋找鉆石，Hafner說(shuō)因?yàn)檫@需要一系列復(fù)雜的步驟，是一個(gè)很長(zhǎng)的里程碑鏈條，因此它需要非常深入的探索。

DeepMind的Dreamer AI在《我的世界》中進(jìn)行了多次游戲?qū)W習(xí)如何收集鉆石

之前的嘗試讓AI系統(tǒng)收集鉆石依賴于使用人類(lèi)游戲的視頻或研究人員引導(dǎo)系統(tǒng)完成各個(gè)步驟。

相比之下，Dreamer通過(guò)強(qiáng)化學(xué)習(xí)的試錯(cuò)技術(shù)自行探索游戲的所有內(nèi)容——它識(shí)別出可能帶來(lái)獎(jiǎng)勵(lì)的動(dòng)作，重復(fù)這些動(dòng)作并放棄其他動(dòng)作。

強(qiáng)化學(xué)習(xí)是一些重大AI進(jìn)展的基礎(chǔ)，但之前的程序都是專(zhuān)家型的——它們無(wú)法從零開(kāi)始在新領(lǐng)域應(yīng)用知識(shí)。

成功的關(guān)鍵是構(gòu)建「世界模型」

Dreamer成功的關(guān)鍵在于它構(gòu)建了周?chē)h(huán)境的模型，并使用這個(gè)世界模型來(lái)「想象」未來(lái)的情景并指導(dǎo)決策。

就像我們自己的抽象思維一樣，世界模型并不是周?chē)h(huán)境的精確復(fù)制品。

世界模型允許Dreamer嘗試不同的事情，「世界模型真正賦予了人工智能系統(tǒng)想象未來(lái)的能力」Hafner 說(shuō)。

這種能力還可能有助于創(chuàng)造能夠在現(xiàn)實(shí)世界中學(xué)習(xí)互動(dòng)的機(jī)器人——在現(xiàn)實(shí)世界中，試錯(cuò)的成本要比在視頻游戲中高得多。

研究團(tuán)隊(duì)一開(kāi)始并不是奔著「鉆石測(cè)試」去研究的，測(cè)試Dreamer在鉆石挑戰(zhàn)上的表現(xiàn)是一個(gè)事后的想法。

「在構(gòu)建整個(gè)算法時(shí)并沒(méi)有考慮到這一點(diǎn)」，Hafner 說(shuō)，但團(tuán)隊(duì)意識(shí)到，這是測(cè)試其算法是否能夠開(kāi)箱即用、處理不熟悉任務(wù)的理想方式。

在《我的世界》中，團(tuán)隊(duì)使用了一種協(xié)議，每當(dāng)Dreamer完成鉆石收集過(guò)程中涉及的12個(gè)逐步步驟之一時(shí)，就會(huì)獲得一個(gè)「+1」的獎(jiǎng)勵(lì)——這些步驟包括制作木板和熔爐、開(kāi)采鐵礦并鍛造鐵鎬。

這些中間獎(jiǎng)勵(lì)促使 Dreamer 選擇了更有可能獲得鉆石的動(dòng)作。團(tuán)隊(duì)每 30 分鐘重置一次游戲，這樣Dreamer就不會(huì)適應(yīng)某個(gè)特定的配置——而是學(xué)會(huì)了獲得更多獎(jiǎng)勵(lì)的一般規(guī)則。

在這種設(shè)置下，Dreamer需要連續(xù)玩大約九天才能找到至少一顆鉆石。

而高手玩家找到一顆鉆石需要20到30分鐘，新手則需要更長(zhǎng)的時(shí)間。

在Minecraft中進(jìn)行鉆石挑戰(zhàn)
游戲中的每一次都設(shè)定在一個(gè)獨(dú)特的隨機(jī)生成且無(wú)限的三維世界中。每一次持續(xù)到玩家死亡或達(dá)到36,000步（相當(dāng)于30分鐘），根據(jù)MineRL競(jìng)賽提供的動(dòng)作形成了一個(gè)分類(lèi)動(dòng)作空間，其中包括抽象的制作動(dòng)作。

據(jù)DeepMind宣稱(chēng)，Dreamer是第一個(gè)在不使用人類(lèi)數(shù)據(jù)的情況下從零開(kāi)始在《我的世界》中收集鉆石的算法。

所有的Dreamer智能體都在一億次步驟內(nèi)發(fā)現(xiàn)了鉆石。所有物品的成功率顯示在圖右擴(kuò)展數(shù)據(jù)中。

盡管其他幾個(gè)強(qiáng)大的算法（例子中的PPO、Rainbow和IMPALA）進(jìn)展到了諸如鐵鎬等高級(jí)物品，但沒(méi)有一個(gè)發(fā)現(xiàn)鉆石。

Dreamer算法核心原理

Dreamer算法的核心是學(xué)習(xí)一個(gè)世界模型。這就像是智能體的大腦，讓智能體具備豐富的感知能力，通過(guò)想象未來(lái)場(chǎng)景來(lái)規(guī)劃行動(dòng)。算法由三個(gè)關(guān)鍵的神經(jīng)網(wǎng)絡(luò)組成：世界模型、評(píng)論家網(wǎng)絡(luò)和行動(dòng)者網(wǎng)絡(luò)。世界模型通過(guò)自動(dòng)編碼學(xué)習(xí)感官輸入的表示，并通過(guò)預(yù)測(cè)潛在動(dòng)作的未來(lái)表示和獎(jiǎng)勵(lì)來(lái)實(shí)現(xiàn)規(guī)劃。將世界模型實(shí)現(xiàn)為遞歸狀態(tài)空間模型，如圖所示。

評(píng)論家網(wǎng)絡(luò)則對(duì)世界模型預(yù)測(cè)的每個(gè)結(jié)果進(jìn)行價(jià)值判斷，評(píng)估這個(gè)結(jié)果對(duì)實(shí)現(xiàn)目標(biāo)的幫助有多大。

行動(dòng)者網(wǎng)絡(luò)根據(jù)評(píng)論家的判斷，選擇能達(dá)到最佳結(jié)果的行動(dòng)。

這三個(gè)網(wǎng)絡(luò)相互協(xié)作，在智能體與環(huán)境交互的過(guò)程中，通過(guò)重放經(jīng)驗(yàn)同時(shí)進(jìn)行訓(xùn)練。

在訓(xùn)練過(guò)程中，世界模型的學(xué)習(xí)至關(guān)重要。它要學(xué)習(xí)從感官輸入中提取有用信息，還要預(yù)測(cè)未來(lái)的狀態(tài)和獎(jiǎng)勵(lì)。

為實(shí)現(xiàn)這一目標(biāo)，世界模型需要最小化預(yù)測(cè)損失、動(dòng)態(tài)損失和表示損失。

預(yù)測(cè)損失用于訓(xùn)練解碼器和獎(jiǎng)勵(lì)預(yù)測(cè)器，動(dòng)態(tài)損失訓(xùn)練序列模型預(yù)測(cè)下一個(gè)表示，表示損失則讓表示更具可預(yù)測(cè)性。

圖中可視化了世界模型的長(zhǎng)期視頻預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果

DeepMind團(tuán)隊(duì)在8個(gè)領(lǐng)域的150多個(gè)任務(wù)中評(píng)估Dreamer算法的通用性，包括連續(xù)和離散動(dòng)作、視覺(jué)和低維輸入、密集和稀疏獎(jiǎng)勵(lì)、不同的獎(jiǎng)勵(lì)尺度、二維和三維世界以及程序生成。