
新智元報道
編輯:Aeneas 好困
【新智元導(dǎo)讀】谷歌DeepMind最新基礎(chǔ)世界模型Genie 2登場!只要一張圖,就能生成長達1分鐘的游戲世界。從此,我們將擁有無限的具身智能體訓(xùn)練數(shù)據(jù)。更有人驚呼:黑客帝國來了。
就在剛剛,谷歌DeepMind的第二代大規(guī)模基礎(chǔ)世界模型Genie 2誕生了!

從此,AI可以生成各種一致性的世界,最長可玩1分鐘。
谷歌研究人員表示,相信Genie 2可以解鎖具身智能體的下一波能力。

從第一人稱的真實世界場景,到第三人稱的駕駛環(huán)境,Genie 2生成了一個720p的世界。
給定一幅圖像,它就能模擬出世界動態(tài),創(chuàng)建一個可通過鍵盤和鼠標(biāo)輸入的、可操作的一致環(huán)境。
具身智能體的潛力有多大?
在以下這個Imagen 3生成的世界中,研究者測試出最新的智能體是否可以遵循語言指令,走到紅門或藍(lán)門。
結(jié)果令人驚喜!
就這樣,現(xiàn)在我們擁有了一條通往無限環(huán)境的道路,來訓(xùn)練和評估具身智能體了。
研究者創(chuàng)造了一個有3個拱門的世界后,Genie 2再次模擬了這個世界,讓團隊解決了任務(wù)。
對此,網(wǎng)友們紛紛表示贊嘆:」這項工作實在是太棒了!今后,我們終于可以將開放式智能體與開放世界模型結(jié)合起來。我們正在朝著近乎無限的訓(xùn)練數(shù)據(jù)體系邁進。」

還有網(wǎng)友表示:「黑客帝國」的世界,要來了!

為未來的通用智能體,生成無限多樣的訓(xùn)練環(huán)境
作為一種基礎(chǔ)世界生成模型,Genie 2能生成無限多樣的、可操控且可玩的3D環(huán)境,用于訓(xùn)練和評估具身智能體。
基于一張?zhí)崾驹~圖像,它就可被人類或AI智能體操作了!方式是使用鍵盤和鼠標(biāo)輸入。
在AI研究中,游戲一直扮演著至關(guān)重要的角色。因為具有以引人入勝的特性、獨特的挑戰(zhàn)組合以及可衡量的進展,游戲成為了安全測試和提升AI能力的理想環(huán)境。
自Google DeepMind成立以來,游戲一直都是研究的核心——從早期的Atari游戲研究,到AlphaGo和AlphaStar等突破性成果,再到與游戲開發(fā)者合作研究通用智能體。
然而,訓(xùn)練更通用的具身智能體,卻因缺乏足夠豐富和多樣化的訓(xùn)練環(huán)境而受到限制。
但現(xiàn)在,Genie 2的誕生改變了一切。
從此,未來的智能體可以在無限的新世界場景中進行訓(xùn)練和評估了。
交互式體驗原型設(shè)計的新型創(chuàng)意工作流程,也有了全新的可能性。

基礎(chǔ)世界模型的涌現(xiàn)能力
迄今為止,世界模型在很大程度上都受限于對狹窄領(lǐng)域的建模。
在Genie 1中,研究人員引入了一種生成多樣化二維世界的方法。
而到了Genie 2這一代,在通用性上實現(xiàn)了重大突破——它能生成豐富多樣的3D世界了。
Genie 2是一種世界模型,這就意味著,它可以模擬虛擬世界,包括采取任何行動(如跳躍、游泳等)的后果。
基于大規(guī)模視頻數(shù)據(jù)集進行訓(xùn)練后,它像其他生成式AI模型一樣,展現(xiàn)出了各種規(guī)模的涌現(xiàn)能力,例如物體交互、復(fù)雜的角色動畫、物理效果、建模、預(yù)測其他智能體行為的能力等等。
對于每個人類與Genie 2互動的demo,模型都以由Imagen 3生成的單張圖片作為提示詞輸入,
這就意味著,任何人都可以用文字描述自己想要的世界,選擇自己喜歡的渲染效果,然后進入這個新創(chuàng)建的世界,并且與之互動(或者,也可以讓AI智能體在其中被訓(xùn)練或評估)。
每一步,人或智能體都能通過鍵盤和鼠標(biāo)提供動作,而Genie 2會模擬下一步的觀察結(jié)果。
在長達一分鐘的時間里,Genie 2可以生成一個一致的世界,持續(xù)時間直接長達10-20秒!
動作控制
Genie 2能夠智能響應(yīng)通過鍵盤按鍵采取的動作,識別角色并正確移動。
例如,模型必須計算出,箭頭鍵應(yīng)該移動機器人,而不是移動樹木或云朵。
一個在樹林中的可愛的人形機器人
一個在古埃及的人形機器人
在紫色的星球上,以機器人第一人稱視角觀察
在現(xiàn)代都市的公寓中,以機器人第一人稱視角觀察
生成反事實
Genie 2能夠基于同一個開始畫面,創(chuàng)造出多個不同的發(fā)展。
這意味著我們可以為AI訓(xùn)練提供各種「如果這樣做會怎樣」的場景。
在下面的這兩行demo中,每個視頻都會從完全相同的畫面開始,但人類玩家會選擇不同行動。
長時間記憶
Genie 2能夠記住那些暫時離開畫面的場景,并在它們重新進入視野時,精確地還原出來。
持續(xù)生成新場景
Genie 2能在過程中實時創(chuàng)造出符合邏輯的新場景內(nèi)容,并且可以在長達一分鐘的時間內(nèi)保持整個世界的一致性。
多樣化環(huán)境
Genie 2能夠生成多種不同的觀察視角,比如第一人稱視角、等距視角(45度俯視角)或第三人稱駕駛視角。
3D結(jié)構(gòu)
Genie 2能夠創(chuàng)建復(fù)雜的3D視覺場景。
物體屬性與交互
Genie 2能夠建模各種物體交互,例如氣球爆裂、開門和射擊炸藥桶。
角色動畫
Genie 2能夠為不同類型的角色,制作各種動作的動畫。
NPC
Genie 2能夠為其他智能體建模,甚至與它們進行復(fù)雜交互。
物理效果
Genie 2能夠模擬出水面的動效。
煙霧
Genie 2能夠模擬煙霧的效果。
重力
Genie 2能夠模擬重力。
光照
Genie 2能夠模擬點光源和方向光。
反射
Genie 2能夠模擬反射、泛光和彩色光照。
基于真實圖像的模擬
Genie 2還可以將真實世界的圖像作為提示詞輸入,并模擬出草葉在風(fēng)中搖曳或河水流動等場景。
快速創(chuàng)建測試原型
有了Genie 2,制作多樣化的交互場景就變得簡單了。
研究人員可以快速嘗試新環(huán)境,來訓(xùn)練和測試具身AI智能體。
例如,下面就是研究人員向Genie 2輸入Imagen 3生成的不同圖像,來模擬操控紙飛機、飛龍、獵鷹或降落傘等不同的飛行方式。
在這個過程中,也同時測試了Genie處理不同控制對象動作時的表現(xiàn)。
憑借強大的離散泛化能力,Genie 2可以將概念設(shè)計圖和手繪草圖轉(zhuǎn)化為可實際交互的場景。
從而讓藝術(shù)家和設(shè)計師能夠快速驗證創(chuàng)意,提升場景設(shè)計的效率,并加快相關(guān)研究的進度。
以下是由概念設(shè)計師創(chuàng)作出的一些虛擬場景示例。
AI智能體在世界模型中行動
借助Genie 2,研究人員能夠快速構(gòu)建出豐富多樣的虛擬環(huán)境,并創(chuàng)造全新的評估任務(wù),來測試AI智能體在從未接觸過的場景中的表現(xiàn)。
下面這個demo,就是由谷歌DeepMind與游戲開發(fā)者共同開發(fā)的SIMA智能體,它能夠在Genie 2僅通過一張圖片生成的全新環(huán)境中,準(zhǔn)確理解并完成各種指令。

prompt:一張第三人稱開放世界探索游戲的截圖。畫面中的玩家是一名在森林中探索的冒險者。左邊有一座紅門的房子,右邊有一座藍(lán)門的房子。鏡頭正對著玩家的身后。#寫實風(fēng)格 #身臨其境
SIMA智能體的目標(biāo)是,能夠在多樣化的3D游戲環(huán)境中,通過自然語言指令完成各種任務(wù)。
在這里,團隊使用Genie 2生成了一個包含兩扇門(藍(lán)色和紅色)的3D環(huán)境,并向SIMA智能體提供了打開每扇門的指令。
過程中,SIMA通過鍵盤和鼠標(biāo)來控制游戲角色,而Genie 2負(fù)責(zé)實時生成游戲畫面。
打開藍(lán)色的門
打開紅色的門
不僅如此,我們還可以借助SIMA來評估Genie 2的各項能力。
比如,通過讓SIMA在場景中四處查看并探索房屋背后的區(qū)域,測試Genie 2是否能夠生成一致性的環(huán)境。
轉(zhuǎn)身
去房子后面
盡管這項研究還處于起步階段,無論是AI智能體的表現(xiàn),還是環(huán)境的生成都還有待提升。
但研究人員認(rèn)為,Genie 2是解決安全訓(xùn)練具身智能體這一結(jié)構(gòu)性問題的路徑,同時也能夠?qū)崿F(xiàn)通向通用人工智能(AGI)所需的廣度和通用性。

prompt:一個電腦游戲場景,展示了一座粗獷的石洞或礦洞內(nèi)部。畫面采用第三人稱視角,鏡頭在主角上方俯視著。主角是一位手持長劍的騎士。騎士面前矗立著三座石砌的拱門,他可以選擇進入任一道門。透過第一扇門,可以看到隧道內(nèi)生長著散發(fā)熒光的奇異綠色植物。第二扇門后是一條長廊,洞壁上布滿了鉚接的鐵板,遠(yuǎn)處隱約透出令人不安的光芒。第三扇門內(nèi)則是一段粗糙的石階,蜿蜒通向未知的高處。
走上樓梯
去有植物的地方
去中間的門
擴散世界模型
Genie 2是一種基于大規(guī)模視頻數(shù)據(jù)集訓(xùn)練的自回歸潛變量擴散模型。
其中,視頻的潛變量幀首先先會由自動編碼器進行處理,然后被傳遞給一個基于類似LLM中因果掩碼訓(xùn)練的大規(guī)模Transformer動態(tài)模型。
在推理階段,Genie 2可以以自回歸的方式進行采樣,逐幀利用單個動作和先前的潛變量幀。期間,無分類器指導(dǎo)(classifier-free guidance)會被用于提高動作的可控性。

值得注意的是,上文中的演示均由未經(jīng)蒸餾的「滿血版」基礎(chǔ)模型生成,從而充分地展示技術(shù)潛在的能力。
當(dāng)然,也可以實時運行經(jīng)過蒸餾的版本(distilled version),但輸出質(zhì)量會相應(yīng)降低。
花絮
除了這些酷炫的demo之外,團隊還在生成過程中發(fā)現(xiàn)了很多有意思的花絮:
在花園里站著發(fā)呆,突然間,一個幽靈出現(xiàn)了
這位朋友更喜歡在雪場里跑酷,而不是老老實實地用滑雪板滑雪
能力越大,責(zé)任越大
致謝
最后,谷歌DeepMind團隊放出了一個長長的致謝名單。

參考資料:
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
熱門跟貼