智東西
作者 ZeR0
編輯 漠影
智東西12月5日報道,AGI競賽愈演愈烈!就在OpenAI宣布將于未來12天直播新發(fā)布和demo前,昨夜,Google DeepMind發(fā)布大型基礎(chǔ)世界模型Genie 2,能生成各種可控制動作、可玩的3D環(huán)境,還可以用于訓(xùn)練和評估具身agent。
只要給一張?zhí)崾緢D像,Genie 2就能按照你輸入的文本提示,生成對應(yīng)的交互式虛擬世界。無論是人類還是AI agent,都可以使用鍵盤和鼠標(biāo)來在由AI生成的3D游戲世界里探索和互動。
//oss.zhidx.com/uploads/2024/12/6750c0526aac0_6750c0525e714_6750c0525e6ef_genie2_1.mp4
Genie 2是一個自回歸潛在擴(kuò)散模型,訓(xùn)練于大型視頻數(shù)據(jù)集。經(jīng)過自動編碼器后,視頻中的潛在幀被傳遞到大型Transformer動力學(xué)模型。該模型使用與大語言模型類似的因果掩碼進(jìn)行訓(xùn)練。
在推理時,Genie 2能以自回歸方式進(jìn)行采樣,逐幀獲取單個動作和過去的潛在幀。Google DeepMind使用CFG(無分類器指導(dǎo),classifier-free guidance)來提高動作可控性。

博客文章放出大量由未蒸餾的基礎(chǔ)模型生成的視頻示例,來展示Genie 2在行動控制、生成反設(shè)事實(shí)、長視界記憶、長視頻生成、多樣環(huán)境、3D結(jié)構(gòu)、物體交互、復(fù)雜角色動畫、NPC、物理、煙霧、光影、快速原型設(shè)計方面的效果與優(yōu)勢。蒸餾版本支持實(shí)時交互,但運(yùn)行時的視覺質(zhì)量會降低些。
輸入真實(shí)世界的照片后,它也能很好模擬一些物理規(guī)律,比如可模擬風(fēng)中搖曳的草或河中流動的水。
一、超強(qiáng)空間記憶能力,模擬真實(shí)世界環(huán)境
此前世界模型在很大程度上局限于建模狹窄的領(lǐng)域。Genie 1引入了一種生成各種2D世界的方法。Genie 2則進(jìn)一步在通用性上取得進(jìn)展,可以生成種類繁多的豐富3D世界。
以下是與Genie 2互動的一些示例視頻。模型會使用文生圖模型Imagen 3生成的單個圖像,按照提示詞生成一個可交互的3D世界。人或agent進(jìn)行鍵鼠操作,進(jìn)入這個新創(chuàng)建的世界并與之互動。Genie 2可以生成長達(dá)1分鐘的一致世界,大多數(shù)示例持續(xù)10-20秒(本文將部分視頻示例轉(zhuǎn)成gif動圖并只截取片段,完整視頻請到原博客文章查看)。
1、智能響應(yīng)鍵盤按鍵操作
Genie 2可以智能地響應(yīng)鍵盤上的按鍵操作,正確地識別并移動角色。比如下圖中的幾個示例,模型必須能弄清楚方向按鍵對應(yīng)要移動的是機(jī)器人,而不是畫面中的樹、云等其他物體。
樹林里的一個可愛的人形機(jī)器人。
古埃及的人形機(jī)器人。
紫色星球上的機(jī)器人的第一視角。
大城市閣樓公寓中的機(jī)器人的第一視角。
2、生成反設(shè)事實(shí)
Genie 2可以從同一起始幀生成不同的軌跡,為訓(xùn)練agent模擬不同事實(shí)的體驗(yàn)。在每一行中,每個視頻都從同一幀開始,但人類玩家采取的動作不同,生成的畫面內(nèi)容也響應(yīng)不同。
3、長視界記憶
Genie 2能夠記住視野中不再存在的世界部分,并在它們再次可見時準(zhǔn)確呈現(xiàn)。
4、使用新生成的內(nèi)容生成長視頻
Genie 2可動態(tài)生成新的合理內(nèi)容,并在長達(dá)1分鐘的時間內(nèi)維持一致的世界。
//oss.zhidx.com/uploads/2024/12/6750b1fa5e150_6750b1fa51825_6750b1fa517f9_10long_video_2.mp4
//oss.zhidx.com/uploads/2024/12/6750b22bb8c7d_6750b22bb27d1_6750b22bb27ac_12long_video_1.mp4
5、多樣化環(huán)境
Genie 2可創(chuàng)建不同的視角,例如第一視角、等距視圖或第三視角駕駛視頻。
6、3D結(jié)構(gòu)
Genie 2會創(chuàng)建復(fù)雜的3D視覺場景。
7、模擬對象相互作用
Genie 2能模擬各種物體的相互作用,例如爆破氣球、打開門和射擊炸藥桶。
8、角色動畫
Genie 2學(xué)習(xí)了如何為不同類型的角色制作動畫來執(zhí)行不同的活動。
9、NPC
Genie 2能夠模擬其他agent,甚至與它們進(jìn)行復(fù)雜的交互。
10、物理
Genie 2模擬水效果。
11、煙霧
Genie 2模擬煙霧效果。
12、重力
Genie 2模擬重力。
13、燈光
Genie 2模擬光點(diǎn)和定向照明。
14、反射
Genie 2模擬反射、噴霧減光和彩色燈光。
二、理解物理世界差異,可將概念圖轉(zhuǎn)化成交互式環(huán)境
Genie 2模型可快速創(chuàng)建各種交互體驗(yàn)的原型。例如用Imagen 3生成不同圖像,讓Genie 2生成模擬紙飛機(jī)、龍、鷹、降落傘飛行的視頻??梢钥吹紾enie 2生成的視頻能夠理解并模擬出它們飛行的差異。
概念藝術(shù)和繪圖也可以被Genie 2轉(zhuǎn)化成完全交互式環(huán)境,以便藝術(shù)家、設(shè)計師能快速制作研究環(huán)境概念的原型。
三、AI agent也能玩,為具身智能提供絕佳訓(xùn)練場
Genie 2可快速為AI agent創(chuàng)建豐富多樣的環(huán)境,從而生成agent在訓(xùn)練期間未見過的評估任務(wù)。
例如,Google DeepMind與游戲開發(fā)商合作開發(fā)了SIMA agent。SIMA agent被設(shè)計成通過遵循自然語言指令來完成一系列3D游戲世界中的任務(wù),因此可以在Genie 2合成的、未見過的環(huán)境執(zhí)行指令。
輸入下面Imagen 3生成的第三開放世界探索游戲圖,Genie 2可生成一個帶有兩扇門(一扇是紅門,一扇是藍(lán)門)的3D環(huán)境。
然后向SIMA agent提出打開某扇門的指令,Genie 2則能生成符合要求的畫面。
在這個示例中,SIMA通過鍵盤和鼠標(biāo)輸入控制角色,而Genie 2生成游戲幀。
也可以使用SIMA來幫助評估Genie 2的功能。通過指示SIMA環(huán)顧四周、探索房屋后面等,測試Genie 2生成一致環(huán)境的能力。
再比如根據(jù)下面這張圖來生成視頻。
輸入不同提示詞“上樓”、“去有植物的地方”、“走中間門”,Genie 2會生成對應(yīng)的不同視頻畫面。
雖然這項(xiàng)研究仍處于早期階段,agent和環(huán)境生成能力都還有很大的改進(jìn)空間,但Google DeepMind相信Genie 2是解決安全訓(xùn)練具體agent的結(jié)構(gòu)性問題的途徑,同時實(shí)現(xiàn)邁向AGI所需的廣度和通用性。
結(jié)語:世界模型,AI領(lǐng)域的下一件大事
游戲是安全測試和推進(jìn)AI能力的理想環(huán)境。訓(xùn)練更通用具身agent的傳統(tǒng)瓶頸在于缺乏足夠豐富和多樣化的訓(xùn)練環(huán)境。
Google DeepMind正將越來越多資源投入于世界模型研究。Genie 2展示了基礎(chǔ)世界模型在創(chuàng)建多樣化3D環(huán)境、定制交互式游戲場景、加速agent研究等方面的潛力,可讓未來的Agent在無限的新世界中接受訓(xùn)練和評估。
該研究方向尚處于早期階段,Google DeepMind計劃在通用性和一致性方面繼續(xù)改進(jìn)Genie的世界生成能力。
與SIMA一樣,其研究致力于構(gòu)建更通用的AI系統(tǒng)和agent,使其能夠理解和安全地執(zhí)行各種任務(wù),從而幫助在線和現(xiàn)實(shí)世界中的人們。
Google DeepMind還放了一些有趣的“彩蛋”:Genie 2生成出一些奇怪視頻,比如沒有采取行動的情況下一個鬼魂出現(xiàn)在花園,在雪場的人物角色相比滑雪更愛跑酷、一個魔法球把周遭炸成灰。
來源:Google DeepMind
熱門跟貼