剛步入2024年的最后一個月,生成式AI領(lǐng)域就在短短幾天內(nèi)迎來了兩個重磅進(jìn)展(果然都想在圣誕季之前把工作搞定)。
兩天前,李飛飛的Worlds Lab剛剛發(fā)布了僅靠一張圖就能生成可互動3D空間的新模型,結(jié)果今天DeepMind也發(fā)布了類似的成果,表現(xiàn)甚至更勝一籌。
當(dāng)?shù)貢r間12月4日,谷歌DeepMind官宣了其最新一代大規(guī)?;A(chǔ)世界模型Genie 2。

它能夠?qū)⒁粡垐D像轉(zhuǎn)化為可交互的3D游戲世界,通過鼠標(biāo)和鍵盤控制,用戶可以在其中自由探索長達(dá)1分鐘之久。
Genie 2 的開發(fā)團(tuán)隊相信,它能夠為具身智能解鎖更多能力,開啟AI生成虛擬世界的新篇章。或許未來的游戲開發(fā),尤其是開放世界創(chuàng)作即將迎來一場技術(shù)革命。
話不多說,我們先來看看DeepMind放出的視頻:
有滑雪滑到一半突然想跑酷的人:
還有手搓火球(但疑似撞墻穿模)的人:
Genie 2源于DeepMind長期以來在游戲領(lǐng)域的深厚積淀。游戲不僅能提供引人入勝的體驗,更重要的是它們?yōu)锳I研究提供了獨特的挑戰(zhàn)環(huán)境和可衡量的進(jìn)展指標(biāo),使其成為安全測試和推進(jìn)AI能力的理想平臺。
從最初對雅達(dá)利游戲的研究,到圍棋AlphaGo和《星際爭霸2》AlphaStar等里程碑式的突破,游戲一直是DeepMind研究工作中的核心。
與2024年2月發(fā)布的第一代Genie相比(當(dāng)時發(fā)布了一篇預(yù)印本論文),Genie 2在功能和性能上都實現(xiàn)了質(zhì)的飛躍。它能夠生成720p分辨率的高質(zhì)量3D世界,用戶可以通過鍵盤和鼠標(biāo)在第一人稱或第三人稱視角下進(jìn)行操控。
更令人驚嘆的是,這個系統(tǒng)不僅能模擬重力、碰撞和水體運動等基礎(chǔ)物理現(xiàn)象,還能處理復(fù)雜的光照、反射和煙霧效果,并生成可以互動的NPC,讓生成的虛擬世界更加真實。
例如模擬水面:
煙霧:
重力:
光線:
在同一場景下創(chuàng)造NPC(智能體):
這種真實感和交互性,使得Genie 2生成的環(huán)境具有前所未有的沉浸感。
Genie 2的一個重要突破在于其空間記憶能力。當(dāng)用戶在虛擬環(huán)境中移動時,即使某些區(qū)域暫時不在視野范圍內(nèi),系統(tǒng)也能保持這些區(qū)域的一致性。
這意味著當(dāng)玩家重新回到之前訪問過的位置時,環(huán)境會保持原樣,而不是重新生成,這解決了早期3D空間生成器的局限性,極大地提升了用戶體驗,使虛擬世界更具可信度。值得一提的是,李飛飛的World Labs也表示已經(jīng)實現(xiàn)了這一點。
在實際應(yīng)用中,Genie 2展現(xiàn)出了驚人的多樣性。用戶只需提供一張圖片(由Imagen 3生成)和文字描述(比如“森林中的可愛機(jī)器人”),系統(tǒng)就能生成一個可交互的實時場景。這些場景最長可以持續(xù)一分鐘,大多數(shù)能穩(wěn)定運行10到20秒,供用戶交互和探索。

DeepMind還進(jìn)行了一系列創(chuàng)新性的測試,將Genie 2與其SIMA AI智能體結(jié)合使用,后者旨在遵循自然語言指令來完成一系列 3D 游戲世界中的任務(wù)。SIMA 通過鍵盤和鼠標(biāo)輸入控制化身,而 Genie 2 生成游戲幀。
在測試中,SIMA能夠成功在Genie 2生成的房間中導(dǎo)航,并執(zhí)行“打開藍(lán)色的門”、“去有植物的地方”等自然語言指令。這種組合不僅展示了AI系統(tǒng)在數(shù)字和物理空間執(zhí)行復(fù)雜任務(wù)的潛力,還為未來AI代理的訓(xùn)練提供了無限可能。
研究團(tuán)隊發(fā)現(xiàn),通過Genie 2快速創(chuàng)建豐富多樣的環(huán)境,他們可以生成全新的評估任務(wù),這些任務(wù)是智能體在訓(xùn)練過程中從未遇到過的。
這意味著,以后針對AI智能體和具身智能的訓(xùn)練,我們或許擁有了取之不盡、用之不竭的訓(xùn)練數(shù)據(jù)。
在系統(tǒng)架構(gòu)方面,Genie 2采用了自回歸潛變量擴(kuò)散模型設(shè)計。它首先通過自動編碼器處理輸入圖像,然后利用解碼器基于用戶操作創(chuàng)建3D環(huán)境。
在推理時,Genie 2 可以以自回歸的方式進(jìn)行采樣,逐幀獲取單個動作和先前的潛變量幀。它還使用了無分類器指導(dǎo)(classifier-free guidance)來提高動作的可控性。

這種架構(gòu)允許系統(tǒng)在保持環(huán)境連貫性的同時,實現(xiàn)流暢的實時交互。雖然目前展示的示例來自未經(jīng)蒸餾的基礎(chǔ)模型,但DeepMind已經(jīng)開發(fā)出了可實時運行的蒸餾版本,但輸出質(zhì)量會有所降低。
然而,這項技術(shù)的發(fā)展也引發(fā)了一些爭議和擔(dān)憂。由于DeepMind作為谷歌的子公司可以無限制地訪問YouTube視頻數(shù)據(jù),且谷歌此前暗示其服務(wù)條款允許使用YouTube視頻進(jìn)行模型訓(xùn)練,這引發(fā)了知識產(chǎn)權(quán)方面的擔(dān)憂。
同時,生成的模擬場景看起來與一些3A游戲場景很相似,這可能涉及到未經(jīng)授權(quán)復(fù)制游戲的法律問題。這些問題需要在技術(shù)繼續(xù)發(fā)展的同時得到妥善解決。
對游戲開發(fā)者而言,Genie 2既是機(jī)遇也是挑戰(zhàn)。DeepMind指出,它可以幫助開發(fā)者快速將概念草圖或照片轉(zhuǎn)化為具有完整物理和光照系統(tǒng)的3D空間,極大提升原型設(shè)計效率。
然而,隨著游戲公司逐漸擁抱AI來提高生產(chǎn)效率,這導(dǎo)致了大量員工被裁。這種技術(shù)進(jìn)步帶來的就業(yè)市場變革,需要整個行業(yè)認(rèn)真思考和應(yīng)對。
展望未來,盡管這項研究仍處于早期階段,在智能體與環(huán)境生成的能力和質(zhì)量方面都有很大的提升空間,但DeepMind認(rèn)為,Genie 2的發(fā)布不僅為解決具身智能的安全訓(xùn)練問題提供了可能性,也為實現(xiàn)真正的通用人工智能(AGI)鋪平了道路。
DeepMind還強(qiáng)調(diào),他們將繼續(xù)致力于提升Genie的世界生成能力,在通用性和一致性方面不斷突破,最終目標(biāo)是開發(fā)出更安全、更有益于人類的AI系統(tǒng),希望徹底改變我們與虛擬世界互動的方式。
參考資料:
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
https://techcrunch.com/2024/12/04/deepminds-genie-2-can-generate-interactive-worlds-that-look-like-video-games/
熱門跟貼