好消息! 好消息~
歡迎科研團(tuán)隊(duì)供稿 免費(fèi)分享學(xué)術(shù)、項(xiàng)目成果
近年來(lái),圖像和視頻合成的進(jìn)展為生成游戲帶來(lái)了新機(jī)遇,尤其是在動(dòng)漫角色互動(dòng)方面。AnimeGamer通過(guò)多模態(tài)大型語(yǔ)言模型(MLLM)生成動(dòng)態(tài)游戲狀態(tài),包括有上下文一致性的動(dòng)畫(huà)鏡頭(如紫色汽車(chē)和森林背景),并實(shí)時(shí)更新角色狀態(tài)(如體力、社交、娛樂(lè)值等)。這種方式消除了傳統(tǒng)游戲中的固定規(guī)則,使玩家可以通過(guò)開(kāi)放語(yǔ)言指令與動(dòng)漫世界互動(dòng),創(chuàng)造出不斷發(fā)展的故事情節(jié)和環(huán)境。
AnimeGamer還能夠?qū)?lái)自不同動(dòng)漫電影的角色,如《崖上的波妞》中的Sosuke和《天空之城》中的帕祖,聚集在一起并互動(dòng)。玩家可以體驗(yàn)這些角色的跨界互動(dòng),比如帕祖學(xué)會(huì)了奇奇的掃帚飛行技能,帶來(lái)全新的游戲體驗(yàn)。通過(guò)泛化角色動(dòng)作和互動(dòng),AnimeGamer為玩家提供了無(wú)限的可能性,打破了傳統(tǒng)游戲的局限。(鏈接在文章底部)
01 技術(shù)原理
AnimeGamer的訓(xùn)練過(guò)程分為三個(gè)階段:(a)通過(guò)編碼器使用具備動(dòng)作感知能力的多模態(tài)表示來(lái)建模動(dòng)畫(huà)鏡頭,并訓(xùn)練一個(gè)基于擴(kuò)散的解碼器來(lái)重建視頻,同時(shí)引入表示動(dòng)作強(qiáng)度的運(yùn)動(dòng)范圍作為額外輸入。(b)訓(xùn)練一個(gè)多模態(tài)大型語(yǔ)言模型(MLLM),以歷史指令和游戲狀態(tài)表示作為輸入,預(yù)測(cè)下一個(gè)游戲狀態(tài)的表示。(c)在適配階段,進(jìn)一步提升MLLM生成的動(dòng)畫(huà)鏡頭的解碼質(zhì)量,對(duì)解碼器進(jìn)行微調(diào),使其以MLLM的預(yù)測(cè)結(jié)果為輸入,生成更高質(zhì)量的視頻片段。

動(dòng)畫(huà)鏡頭編碼器與解碼器的架構(gòu):動(dòng)作感知的多模態(tài)表示將首幀的視覺(jué)特征與動(dòng)作描述的文本特征相融合,并作為輸入傳遞給解碼器的調(diào)制模塊。同時(shí),通過(guò)條件模塊引入額外的運(yùn)動(dòng)范圍信息,用以指示動(dòng)作強(qiáng)度。

Unbounded 使用大型語(yǔ)言模型(LLM)將多輪純文本對(duì)話(huà)轉(zhuǎn)化為用于靜態(tài)圖像生成的語(yǔ)言描述,并依賴(lài)參考圖像作為附加條件。而AnimeGamer則采用多模態(tài)大型語(yǔ)言模型(MLLM),將歷史多模態(tài)上下文作為輸入,預(yù)測(cè)多模態(tài)表示 R R。這些生成的表示可通過(guò)視頻擴(kuò)散模型直接解碼為一致的動(dòng)態(tài)視頻片段。
02 演示效果與對(duì)比
將AnimeGamer的無(wú)限動(dòng)漫生活模擬結(jié)果與GC和GFC進(jìn)行了對(duì)比。GC和GFC忽略了歷史視覺(jué)信息,導(dǎo)致上下文一致性不足。此外,它們?cè)诜夯煌瑒?dòng)漫影片中角色之間的互動(dòng)以及角色動(dòng)作方面表現(xiàn)不佳。
相比之下,AnimeGamer在生成過(guò)程中考慮了多模態(tài)上下文,因此能夠提供更加連貫且沉浸式的游戲體驗(yàn)。此外,得益于MLLM的泛化能力,AnimeGamer在以角色為中心的指令處理方面表現(xiàn)優(yōu)異。而無(wú)需微調(diào)的方法GSC未能實(shí)現(xiàn)角色一致性,這對(duì)游戲體驗(yàn)至關(guān)重要,因此并不適合該任務(wù)。
https://arxiv.org/pdf/2504.01014
https://github.com/TencentARC/AnimeGamer
歡迎交流~,帶你學(xué)習(xí)AI,了解AI
熱門(mén)跟貼