打開(kāi)網(wǎng)易新聞 查看精彩圖片

導(dǎo)語(yǔ)

生成式人工智能目前已經(jīng)火遍全球,無(wú)論是文本、圖像還是視頻,都已經(jīng)達(dá)到了以假亂真的地步。然而,逼真性并不是我們追求的唯一目標(biāo),我們更希望的是AI強(qiáng)大的生成能力能夠輔助我們?nèi)祟惖膭?chuàng)意工作。游戲被稱為第九種藝術(shù),它可以通過(guò)提供包括視頻、音樂(lè)、文本等多方位的交互式體驗(yàn)而展現(xiàn)出其豐富的復(fù)雜特征。那么,生成式AI能夠輔助游戲設(shè)計(jì)師進(jìn)行游戲設(shè)計(jì)嗎?以前的研究雖然已有大量的探索,但是在AI與人類設(shè)計(jì)師的創(chuàng)意結(jié)合過(guò)程中仍然面臨許多不足與挑戰(zhàn)。在近期發(fā)表于《自然》(Nature)期刊上的研究則指出若想讓生成式AI能夠真正輔助人類的創(chuàng)意設(shè)計(jì),就需要讓生成式AI模型具備三大特性,即一致性、多樣性和用戶修改的保持特性。這三種特性不僅對(duì)游戲設(shè)計(jì)具備啟發(fā)作用,它同樣為我們探索如何將生成式AI用于輔助人類的創(chuàng)造力方面起到了積極作用。


——張江

研究領(lǐng)域:生成式人工智能、創(chuàng)意設(shè)計(jì)、游戲開(kāi)發(fā)、人機(jī)協(xié)作、WHAM模型、設(shè)計(jì)迭代、創(chuàng)意計(jì)算、用戶體驗(yàn)設(shè)計(jì)

Anssi Kanervisto等 | 作者

jk | 譯者

打開(kāi)網(wǎng)易新聞 查看精彩圖片

摘要

生成式人工智能技術(shù)有可能導(dǎo)致未來(lái)創(chuàng)意產(chǎn)業(yè)的巨大變革——即通過(guò)支持人類的創(chuàng)意構(gòu)想(新想法的生成[1,2,3,4,5])而顛覆整個(gè)產(chǎn)業(yè)。然而,如今的模型能力不足有可能提出了新的挑戰(zhàn),使得這些技術(shù)更全面地融入創(chuàng)意實(shí)踐仍很困難。迭代調(diào)整 (Iterative tweaking) 和發(fā)散式思維 (divergent thinking) 仍然是通過(guò)技術(shù)支持創(chuàng)意實(shí)現(xiàn)的關(guān)鍵[6,7],而這些實(shí)踐尚未得到現(xiàn)有最先進(jìn)生成式人工智能模型的充分支持。以游戲開(kāi)發(fā)為例,我們證明了通過(guò)理解用戶需求來(lái)驅(qū)動(dòng)生成式人工智能模型的開(kāi)發(fā)和評(píng)估,我們可以讓這些模型與創(chuàng)意實(shí)踐保持對(duì)齊。具體而言,我們引入了最先進(jìn)的生成式模型——世界與人類動(dòng)作模型(WHAM),并展示了它能夠生成一致且多樣化的游戲玩法序列,同時(shí)可以持續(xù)保持用戶的修改調(diào)整——我們確定這三項(xiàng)功能對(duì)于實(shí)現(xiàn)這一模型與創(chuàng)意實(shí)踐的對(duì)齊至關(guān)重要。與之前需要手動(dòng)定義或提取結(jié)構(gòu)以支持創(chuàng)意工具的方法相比,生成式人工智能模型可以從可用數(shù)據(jù)中學(xué)習(xí)相關(guān)結(jié)構(gòu),從而開(kāi)辟了更廣泛的應(yīng)用潛力。

生成式人工智能可以通過(guò)使用機(jī)器學(xué)習(xí)模型來(lái)生成文本[8,9]、圖像[10,11],音頻[12,13],音樂(lè)[14],視頻[15,16]或電子游戲的游戲玩法序列(gameplay sequences)[17,18,19],這些技術(shù)都已經(jīng)在創(chuàng)意產(chǎn)業(yè)中得到了快速的應(yīng)用[1,2,3,5]。例如,生成的圖像可用于促進(jìn)具有不同技能的團(tuán)隊(duì)成員之間的溝通,或者當(dāng)藝術(shù)家不能參與時(shí),系統(tǒng)能自動(dòng)執(zhí)行視覺(jué)生成任務(wù)[4]。然而,研究表明,生成式人工智能的能力往往無(wú)法達(dá)到創(chuàng)意從業(yè)者的期望,這給這些技術(shù)更全面地應(yīng)用于創(chuàng)意實(shí)踐帶來(lái)了關(guān)鍵性的挑戰(zhàn)[1,4,5,20,21]。

通過(guò)游戲行業(yè)之一獨(dú)特視角,我們探索了人工智能技術(shù)如何變革以支持人類創(chuàng)造力的實(shí)現(xiàn)[22]。3D游戲開(kāi)發(fā)的需要多樣化的創(chuàng)作技能[23],這種復(fù)雜性為構(gòu)建生成式人工智能以實(shí)現(xiàn)所有創(chuàng)意職業(yè)提供了多個(gè)視角。此外,游戲玩法數(shù)據(jù)的豐富性和多樣性也為創(chuàng)新提供了重要機(jī)遇。這種時(shí)間相關(guān)的多模態(tài)數(shù)據(jù)使得我們可以探索從生成3D世界及其機(jī)制到與非玩家角色(即NPC)互動(dòng)等各種復(fù)雜的任務(wù)。最后,游戲業(yè)是全球最大的娛樂(lè)行業(yè),目前已覆蓋超過(guò)30億人[24]。因此,游戲工作室正在探索人工智能如何幫助他們滿足日益增長(zhǎng)的內(nèi)容創(chuàng)作的需要[21]。

本文展示了我們?nèi)绾瓮ㄟ^(guò)理解用戶需求來(lái)設(shè)計(jì)和評(píng)估生成式人工智能模型的方法,并促進(jìn)了與這些創(chuàng)意實(shí)踐相一致的生成式人工智能模型的開(kāi)發(fā)。我們從總結(jié)27名游戲開(kāi)發(fā)領(lǐng)域的創(chuàng)意從業(yè)者的用戶研究結(jié)果開(kāi)始,闡述了發(fā)散式思維和迭代式實(shí)踐[6,7]在如何利用生成式人工智能實(shí)現(xiàn)有意義的新穎性創(chuàng)造方面的重要作用?;谶@些見(jiàn)解,我們確定了一組生成模型的能力,即一致性、多樣性和持續(xù)性(見(jiàn)圖1a–c),這些能力對(duì)實(shí)現(xiàn)創(chuàng)意構(gòu)思可能至關(guān)重要。我們引入了一種新型的生成模型WHAM,并使用人類游戲游玩數(shù)據(jù)進(jìn)行訓(xùn)練以實(shí)現(xiàn)這些能力。我們展示了WHAM能夠生成一致且多樣的游戲玩法序列,并在適當(dāng)提示下保持用戶修改。最后,我們描述了一種名為WHAM演示器的概念原型(圖1d),以支持創(chuàng)意用途的探索和對(duì)支持創(chuàng)意實(shí)踐所需模型能力的進(jìn)一步研究。我們?cè)趆ttps://huggingface.co/microsoft/wham上發(fā)布了WHAM的模型權(quán)重、評(píng)估數(shù)據(jù)集和WHAM演示器,以供進(jìn)一步的研究和探索。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖1: 模型能力的辨識(shí)

通過(guò)與游戲開(kāi)發(fā)創(chuàng)意人員進(jìn)行的用戶研究(“用戶需求”部分),我們確定了三項(xiàng)關(guān)鍵的模型能力,這些能力可以通過(guò)WHAM生成的游戲玩法序列來(lái)體現(xiàn)(“WHAM”節(jié)),并在WHAM演示器(“WHAM演示器”部分)中展示。a.一致性(Consistency)能力:生成的序列應(yīng)在時(shí)間上保持一致,并符合游戲機(jī)制。圖中展示的為玩家角色按照游戲世界已建立的物理規(guī)律爬上了樓梯。b.多樣性(Diversity)能力:模型應(yīng)生成大量多樣化的序列,以反映不同的潛在結(jié)果,從而支持發(fā)散式思維。圖中所示的模型生成了三種合理的序列,這些序列展示了角色可能遵循的不同路徑。c.持續(xù)性(Persistency) 能力:模型應(yīng)保留用戶對(duì)游戲視覺(jué)效果和控制器所做的修改,并將其整合到生成的游戲玩法序列中。在這張圖中,右側(cè)圖中由用戶添加的角色(修改)已被納入到左側(cè)所展示的生成圖像中。d, WHAM演示器的截圖。這是一個(gè)概念原型,提供了一個(gè)可視化的界面,以便與WHAM模型進(jìn)行交互,包括多種促進(jìn)模型的方法。請(qǐng)參閱補(bǔ)充視頻1以獲取視頻案例研究。

 Nature:生成式AI模型如何用于輔助人類創(chuàng)意設(shè)計(jì)
打開(kāi)網(wǎng)易新聞 查看更多視頻
Nature:生成式AI模型如何用于輔助人類創(chuàng)意設(shè)計(jì)

視頻1

我們的工作建立在有關(guān)計(jì)算創(chuàng)造力 (Computational Creativity) [7,25,26]和程序化內(nèi)容生成(procedural content generation)的豐富研究基礎(chǔ)上的[27,28,29,30,31,32](譯者注:計(jì)算創(chuàng)造力也被稱為人工創(chuàng)造力、機(jī)械創(chuàng)造力、創(chuàng)造性計(jì)算或創(chuàng)造性計(jì)算等,這是一個(gè)跨學(xué)科的研究領(lǐng)域,位于人工智能、認(rèn)知心理學(xué)、哲學(xué)和藝術(shù)等領(lǐng)域的交叉點(diǎn)https://en.wikipedia.org/wiki/Computational_creativity,程序化生成是一種通過(guò)算法創(chuàng)建數(shù)據(jù)的方法,而非手動(dòng)操作,通常通過(guò)結(jié)合人生成內(nèi)容和算法,并結(jié)合計(jì)算機(jī)生成的隨機(jī)性和處理能力來(lái)實(shí)現(xiàn)。https://en.wikipedia.org/wiki/Procedural_generation)。如今,生成式人工智能方法由于其廣泛的適用性有可能彌補(bǔ)先前研究成果的不足:它們可以從適當(dāng)?shù)挠?xùn)練數(shù)據(jù)中學(xué)習(xí)復(fù)雜領(lǐng)域(如3D視頻游戲)的豐富結(jié)構(gòu),從而避免人們手動(dòng)地精心打造這些結(jié)構(gòu)。同時(shí),我們的研究表明,在使用生成式人工智能模型進(jìn)行構(gòu)思的背景下,迭代實(shí)踐和發(fā)散性思維仍然至關(guān)重要。通過(guò)針對(duì)這些提議的能力進(jìn)行模型優(yōu)化,我們將機(jī)器學(xué)習(xí)研究引向支持人工智能與人類合作的創(chuàng)意之中,使人類的創(chuàng)造力和主動(dòng)性得到提升。

用戶需求

訪談研究

為了更好地了解游戲開(kāi)發(fā)領(lǐng)域的創(chuàng)意人員的需求,我們與來(lái)自不同工作室的多學(xué)科創(chuàng)意團(tuán)隊(duì)進(jìn)行了半結(jié)構(gòu)化式的訪談。在每次訪談會(huì)議中,同一工作室的三到四位創(chuàng)意人員都會(huì)與一個(gè)“設(shè)計(jì)探針” (Design probe) [33](見(jiàn)“方法”部分的“設(shè)計(jì)探針”和擴(kuò)展數(shù)據(jù)圖1a中的詳細(xì)內(nèi)容)進(jìn)行互動(dòng),該探針提供了一組虛構(gòu)但具體的生成式人工智能潛在能力,用于激發(fā)思考。參與者描述了生成式人工智能可以在哪幾個(gè)方面對(duì)游戲創(chuàng)意或前期制作(見(jiàn)“方法”部分中的“游戲開(kāi)發(fā)流程”)提供支持,同時(shí)參與者的創(chuàng)作主動(dòng)權(quán)還能得到保護(hù)。

針對(duì)參與者關(guān)于人工智能與創(chuàng)意實(shí)踐的討論,我們利用主題分析方法(thematic analysis)[34](見(jiàn)“方法”部分的“數(shù)據(jù)分析”和擴(kuò)展數(shù)據(jù)圖1b)對(duì)討論記錄進(jìn)行了分析(譯者注:主題分析是一種定性研究方法,通常被用于識(shí)別、分析和解釋給定數(shù)據(jù)集中的共享主體或意義的模式。)。我們確定了兩個(gè)對(duì)人工智能模型開(kāi)發(fā)有意義的主題:(1)創(chuàng)意人員需要將他們的發(fā)散性思維(“發(fā)散性思維”部分)在特定情境下融入一個(gè)一致的游戲世界中,以實(shí)現(xiàn)有意義的新體驗(yàn);(2)為了體驗(yàn)創(chuàng)作主動(dòng)性,創(chuàng)意人員需要對(duì)迭代過(guò)程(迭代實(shí)踐)擁有控制能力,例如,他們的直接修改會(huì)被采納,并可以指導(dǎo)模型不斷地朝這些修改的方向演化(“迭代實(shí)踐”部分)。

發(fā)散思維

研究中的創(chuàng)意人員已利用生成式人工智能模型來(lái)尋找靈感,驅(qū)動(dòng)發(fā)散性思維以產(chǎn)生新想法,就像其他文獻(xiàn)中所示的那樣[21]。然而,創(chuàng)意人員提到,新穎性需要在專業(yè)實(shí)踐的一致性中被框定。這仍然是當(dāng)前生成式人工智能模型所面臨的挑戰(zhàn)。例如,在游戲開(kāi)發(fā)中,一致性包括:維護(hù)游戲世界的物理規(guī)律;遵循游戲和工作室的風(fēng)格;保持游戲關(guān)卡的特定氛圍和情感;以及確保與游戲更大敘事的一致性。而多樣性可能適用于玩家采取的路徑。如果沒(méi)有情境的一致性,生成輸出的多樣性可能會(huì)缺乏重要意義。正如一位參與者所分享的:

生成式人工智能在上下文理解方面仍然存在局限性。這意味著,人工智能很難考慮整體體驗(yàn),并在此基礎(chǔ)上進(jìn)行迭代生成。此外,由于其不一致性,人工智能在遵循特定規(guī)則和機(jī)制方面仍然表現(xiàn)不佳。 ——某獨(dú)立工作室的用戶體驗(yàn)副總裁

換言之,支持創(chuàng)意不僅僅是關(guān)于新穎性的,而是將這種新穎性融入到互動(dòng)式體驗(yàn)或游戲的連貫性中。因此,生成式人工智能模型需要將多樣性與一致性相結(jié)合,以確保輸出既新穎又有實(shí)用價(jià)值的內(nèi)容。

迭代實(shí)踐

理念形成過(guò)程中迭代的重要性在“創(chuàng)造力支持”(creativity support)的文獻(xiàn)中已有詳細(xì)描述[37,38]。我們研究中的參與者頻繁強(qiáng)調(diào)了迭代實(shí)踐的重要性,這凸顯了這一主題在生成式人工智能賦能的創(chuàng)意應(yīng)用背景下依然至關(guān)重要。

特別是,參與者談到要?jiǎng)?chuàng)造出感覺(jué)“合適”的東西,這強(qiáng)調(diào)了游戲創(chuàng)作者對(duì)于構(gòu)成每個(gè)設(shè)計(jì)決策的眾多細(xì)微元素的直覺(jué)。無(wú)論是角色的動(dòng)作節(jié)奏,還是抓鉤的弧線設(shè)計(jì),創(chuàng)作者都會(huì)投入大量時(shí)間對(duì)這些看似微小的細(xì)節(jié)進(jìn)行微調(diào)。正如一位參與者所說(shuō):“細(xì)節(jié)才是真正微妙的游戲體驗(yàn)所在?!比欢?,這種“合適”的感覺(jué)往往在創(chuàng)作伊始并不清晰,隨著過(guò)程的推進(jìn)才逐漸明朗:

直到看到結(jié)果之前,我們很難知道什么是正確的輸出,因此還需要反復(fù)打磨和嘗試。這需要經(jīng)歷很多試錯(cuò)。作為游戲設(shè)計(jì)師,我們甚至不會(huì)意識(shí)到那些需要做出數(shù)以千計(jì)小決策的細(xì)節(jié)。但我們只是知道有些地方不對(duì)勁兒,然后進(jìn)行調(diào)整。 ——某獨(dú)立游戲工作室的首席運(yùn)營(yíng)官

此描述說(shuō)明了創(chuàng)意人員通常如何在視覺(jué)媒介上工作,他們通過(guò)多次小規(guī)模的迭代直接操控所創(chuàng)造的內(nèi)容。迭代的過(guò)程超越了單一的輸出:許多參與者指出,他們會(huì)在不同的迭代之間進(jìn)行動(dòng)態(tài)的來(lái)回探索,以從中汲取靈感并嘗試將多樣化元素融合的可能性。為了通過(guò)迭代調(diào)整來(lái)促進(jìn)創(chuàng)意,生成式人工智能模型應(yīng)該突破基于文本的提示局限,從而支持對(duì)生成內(nèi)容的直接操控,具備采納用戶意見(jiàn)的能力,并支持不同迭代之間的融合。

評(píng)估模型能力

對(duì)發(fā)散式思維的支持和迭代實(shí)踐的方法在相關(guān)豐富的文獻(xiàn)和實(shí)踐中已有多種探討[7,26,37],但就生成式人工智能而言,我們發(fā)現(xiàn)了這個(gè)重要的空白區(qū)域?;谟脩粞芯康慕Y(jié)果,并結(jié)合已有文獻(xiàn)的洞見(jiàn),我們提煉出一套評(píng)估標(biāo)準(zhǔn),即“模型能力”,以評(píng)估生成式人工智能模型在支持創(chuàng)意實(shí)踐方面的多樣性、一致性和持續(xù)性能力。

為了以具體的例子說(shuō)明所確定的評(píng)價(jià)標(biāo)準(zhǔn)的含義及其實(shí)現(xiàn)方式,我們假設(shè)了生成式人工智能在最一般的視頻游戲“人機(jī)接口”上運(yùn)作,它能生成游戲畫面序列(玩家在屏幕上看到的畫面,此處稱為“幀”)以及玩家控制器的操作動(dòng)作。但這些評(píng)價(jià)標(biāo)準(zhǔn)卻具有更廣泛的通用性,可在不同模態(tài)如語(yǔ)言、音樂(lè)等中實(shí)現(xiàn)。

為了支持迭代實(shí)踐,首要重要的標(biāo)準(zhǔn)是模型在用戶迭代過(guò)程中要保持一致性。這意味著生成的幀流必須在自身之間保持一致(例如幀與幀之間),同時(shí)在游戲機(jī)制方面也要一致,例如固體物體不能穿過(guò)墻壁。在這種一致性中,發(fā)散式思維的創(chuàng)意實(shí)踐需要多樣的生成結(jié)果。例如,如果生成了三個(gè)可能的延續(xù)方式,它們應(yīng)該以有意義的方式存在差異:例如這種差異可以體現(xiàn)在生成的玩家動(dòng)作中,或是在隊(duì)友或?qū)κ纸巧珜?duì)這些動(dòng)作的反應(yīng)方式上。最后,用戶應(yīng)該能夠修改生成的序列,且任何修改都應(yīng)是持久的。如果創(chuàng)作者希望通過(guò)調(diào)整某一幀來(lái)影響模型的輸出,那么這種調(diào)整應(yīng)是生成的焦點(diǎn),且在接下來(lái)的幾幀后不會(huì)消失。

WHAM

既然我們已經(jīng)建立了實(shí)現(xiàn)賦能創(chuàng)作者的AI系統(tǒng)所需關(guān)鍵能力的認(rèn)識(shí),我們建立了一個(gè)初始模型,以展示了現(xiàn)代人工智能方法如何朝實(shí)現(xiàn)這些能力的目標(biāo)上前進(jìn)。

我們開(kāi)發(fā)的WHAM模型模擬了現(xiàn)代視頻游戲的時(shí)序動(dòng)態(tài)。WHAM通過(guò)人類游戲數(shù)據(jù)的訓(xùn)練,學(xué)習(xí)預(yù)測(cè)游戲畫面(“幀”)和玩家控制器操作(詳見(jiàn)“模型架構(gòu)和數(shù)據(jù)”部分)。經(jīng)過(guò)訓(xùn)練的模型精確捕捉到了游戲環(huán)境的三維結(jié)構(gòu)(“模型評(píng)估”部分),控制器操作的影響以及游戲的時(shí)間結(jié)構(gòu)。模型能夠生成連貫的游戲情境,展現(xiàn)出其一致性和多樣性,同時(shí)具有持續(xù)保留部分用戶修改的能力。

在我們的模型開(kāi)發(fā)和評(píng)估中,我們專注于以游戲畫面和玩家操作的形式生成游戲玩法序列,因?yàn)檫@是視頻游戲一種非常通用且廣泛可訪問(wèn)的表示形式。我們建立在豐富的世界模型研究基礎(chǔ)之上[39],該研究展示了循環(huán)神經(jīng)網(wǎng)絡(luò)[40]、循環(huán)狀態(tài)空間模型[41]以及Transformer模型[42]在捕捉環(huán)境動(dòng)力學(xué)方面的潛力,適用的場(chǎng)景包括2D視頻游戲和道路交通[43]。在這些和相關(guān)研究[18,19,44,45,46,47]的基礎(chǔ)上,我們深入探討了這些模型在創(chuàng)意應(yīng)用中的具體要求和能力,并展示了在復(fù)雜的3D視頻游戲中,模型在時(shí)間上的穩(wěn)定建模進(jìn)展。

模型架構(gòu)和數(shù)據(jù)

我們的建模選擇反映了所識(shí)別的模型能力,如下所示。一致性需要一個(gè)序列模型,能夠準(zhǔn)確捕捉游戲畫面與控制器操作之間的依賴關(guān)系。多樣性需要一個(gè)能夠生成數(shù)據(jù)的模型,這些數(shù)據(jù)能夠保持視覺(jué)與控制器操作的序列的條件分布能夠與訓(xùn)練集保持一致。最后,通過(guò)一個(gè)可以對(duì)(修改后的)圖像和/或控制器操作進(jìn)行條件預(yù)測(cè)的模型,實(shí)現(xiàn)了持久性。就這三個(gè)能力而言,我們選擇了在大規(guī)模訓(xùn)練數(shù)據(jù)和計(jì)算資源上能夠帶來(lái)模型提升的組件,即具有擴(kuò)展性。

我們開(kāi)發(fā)的WHAM模型模擬了現(xiàn)代視頻游戲的動(dòng)態(tài)過(guò)程。通過(guò)對(duì)人類游戲數(shù)據(jù)進(jìn)行訓(xùn)練,WHAM學(xué)習(xí)預(yù)測(cè)游戲畫面("幀")和玩家控制器的操作(詳見(jiàn)"模型架構(gòu)和數(shù)據(jù)"部分)。經(jīng)過(guò)訓(xùn)練的模型精確捕捉到了游戲環(huán)境的三維結(jié)構(gòu)("模型評(píng)估"部分),控制器操作的影響以及游戲的時(shí)間結(jié)構(gòu)。模型能夠生成連貫的游戲情境,展現(xiàn)出其一致性和多樣性,同時(shí)具有持續(xù)保留部分用戶修改的能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖2, WHAM概覽

我們將人類游戲過(guò)程表示為交替的圖像觀察和控制器操作的離散Token序列。我們使用z_t表示所有編碼觀察o_t在時(shí)間步t的Token,并使用a_t表示控制器操作。 hat變量表示模型的預(yù)測(cè)。首先,我們使用VQGAN模型[51]將來(lái)自觀察空間的圖像標(biāo)記化到一個(gè)緊湊的離散潛在空間:o_t∈R^{H×W×3}(其中H、W和3分別表示視頻幀的高度、寬度和通道數(shù)),并將其映射到潛在空間z_t∈{1,2,…,V_O}^{d_z},其中V_O是詞匯表大小,d_z是瓶頸大小。 然后訓(xùn)練一個(gè)因果Transformer[53]來(lái)預(yù)測(cè)潛在觀察和離散化的操作Token。 VQGAN編碼器/解碼器可以通過(guò)重建損失和感知損失[61]來(lái)進(jìn)行訓(xùn)練。 沒(méi)有明確的分隔符用于區(qū)分下一個(gè)應(yīng)該預(yù)測(cè)觀察Token還是操作Token——模型必須從學(xué)習(xí)的位置嵌入中推斷出來(lái)。

我們方法的一個(gè)關(guān)鍵之處在于將數(shù)據(jù)視為一系列離散的Token。為了將圖像編碼為Token序列,我們利用了一種VQGAN圖像編碼器[51]。每張圖像編碼所用的Token數(shù)量是一個(gè)關(guān)鍵的超參數(shù),它在預(yù)測(cè)圖像的質(zhì)量、生成速度以及上下文長(zhǎng)度之間進(jìn)行權(quán)衡。對(duì)于Xbox控制器的操作,盡管按鈕本身是離散的,但我們?nèi)匀粚⒆髶u桿和右搖桿的x和y坐標(biāo)劃分為11個(gè)區(qū)間[52]。隨后,我們訓(xùn)練了一個(gè)僅包含解碼器的Transformer[49,53],用于預(yù)測(cè)交替的圖像和控制器操作序列中的下一個(gè)Token。

生成的模型可以通過(guò)自回歸的方式采樣下一個(gè)Token來(lái)創(chuàng)建新序列。我們還可以在生成過(guò)程中修改Token,從而實(shí)現(xiàn)對(duì)圖像和/或操作的修改。這解鎖了通過(guò)控制器操作或直接編輯圖像本身來(lái)控制(或提示)生成的能力,這是持久性評(píng)估的先決條件。

為了展示該框架在捕捉現(xiàn)代視頻游戲動(dòng)力學(xué)方面的潛力,我們使用了一個(gè)包含大量真實(shí)人類游戲數(shù)據(jù)的數(shù)據(jù)集來(lái)訓(xùn)練WHAM模型。我們與游戲工作室Ninja Theory合作,聚焦在他們開(kāi)發(fā)的游戲《Bleeding Edge》上,該游戲是一個(gè)3D的4v4的多人戰(zhàn)斗視頻游戲,我們從中獲取并生成了人類如何游戲的視頻數(shù)據(jù)。總共,我們從大約500,000個(gè)匿名化的游戲會(huì)話(相當(dāng)于7年的連續(xù)游戲時(shí)間)中提取了數(shù)據(jù),這些數(shù)據(jù)涵蓋了《Bleeding Edge》所有七張地圖。我們將這個(gè)數(shù)據(jù)集稱為“7 Maps數(shù)據(jù)集”。我們還將該數(shù)據(jù)集進(jìn)行過(guò)濾,使其僅包含Skygarden地圖上一年的匿名化游戲數(shù)據(jù),并將其稱為Skygarden數(shù)據(jù)集。有關(guān)這些數(shù)據(jù)集的數(shù)據(jù)收集細(xì)節(jié),請(qǐng)參見(jiàn)“方法”部分的“數(shù)據(jù)”節(jié)。

最大的WHAM模型采用了一個(gè)16億參數(shù)的Transformer模型,具有1秒的上下文長(zhǎng)度,并使用7 Maps數(shù)據(jù)集進(jìn)行訓(xùn)練。在這種變體中,每張圖像在其原生分辨率(300×180)下被編碼為540個(gè)Token。我們還訓(xùn)練了一系列規(guī)模較小的WHAM模型:從1.5億參數(shù)到89.4億參數(shù)的Transformer,具有1秒的上下文長(zhǎng)度不等,并使用Skygarden過(guò)濾數(shù)據(jù)集進(jìn)行訓(xùn)練,在這些模型中,128×128的圖像被編碼為256個(gè)Token。有關(guān)建模選擇和超參數(shù)的更多細(xì)節(jié),請(qǐng)參見(jiàn)“建模選擇和超參數(shù)”部分,而模型的可擴(kuò)展性分析則可在“模型規(guī)?!辈糠终业?,這兩部分均位于“方法”章節(jié)。

模型評(píng)估

我們提出了一個(gè)評(píng)估模型的方法,即從我們?cè)谟脩粞芯恐凶R(shí)別的三項(xiàng)能力(“評(píng)估模型能力”部分):一致性、多樣性和持久性出發(fā),以支持創(chuàng)意構(gòu)思。我們使用這種方法來(lái)評(píng)估WHAM模型?!耙恢滦浴辈糠衷u(píng)估生成的游戲過(guò)程與游戲機(jī)制的一致性?!岸鄻有浴辈糠衷u(píng)估生成的游戲過(guò)程的多樣性。最后,“持久性”部分探討了用戶的修改在生成結(jié)果中被保持的程度。

一致性

一致性確保了創(chuàng)意工作者能夠有效地迭代并在生成序列的基礎(chǔ)上進(jìn)一步開(kāi)發(fā),因此對(duì)于迭代實(shí)踐而言至關(guān)重要。在游戲語(yǔ)境中,這意味著生成的序列應(yīng)與既定的游戲動(dòng)力學(xué)保持一致,并始終連貫性地呈現(xiàn),而不會(huì)出現(xiàn)角色或物體的突兀變化。例如,角色不應(yīng)穿過(guò)墻壁,物體不應(yīng)無(wú)故消失。

Fréchet 視頻距離(FVD)是一種在機(jī)器學(xué)習(xí)領(lǐng)域中用于衡量生成視頻一致性的成熟方法。FVD 旨在捕捉視頻的時(shí)間動(dòng)態(tài)和視覺(jué)質(zhì)量,并且已被證明與人類對(duì)視頻質(zhì)量的判斷具有相關(guān)性。在本研究中,我們將 FVD 應(yīng)用于評(píng)估生成游戲的一致性,使用人類真實(shí)游戲數(shù)據(jù)作為基準(zhǔn)。具體而言,我們使用 WHAM 模型生成視覺(jué)游戲,以包含視頻和控制器操作的 1 秒真實(shí)游戲數(shù)據(jù),以及人類玩家在接下來(lái)的 10 秒游戲過(guò)程中采取的控制器操作作為條件。生成的游戲序列與基準(zhǔn)數(shù)據(jù)的接近程度由 FVD 分?jǐn)?shù)衡量,分?jǐn)?shù)越低,表明生成內(nèi)容越接近真實(shí)數(shù)據(jù)。這種方法證明了模型準(zhǔn)確捕捉了潛在游戲結(jié)構(gòu)的能力。通過(guò)初步分析,我們驗(yàn)證了 FVD 分?jǐn)?shù)與人類感知一致性的相關(guān)性。例如,研究表明 FVD 分?jǐn)?shù)較低的情況下,人類對(duì)使用 8.94 億參數(shù)的 WHAM 模型生成的內(nèi)容的一致性評(píng)價(jià)更高。這些結(jié)果在《方法》一章中“一致性”部分及擴(kuò)展數(shù)據(jù)圖 3 中有詳細(xì)說(shuō)明。這種方法有效地評(píng)估了生成游戲的一致性,為評(píng)估 WHAM 模型的性能提供了重要依據(jù)。

圖3a展示了FVD隨計(jì)算能力(以浮點(diǎn)運(yùn)算次數(shù)/FLOPS表示)在不同模型規(guī)模下的改進(jìn)情況(詳見(jiàn)擴(kuò)展數(shù)據(jù)圖2c),表明對(duì)于適當(dāng)規(guī)模的模型,計(jì)算能力越大,F(xiàn)VD評(píng)分越高(見(jiàn)“方法”部分“模型規(guī)?!闭鹿?jié)的討論及其在擴(kuò)展數(shù)據(jù)圖2a,b中的對(duì)比結(jié)果)。此外,我們還觀察到1.6B參數(shù)的WHAM模型在FVD評(píng)分上的提升,這得益于其采用了更高分辨率的圖像。這是因?yàn)楦叩姆直媛曙@著提高了重構(gòu)性能的上限,從而使得生成的圖像能夠更貼近真實(shí)數(shù)據(jù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖3. 一致性結(jié)果。a, 不同規(guī)模的WHAM模型在訓(xùn)練計(jì)算預(yù)算(以浮點(diǎn)運(yùn)算次數(shù)/FLOPS表示)下的FVD評(píng)分趨勢(shì)。隨著模型規(guī)模和計(jì)算預(yù)算的增加,F(xiàn)VD評(píng)分逐步提升(越小越好)。b, 展示了1.6B WHAM生成的兩組示例(每行一個(gè)示例,每個(gè)示例時(shí)長(zhǎng)2分鐘),關(guān)鍵幀顯示該模型具備生成長(zhǎng)期一致游戲過(guò)程的能力。

圖3b展示了定性結(jié)果,表明1.6B的WHAM模型能夠生成長(zhǎng)達(dá)2分鐘的高度一致的游戲序列。更多示例可以在擴(kuò)展數(shù)據(jù)圖4和補(bǔ)充視頻1中找到。

多樣性

為創(chuàng)意工作者提供多樣化的選項(xiàng)被證明可以激發(fā)新想法,從而支持人類的創(chuàng)造性構(gòu)思[21,55],而用戶研究的參與者也強(qiáng)調(diào)了多樣性的必要性(“發(fā)散思維”部分)。因此,支持人類創(chuàng)造力的生成式人工智能模型應(yīng)能夠生成可以反映不同潛在結(jié)果的范圍更廣的素材。由于可能性空間十分廣闊[36](這其中涵蓋了游戲機(jī)制、其他玩家,以及游戲中的隨機(jī)性等),我們將評(píng)估的重點(diǎn)放在了模型能夠捕捉人類玩家在行動(dòng)多樣性的能力上。如果模型在保持一致性的同時(shí)(如上所述,通過(guò)FVD單獨(dú)衡量)能夠生成這種多樣性,那么生成的游戲序列將反映出人類合理游戲過(guò)程的完整多樣性。

我們采用Wasserstein距離來(lái)評(píng)估多樣性,這是一種用來(lái)衡量模型的行動(dòng)是否捕捉到人類行動(dòng)完整分布的指標(biāo)[56]。我們比較了真實(shí)人類行動(dòng)與模型生成行動(dòng)的邊際分布。Wasserstein距離越低,表示模型生成的結(jié)果越接近我們數(shù)據(jù)集中人類玩家的行動(dòng)(更多細(xì)節(jié)請(qǐng)參見(jiàn)“多樣性”部分)。

圖4a展示了我們量化的結(jié)果。隨著訓(xùn)練的進(jìn)行,所有模型的Wasserstein距離均有所下降,逐漸接近人類間基線(計(jì)算方法為從人類行動(dòng)序列中隨機(jī)選取兩個(gè)子集的平均距離)。盡管使用了更多的計(jì)算資源,但1.6B模型的表現(xiàn)略遜于894M模型。對(duì)此的一種假設(shè)是,1.6B模型使用了更多的圖像標(biāo)記(540個(gè)相比256個(gè))以及更大的詞匯表規(guī)模(16,384個(gè)相比4,096個(gè)),這兩者都在一定程度上弱化了行動(dòng)標(biāo)記上的損失重量。為了驗(yàn)證這一假設(shè),我們訓(xùn)練了另一個(gè)1.6B模型,僅對(duì)行動(dòng)損失的權(quán)重增加了十倍(‘1.6B上加權(quán)’)。這種上加權(quán)的策略相較于標(biāo)準(zhǔn)的1.6B模型,改善了Wasserstein距離的表現(xiàn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖4 多樣性結(jié)果,a, 三個(gè)WHAM變體的多樣性(以Wasserstein距離衡量),即與人類行動(dòng)的差異。在102,400個(gè)總行動(dòng)數(shù)(1,024條軌跡,每條軌跡包含100個(gè)行動(dòng))中,我們采樣了10,000個(gè)人類和模型行動(dòng),并計(jì)算它們之間的距離。這一過(guò)程重復(fù)了十次,并繪制了均值±1的標(biāo)準(zhǔn)差。越接近人類間基線越好。均勻隨機(jī)行動(dòng)的距離為5.3。所有模型在訓(xùn)練中均有所改善,并且通過(guò)增加行動(dòng)損失的權(quán)重可以進(jìn)一步提升性能。b, 從相同初始上下文中生成的1.6B WHAM的三個(gè)示例。我們可以看到行為上的多樣性(玩家角色繞著刷新點(diǎn)打轉(zhuǎn) vs. 直接朝著加速板移動(dòng))和視覺(jué)上的多樣性(玩家角色駕駛的懸浮板擁有不同的外觀)。

持久性

持久性旨在賦予創(chuàng)意工作者對(duì)生成輸出的控制權(quán),從而實(shí)現(xiàn)迭代優(yōu)化(“迭代實(shí)踐”部分)。模型應(yīng)足夠靈活,以允許創(chuàng)意用戶對(duì)游戲狀態(tài)進(jìn)行修改,并將這些更改融入生成的環(huán)境中。

為了評(píng)估WHAM的持久性,我們通過(guò)在游戲圖像中手動(dòng)插入三個(gè)不同元素之一來(lái)編輯游戲圖像:(1)游戲內(nèi)物體(一個(gè)“能量單元”);(2)另一名玩家(盟友或?qū)κ纸巧?;以及?)地圖元素(一個(gè)“垂直加速板”)。我們將每個(gè)元素插入到八個(gè)合理但新建的游戲位置(如擴(kuò)展數(shù)據(jù)圖7a所示)。對(duì)于每個(gè)元素和位置,我們使用1.6B WHAM生成十張圖像,即一段1秒的視頻,條件設(shè)置為依賴于一個(gè)或五個(gè)已修改的圖像。為了考慮模型輸出的多樣性,我們對(duì)每個(gè)修改后的圖像重復(fù)生成步驟十次。隨后,我們手動(dòng)檢查和標(biāo)記每個(gè)元素是否在生成的視頻中得以保持。圖5展示了編輯過(guò)程和生成視頻的示例。擴(kuò)展數(shù)據(jù)圖6展示了人類標(biāo)記的成功和失敗持久性示例。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖5:編輯過(guò)程及定性的持久性評(píng)估結(jié)果。成功的持久性的示例:能量單元、角色和垂直加速板。對(duì)于我們的持久性評(píng)估,WHAM的所有生成都基于無(wú)操作動(dòng)作,因此玩家角色和相機(jī)不應(yīng)該有移動(dòng)。這些示例顯示,插入的能量單元在整個(gè)1秒的生成過(guò)程中保持穩(wěn)定,而插入的對(duì)手角色開(kāi)始攻擊玩家角色并造成了傷害。盡管垂直加速板被插入到現(xiàn)實(shí)游戲和我們的數(shù)據(jù)中從未出現(xiàn)的某個(gè)地圖區(qū)域,但它在WHAM的所有生成中得以保持。

表1展示了成功持久的生成內(nèi)容所占的比例。當(dāng)WHAM模型的生成條件基于五張編輯后的圖像時(shí),其持久性顯著提高,所有元素類型的成功持久率均達(dá)到85%及以上。更多詳細(xì)分析和持久性示例可以在方法中的“持久性”部分找到。擴(kuò)展數(shù)據(jù)圖7b的左欄展示了按元素類型和起始位置的持久性的詳細(xì)分析結(jié)果,而右欄則展示了起始位置的誤差分析,其中持久性元素的延續(xù)性更具挑戰(zhàn)性。補(bǔ)充視頻1顯示了包含與插入元素交互的生成游戲序列。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

表1:定量的持久性分析結(jié)果。當(dāng)WHAM基于一張用戶編輯后的圖像進(jìn)行條件設(shè)置時(shí),每個(gè)元素的持久性低于60%。然而,當(dāng)基于五張用戶編輯的圖像進(jìn)行條件設(shè)置時(shí),每個(gè)元素的持久性顯著提升至85%或以上(經(jīng)過(guò)Bonferroni校正的二項(xiàng)檢驗(yàn),顯著性水平為0.008)。

我們的實(shí)驗(yàn)結(jié)果表明,1.6B的WHAM能夠在合理但全新的起始位置中持久顯示插入的常見(jiàn)游戲元素。我們相信,這些示例展示了未來(lái)WHAM版本在創(chuàng)意應(yīng)用中的潛力,可以將更多富有想象力的元素融入生成的序列中

WHAM展示器

為了說(shuō)明WHAM在本研究中如何支持迭代實(shí)踐和發(fā)散性思考,我們構(gòu)建了一個(gè)概念原型[57],名為“WHAM演示器”。需要注意的是,概念原型并非完整的用戶體驗(yàn),而是對(duì)特定設(shè)計(jì)模式的探索。WHAM演示器提供了一個(gè)可視化界面,供用戶與WHAM實(shí)例交互,包括多種與模型對(duì)話的方式。這種設(shè)計(jì)便于探索WHAM的能力,以及這些能力所支持的交互模式。為了促進(jìn)創(chuàng)意探索和后續(xù)研究,我們公開(kāi)提供了以下內(nèi)容:訓(xùn)練好的模型(兩種WHAM尺寸)、WHAM演示器,以及一個(gè)樣本評(píng)估數(shù)據(jù)集(有關(guān)詳細(xì)信息,請(qǐng)參閱“數(shù)據(jù)可用性”和“代碼可用性”)。

補(bǔ)充視頻1展示了關(guān)鍵功能。首先,視頻展示了模型的各項(xiàng)功能。在一段訓(xùn)練過(guò)程中的案例研究中,我們展示了模型生成的一致性,即生成的游戲序列在時(shí)間上保持一致,并且能夠涵蓋廣泛的游戲機(jī)制,這些能力隨著訓(xùn)練的進(jìn)展而提升(00:50–02:10)。多樣性則體現(xiàn)在一組從相同初始出生點(diǎn)開(kāi)始的游戲序列中,展示了角色在三個(gè)可用跳躍板之間的移動(dòng)例子(02:11–02:50)。最后,持久性通過(guò)案例研究展示了角色和能量單元的持久性,這些結(jié)果與表1中的匯總數(shù)據(jù)相對(duì)應(yīng)(02:51–03:42)。

我們?cè)趫D1d和補(bǔ)充視頻1(從03:43開(kāi)始)中展示了WHAM演示器的功能。用戶可以選擇一組初始幀來(lái)“提示”模型[58],實(shí)現(xiàn)視覺(jué)而非語(yǔ)言的提示方式。WHAM隨后會(huì)生成大量分支,展示了游戲可能的演變路徑,這些多樣化的選項(xiàng)支持發(fā)散性思考(“發(fā)散性思考”部分)。用戶可以選擇任何分支或幀重新開(kāi)始生成下一幀,包括返回并修改之前的選擇,以支持參與者提到的融合迭代(“迭代實(shí)踐”部分)。為了實(shí)現(xiàn)迭代,用戶可以修改任何生成的幀,例如通過(guò)添加對(duì)手角色(使用持久性)或提供控制器輸入數(shù)據(jù)來(lái)影響后續(xù)生成的序列。用戶可以不斷調(diào)整和迭代,直到得到他們想要的“感覺(jué)”,同時(shí)保持對(duì)創(chuàng)作過(guò)程的控制。

結(jié)論

隨著我們不斷探索對(duì)生成式人工智能在創(chuàng)意產(chǎn)業(yè)中的角色拓展,確保人工智能的開(kāi)發(fā)朝著能夠保障人類對(duì)創(chuàng)作過(guò)程主導(dǎo)地位的方向前進(jìn)是至關(guān)重要的。通過(guò)與多元化的游戲創(chuàng)作人員進(jìn)行的用戶研究,我們識(shí)別出了三個(gè)關(guān)鍵的模型能力,這些能力包括:一致性、多樣性和持久性,它們?cè)谕ㄟ^(guò)迭代實(shí)踐和發(fā)散性思考支持創(chuàng)意構(gòu)思的人工智能系統(tǒng)開(kāi)發(fā)中應(yīng)優(yōu)先考慮。我們還展示了當(dāng)人工智能模型在適當(dāng)?shù)臄?shù)據(jù)集上進(jìn)行訓(xùn)練時(shí),具備這些能力的可行性。

我們的研究為機(jī)器學(xué)習(xí)研究人員指明了不同于傳統(tǒng)模型的創(chuàng)新路徑,這些傳統(tǒng)模型并非支持創(chuàng)造性思維而設(shè)計(jì)。首先,模型的評(píng)估不僅可以而且應(yīng)該有目的地受到人類創(chuàng)意需求的指導(dǎo),以確保創(chuàng)新朝著正確的方向發(fā)展。這與機(jī)器學(xué)習(xí)領(lǐng)域主要關(guān)注任務(wù)完成的有效性和效率形成了鮮明的對(duì)比,這種對(duì)有效性和效率的關(guān)注在支持流程效率的傳統(tǒng)場(chǎng)景中通常是有用的。其次,旨在支持創(chuàng)造性的機(jī)器學(xué)習(xí)模型不太可能是獨(dú)立的目標(biāo),而更應(yīng)該是全面創(chuàng)造性工作流程中的重要組成部分。模型的開(kāi)發(fā)必須融入這些工作流程中,用戶修改內(nèi)容并需要多次迭代的需求就是一個(gè)明顯的例子。隨著模型創(chuàng)新逐漸更全面地與創(chuàng)意工作者的需求相連接,有關(guān)計(jì)算創(chuàng)造力(computational creativity)和創(chuàng)造力支持(creativity support)的文獻(xiàn)為這一領(lǐng)域提供了豐富的指導(dǎo)[7,25,26]。

WHAM展示的能力表明,現(xiàn)代生成式人工智能模型能夠在無(wú)需先前領(lǐng)域知識(shí)的情況下,從相關(guān)數(shù)據(jù)中學(xué)習(xí)日益復(fù)雜的結(jié)構(gòu)。我們證明,這類模型能夠生成與3D世界中合適的游戲機(jī)制和物理一致的游戲游玩序列。鑒于WHAM完全從游戲游玩數(shù)據(jù)中學(xué)習(xí)了這些結(jié)構(gòu),而無(wú)需任何先驗(yàn)的領(lǐng)域知識(shí),我們預(yù)計(jì)這些結(jié)果可以在廣泛的現(xiàn)有游戲中得到復(fù)制,并最終推廣到新的游戲和類型之中[18,32]。類似WHAM的生成式人工智能模型的關(guān)鍵創(chuàng)新在于,它們消除了對(duì)個(gè)體領(lǐng)域的手工制作或?qū)W習(xí)特定領(lǐng)域模型的需求,使得這類模型創(chuàng)新很可能將創(chuàng)造力支持拓展到音樂(lè)[59]或視頻[60]等其他領(lǐng)域。通過(guò)對(duì)一個(gè)單一3D視頻游戲的使用案例的推斷,我們也可以對(duì)未來(lái)模型的強(qiáng)大潛力有一個(gè)初步的認(rèn)識(shí),這些模型將使人類創(chuàng)作者團(tuán)隊(duì)能夠打造復(fù)雜的全新體驗(yàn)。

「AI時(shí)代的學(xué)習(xí):共探學(xué)習(xí)的復(fù)雜性」主題讀書會(huì)

在技術(shù)浪潮的沖擊下,智能時(shí)代對(duì)人才培養(yǎng)的需求正發(fā)生根本性轉(zhuǎn)變——學(xué)習(xí)已不再局限于簡(jiǎn)單的知識(shí)傳遞與記憶,當(dāng)機(jī)器能夠替代程式化技能,人類的創(chuàng)造力、批判性思維與跨界協(xié)作能力將成為核心競(jìng)爭(zhēng)力;當(dāng)知識(shí)更新周期以月甚至天為單位迭代,教育的使命不再是填鴨式灌輸,而是培養(yǎng)終身學(xué)習(xí)者的自適應(yīng)能力。

在此背景下,集智俱樂(lè)部聯(lián)合江南大學(xué)教授王志軍,北京師范大學(xué)教授崔光佐,翼鷗教育創(chuàng)始人宋軍波,TalkingBrain 聯(lián)合創(chuàng)始人林思恩,清華大學(xué)講師方可,北京師范大學(xué)博士后郭玉娟,共同發(fā)起。希望通過(guò)匯聚教育學(xué)、系統(tǒng)科學(xué)、腦科學(xué)、計(jì)算機(jī)科學(xué)、社會(huì)學(xué)等多領(lǐng)域交叉視角,突破單一學(xué)科的局限,對(duì)人類社會(huì)未來(lái)學(xué)習(xí)發(fā)展形成更加全面深入的認(rèn)識(shí)。


詳情請(qǐng)見(jiàn):

1.

2.

3.

4.

5.

6.