據(jù)報(bào)道,傳統(tǒng)的擴(kuò)散模型的訓(xùn)練過程是通過多個(gè)步驟逐漸向圖片增加噪點(diǎn),直到圖片變成完全無結(jié)構(gòu)的噪點(diǎn)圖片,然后在生成圖片時(shí),逐步減少噪點(diǎn),直到還原出一張清晰的圖片。Sora采用的架構(gòu)是通過Transformer的編碼器-解碼器架構(gòu)處理包含噪點(diǎn)的輸入圖像,并在每一步預(yù)測出更清晰的圖像。DiT架構(gòu)結(jié)合時(shí)空Patch,讓Sora能夠在更多的數(shù)據(jù)上進(jìn)行訓(xùn)練,輸出質(zhì)量也得到大幅提高。
OpenAI發(fā)布的Sora技術(shù)報(bào)告透露,Sora采用的DiT架構(gòu)是基于一篇名為Scalable diffusion models with transformers的學(xué)術(shù)論文。記者查詢預(yù)印本網(wǎng)站arxiv后發(fā)現(xiàn),該篇原作論文是2022年12月由伯克利大學(xué)研究人員William (Bill) Peebles和紐約大學(xué)的一位研究人員Saining Xie共同發(fā)表。William (Bill) Peebles之后加入了OpenAI,領(lǐng)導(dǎo)Sora技術(shù)團(tuán)隊(duì)。
圖片來源:arxiv.org
然而,戲劇化的是,Meta的AI科學(xué)家Yann LeCun在X平臺上透露,“這篇論文曾在2023年的計(jì)算機(jī)視覺會議(CVR2023)上因‘缺少創(chuàng)新性’而遭到拒絕,但在2023年國際計(jì)算機(jī)視覺會議(ICCV2023)上被接受發(fā)表,并且構(gòu)成了Sora的基礎(chǔ)?!?/p>
圖片來源:X平臺
作為最懂DiT架構(gòu)的人之一,在Sora發(fā)布后,Saining Xie在X平臺上發(fā)表了關(guān)于Sora的一些猜想和技術(shù)解釋,并表示,“Sora確實(shí)令人驚嘆,它將徹底改變視頻生成領(lǐng)域?!?/p>
“當(dāng)Bill和我參與DiT項(xiàng)目時(shí),我們并未專注于創(chuàng)新,而是將重點(diǎn)放在了兩個(gè)方面:簡潔性和可擴(kuò)展性?!彼麑懙?。“簡潔性代表著靈活性。關(guān)于標(biāo)準(zhǔn)的ViT,人們常忽視的一個(gè)亮點(diǎn)是,它讓模型在處理輸入數(shù)據(jù)時(shí)變得更加靈活。例如,在遮蔽自編碼器(MAE)中,ViT幫助我們只處理可見的區(qū)塊,忽略被遮蔽的部分。同樣,Sora可以通過在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的區(qū)塊來控制生成視頻的尺寸?!?/p>
圖片來源:X平臺
不過,他認(rèn)為,關(guān)于Sora仍有兩個(gè)關(guān)鍵點(diǎn)尚未被提及。一是關(guān)于訓(xùn)練數(shù)據(jù)的來源和構(gòu)建,這意味著數(shù)據(jù)很可能是Sora成功的關(guān)鍵因素;二是關(guān)于(自回歸的)長視頻生成,Sora的一大突破是能夠生成長視頻,但OpenAI尚未揭示相關(guān)的技術(shù)細(xì)節(jié)。
熱門跟貼