- 編輯部 整理自 AIGC峰會(huì)
- 量子位 | 公眾號(hào) QbitAI
多模態(tài)生成技術(shù)持續(xù)突破內(nèi)容創(chuàng)作的邊界。
生數(shù)作為多模態(tài)領(lǐng)域的明星玩家,所提供的技術(shù)正推動(dòng)AI視頻創(chuàng)作進(jìn)入系統(tǒng)性可用新階段。
在本次第三屆AIGC產(chǎn)業(yè)峰會(huì)上,生數(shù)科技產(chǎn)品副總裁、Vidu產(chǎn)品負(fù)責(zé)人廖謙分享了這樣的觀點(diǎn):
- 隨著多模態(tài)模型的生成能力發(fā)展到實(shí)時(shí)、可控、可交互,內(nèi)容可以完全個(gè)性化,會(huì)誕生全新的內(nèi)容平臺(tái)。

為了完整體現(xiàn)廖謙的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來(lái)更多啟發(fā)。
中國(guó)AIGC產(chǎn)業(yè)峰會(huì)是由量子位主辦的AI領(lǐng)域前沿峰會(huì),20余位產(chǎn)業(yè)代表與會(huì)討論。線下參會(huì)觀眾超千人,線上直播觀眾320萬(wàn)+,累計(jì)曝光2000萬(wàn)+。
話題要點(diǎn)
- 視頻生成進(jìn)入黃金發(fā)展期,將迎來(lái)“Midjourney V5時(shí)刻”級(jí)別的突破。
- AI能夠給專業(yè)創(chuàng)作者、C端消費(fèi)者和B端企業(yè)客戶都帶來(lái)生產(chǎn)力的加持。
- 大模型的可控生成問(wèn)題亟待解決和突破。
- 多模態(tài)大模型一定會(huì)誕生出新的內(nèi)容平臺(tái)。
以下為廖謙演講全文:
多模態(tài)大模型的終局:誕生新的內(nèi)容平臺(tái)
多模態(tài)大模型可以簡(jiǎn)單分為兩個(gè)方向:第一是多模態(tài)的理解,第二是多模態(tài)的生成。
今天我的分享主要聚焦在多模態(tài)的生成這一方向。
首先看整體的技術(shù)發(fā)展,從最左邊的曲線看,主要是文本生成這一塊,也就是大語(yǔ)言模型。文本生成的工作起步相對(duì)更早一些,隨著GPT系列技術(shù)不斷的演進(jìn),它的技術(shù)范式相對(duì)來(lái)說(shuō)確立一些。

在Scaling Law的加持下,這塊發(fā)展得非常快,解鎖的應(yīng)用場(chǎng)景非常多。而多模態(tài)的起步相對(duì)晚一些,中間這條曲線是圖像生成,圖像生成已經(jīng)突破了技術(shù)的基點(diǎn),不管是Midjourney,還有很火的GPT-4o吉卜力的風(fēng)格在網(wǎng)絡(luò)上有非常多的流傳,這一塊發(fā)展速度非???。
第三條曲線是視頻生成,現(xiàn)在視頻生成的研發(fā)進(jìn)入到黃金發(fā)展期,當(dāng)下如何去提升模型的能力、從而達(dá)到系統(tǒng)性可用,是我們要去重點(diǎn)解決的問(wèn)題。
除了視頻生成,最近還有一個(gè)很重要的方向是具身智能,具身智能也是多模態(tài)方向的應(yīng)用。當(dāng)多模態(tài)的模型可以利用更多維度的數(shù)據(jù),不僅僅局限于文本,還包含音頻、視頻,甚至包括感覺(jué)類信息的時(shí)候,我相信會(huì)產(chǎn)生更高維度的智能涌現(xiàn)。
在產(chǎn)品方面,從2024年Sora發(fā)布首個(gè)宣傳片,到2024年4月生數(shù)科技發(fā)布了Vidu——中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高動(dòng)態(tài)性、高一致性的視頻大模型。從去年9月開(kāi)始,產(chǎn)品的迭代速度非??欤蠹叶际且栽?、甚至是周的維度在進(jìn)行應(yīng)用的更新、模型的進(jìn)展。

多模態(tài)生成,尤其是視頻生成領(lǐng)域,到底有哪些場(chǎng)景和應(yīng)用的落地?
這里也分享一些Vidu在全球的落地實(shí)踐。去年《毒液:最后一舞》在中國(guó)上映的時(shí)候,就是用Vidu制作的中國(guó)宣傳片,這也是好萊塢五大電影公司首次在中國(guó)擁抱AI。
像這樣的內(nèi)容,完全是由AI生成的。如果用傳統(tǒng)的方式去做,一般需要超過(guò)30天,但當(dāng)時(shí)我們總共只花了10天時(shí)間。AI除了降本,還可以增效、釋放無(wú)盡想象力。這個(gè)影片里的轉(zhuǎn)場(chǎng)特效,其實(shí)給創(chuàng)作者帶來(lái)了很大的啟發(fā)。
此外,我們的超創(chuàng)藝術(shù)家柔樹(shù)特效還一個(gè)人制作了動(dòng)漫作品,他利用了非常多的AI工具、AI生圖、AI生音樂(lè),包括利用我們的Vidu去做AI的視頻生成。這樣的內(nèi)容過(guò)去一個(gè)人完成是不可能的,當(dāng)前多模態(tài)大模型技術(shù)不斷發(fā)展,已經(jīng)讓一人工作室成為了可能?,F(xiàn)在業(yè)界已經(jīng)有了非常多的小團(tuán)隊(duì)、甚至個(gè)人也能進(jìn)行高質(zhì)量的內(nèi)容制作。
AI除了給專業(yè)創(chuàng)作者帶來(lái)了一些生產(chǎn)力的加持,對(duì)我們大眾、對(duì)我們C端消費(fèi)者也帶來(lái)了深遠(yuǎn)的影響。
這是我們?cè)诖蟊妸蕵?lè)全球用戶的使用場(chǎng)景。從去年8月份開(kāi)始,社交媒體上興起了非常大的一股AI特效玩法的浪潮,包括前幾天GPT4o也屬于這樣的范疇。
去年的時(shí)候我們看到全球社交媒體上有非常多AI擁抱、AI親吻,甚至一些變身的玩法,尤其是我們發(fā)現(xiàn)很多用戶可以跟去世的親人或者明星進(jìn)行互動(dòng)。多模態(tài)技術(shù)發(fā)展之前,這樣的內(nèi)容制作成本非常高,也不可能說(shuō)僅僅上傳張兩張圖片就能達(dá)到這樣的效果。

除了大眾娛樂(lè)和專業(yè)創(chuàng)作者,我們?cè)趶V告營(yíng)銷、內(nèi)容營(yíng)銷領(lǐng)域也有非常多的落地實(shí)踐。
第一個(gè)是電商的場(chǎng)景,電商我們有非常多的存量的營(yíng)銷圖片,在視頻的時(shí)代,不管亞馬遜電商或者其他電商,都會(huì)希望商家上傳盡可能多的視頻內(nèi)容,基于存量圖片我們可以結(jié)合大模型生成一些內(nèi)容,包括人物、物體的運(yùn)鏡轉(zhuǎn)場(chǎng),還有比較趣味的動(dòng)態(tài)海報(bào),用戶所需要的僅僅是上傳一些圖片加上提示詞描述即可。
然而,多模態(tài)生成還是有很多問(wèn)題亟待解決,其中一個(gè)重要的問(wèn)題就是如何解決隨機(jī)的問(wèn)題,讓模型按照我們想要的方式生成。
實(shí)際上生數(shù)科技自成立以來(lái)一直在研究和思考可控生成問(wèn)題。
第一個(gè)可控問(wèn)題是位置,上面是輸入圖片,我們可以擬定一些角色、場(chǎng)景和道具的參考,也希望模型按照我們畫(huà)的線稿圖確定位置。

當(dāng)前的行業(yè)現(xiàn)狀是,它的物理規(guī)律和出現(xiàn)的方式非常奇怪,很難做到可控。但是在Q1模型的加持下,我們可以做到精準(zhǔn)控制不同角色的位置,也能做到比較符合人類的審美和自然規(guī)律。
除了位置可控,還有運(yùn)動(dòng)布局的可控。給定人物角色、場(chǎng)景和道具,我們希望按照我們想要的軌跡進(jìn)行運(yùn)動(dòng)。行業(yè)現(xiàn)狀是雖然我們給了一些參考,但是出現(xiàn)的方式很奇怪。而未來(lái)ViduQ1模型可以精準(zhǔn)控制機(jī)器人,從畫(huà)外走向畫(huà)內(nèi),比例和軌跡運(yùn)動(dòng)的幅度都會(huì)比較自然。

生數(shù)科技將于下周發(fā)布Vidu Q1模型,歡迎大家屆時(shí)在APP端和網(wǎng)頁(yè)端體驗(yàn)。Q1的更多可控相關(guān)功能未來(lái)也會(huì)陸續(xù)上線,敬請(qǐng)期待。
我們這次會(huì)推出可控音頻,通過(guò)文字加上時(shí)間軸的方式控制音頻的生成,我們只需要輸入下面的文字就可以生成對(duì)應(yīng)的音頻,整體做到視頻和音頻同時(shí)精準(zhǔn)的控制。
我相信今年是多模態(tài)生成的爆發(fā)之年,在多模態(tài)領(lǐng)域我認(rèn)為有三個(gè)方面趨勢(shì):
- 趨勢(shì)一,視頻生成這一塊內(nèi)容大量大幅提升,將迎來(lái)視頻生成領(lǐng)域的Midjourney V5時(shí)刻。
- 趨勢(shì)二,當(dāng)前視頻生成主要是默劇片斷的方式,并不是音視頻內(nèi)容的直接生成,今年大模型會(huì)發(fā)展成音視頻直接生成的情況。
- 趨勢(shì)三,我們相信有非常多專業(yè)和半專業(yè)用戶會(huì)涌入,之前還在猶豫觀望的人群將大規(guī)模涌入產(chǎn)生破圈高價(jià)值的內(nèi)容。

作為產(chǎn)品經(jīng)理,我也分享一下對(duì)多模態(tài)大模型終局的思考。
我認(rèn)為多模態(tài)大模型一定會(huì)誕生出新的內(nèi)容平臺(tái),這個(gè)內(nèi)容平臺(tái)跟當(dāng)前的內(nèi)容平臺(tái)肯定不一樣。當(dāng)前內(nèi)容平臺(tái)不管是TikTok或者YouTube,更多內(nèi)容是提前制作好的,不管內(nèi)容是UGC(用戶生成內(nèi)容)或者PGC(專業(yè)生產(chǎn)內(nèi)容),通過(guò)推薦算法做到內(nèi)容的個(gè)性化推薦,但它并不是內(nèi)容的個(gè)性化生成。
隨著多模態(tài)技術(shù)發(fā)展,當(dāng)多模態(tài)可以做到實(shí)時(shí)可控、可交互的時(shí)候,它可以是完全個(gè)性化的,屆時(shí)一定會(huì)誕生出帶來(lái)新體驗(yàn)的內(nèi)容平臺(tái),這個(gè)技術(shù)未來(lái)將應(yīng)用在社交、游戲、VR、AR等多個(gè)領(lǐng)域,會(huì)對(duì)所有的行業(yè)帶來(lái)非常深遠(yuǎn)的影響。
關(guān)于生數(shù)科技
生數(shù)科技成立于2023年3月,創(chuàng)始人是朱軍教授,致力于打造全球領(lǐng)先的多模態(tài)大模型及應(yīng)用產(chǎn)品,該團(tuán)隊(duì)在國(guó)際頂會(huì)和頂刊上發(fā)表的論文超30篇。

目前,生數(shù)科技在全球取得了一些成績(jī),當(dāng)前已經(jīng)支持面向全球海量用戶和企業(yè)用戶。
ToC方面,Vidu產(chǎn)品上線20天用戶突破百萬(wàn),上線100天突破千萬(wàn)用戶,且用戶絕大部分來(lái)自于海外;ToB方面,生數(shù)科技也跟國(guó)內(nèi)外的一些巨頭和創(chuàng)業(yè)公司有合作,包括百度、360、美圖、同花順等。
熱門跟貼