久久深爱婷婷,又黄又好看的久久免费视频,天天看高清视频在线看www,h片免费看久久,a亚洲va欧美va国产综合网站

編輯部整理自 AIGC峰會(huì)
量子位 | 公眾號(hào) QbitAI

多模態(tài)生成技術(shù)持續(xù)突破內(nèi)容創(chuàng)作的邊界。

生數(shù)作為多模態(tài)領(lǐng)域的明星玩家，所提供的技術(shù)正推動(dòng)AI視頻創(chuàng)作進(jìn)入系統(tǒng)性可用新階段。

在本次第三屆AIGC產(chǎn)業(yè)峰會(huì)上，生數(shù)科技產(chǎn)品副總裁、Vidu產(chǎn)品負(fù)責(zé)人廖謙分享了這樣的觀點(diǎn)：

隨著多模態(tài)模型的生成能力發(fā)展到實(shí)時(shí)、可控、可交互，內(nèi)容可以完全個(gè)性化，會(huì)誕生全新的內(nèi)容平臺(tái)。

為了完整體現(xiàn)廖謙的思考，在不改變?cè)獾幕A(chǔ)上，量子位對(duì)演講內(nèi)容進(jìn)行了編輯整理，希望能給你帶來(lái)更多啟發(fā)。

中國(guó)AIGC產(chǎn)業(yè)峰會(huì)是由量子位主辦的AI領(lǐng)域前沿峰會(huì)，20余位產(chǎn)業(yè)代表與會(huì)討論。線下參會(huì)觀眾超千人，線上直播觀眾320萬(wàn)+，累計(jì)曝光2000萬(wàn)+。

話題要點(diǎn)

視頻生成進(jìn)入黃金發(fā)展期，將迎來(lái)“Midjourney V5時(shí)刻”級(jí)別的突破。
AI能夠給專業(yè)創(chuàng)作者、C端消費(fèi)者和B端企業(yè)客戶都帶來(lái)生產(chǎn)力的加持。
大模型的可控生成問(wèn)題亟待解決和突破。
多模態(tài)大模型一定會(huì)誕生出新的內(nèi)容平臺(tái)。

以下為廖謙演講全文：

多模態(tài)大模型的終局：誕生新的內(nèi)容平臺(tái)

多模態(tài)大模型可以簡(jiǎn)單分為兩個(gè)方向：第一是多模態(tài)的理解，第二是多模態(tài)的生成。

今天我的分享主要聚焦在多模態(tài)的生成這一方向。

首先看整體的技術(shù)發(fā)展，從最左邊的曲線看，主要是文本生成這一塊，也就是大語(yǔ)言模型。文本生成的工作起步相對(duì)更早一些，隨著GPT系列技術(shù)不斷的演進(jìn)，它的技術(shù)范式相對(duì)來(lái)說(shuō)確立一些。

在Scaling Law的加持下，這塊發(fā)展得非常快，解鎖的應(yīng)用場(chǎng)景非常多。而多模態(tài)的起步相對(duì)晚一些，中間這條曲線是圖像生成，圖像生成已經(jīng)突破了技術(shù)的基點(diǎn)，不管是Midjourney，還有很火的GPT-4o吉卜力的風(fēng)格在網(wǎng)絡(luò)上有非常多的流傳，這一塊發(fā)展速度非?？?。

第三條曲線是視頻生成，現(xiàn)在視頻生成的研發(fā)進(jìn)入到黃金發(fā)展期，當(dāng)下如何去提升模型的能力、從而達(dá)到系統(tǒng)性可用，是我們要去重點(diǎn)解決的問(wèn)題。

除了視頻生成，最近還有一個(gè)很重要的方向是具身智能，具身智能也是多模態(tài)方向的應(yīng)用。當(dāng)多模態(tài)的模型可以利用更多維度的數(shù)據(jù)，不僅僅局限于文本，還包含音頻、視頻，甚至包括感覺(jué)類信息的時(shí)候，我相信會(huì)產(chǎn)生更高維度的智能涌現(xiàn)。

在產(chǎn)品方面，從2024年Sora發(fā)布首個(gè)宣傳片，到2024年4月生數(shù)科技發(fā)布了Vidu——中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高動(dòng)態(tài)性、高一致性的視頻大模型。從去年9月開(kāi)始，產(chǎn)品的迭代速度非?？欤蠹叶际且栽?、甚至是周的維度在進(jìn)行應(yīng)用的更新、模型的進(jìn)展。

多模態(tài)生成，尤其是視頻生成領(lǐng)域，到底有哪些場(chǎng)景和應(yīng)用的落地？

這里也分享一些Vidu在全球的落地實(shí)踐。去年《毒液：最后一舞》在中國(guó)上映的時(shí)候，就是用Vidu制作的中國(guó)宣傳片，這也是好萊塢五大電影公司首次在中國(guó)擁抱AI。

像這樣的內(nèi)容，完全是由AI生成的。如果用傳統(tǒng)的方式去做，一般需要超過(guò)30天，但當(dāng)時(shí)我們總共只花了10天時(shí)間。AI除了降本，還可以增效、釋放無(wú)盡想象力。這個(gè)影片里的轉(zhuǎn)場(chǎng)特效，其實(shí)給創(chuàng)作者帶來(lái)了很大的啟發(fā)。

此外，我們的超創(chuàng)藝術(shù)家柔樹(shù)特效還一個(gè)人制作了動(dòng)漫作品，他利用了非常多的AI工具、AI生圖、AI生音樂(lè)，包括利用我們的Vidu去做AI的視頻生成。這樣的內(nèi)容過(guò)去一個(gè)人完成是不可能的，當(dāng)前多模態(tài)大模型技術(shù)不斷發(fā)展，已經(jīng)讓一人工作室成為了可能?，F(xiàn)在業(yè)界已經(jīng)有了非常多的小團(tuán)隊(duì)、甚至個(gè)人也能進(jìn)行高質(zhì)量的內(nèi)容制作。

AI除了給專業(yè)創(chuàng)作者帶來(lái)了一些生產(chǎn)力的加持，對(duì)我們大眾、對(duì)我們C端消費(fèi)者也帶來(lái)了深遠(yuǎn)的影響。

這是我們?cè)诖蟊妸蕵?lè)全球用戶的使用場(chǎng)景。從去年8月份開(kāi)始，社交媒體上興起了非常大的一股AI特效玩法的浪潮，包括前幾天GPT4o也屬于這樣的范疇。

去年的時(shí)候我們看到全球社交媒體上有非常多AI擁抱、AI親吻，甚至一些變身的玩法，尤其是我們發(fā)現(xiàn)很多用戶可以跟去世的親人或者明星進(jìn)行互動(dòng)。多模態(tài)技術(shù)發(fā)展之前，這樣的內(nèi)容制作成本非常高，也不可能說(shuō)僅僅上傳張兩張圖片就能達(dá)到這樣的效果。

除了大眾娛樂(lè)和專業(yè)創(chuàng)作者，我們?cè)趶V告營(yíng)銷、內(nèi)容營(yíng)銷領(lǐng)域也有非常多的落地實(shí)踐。

第一個(gè)是電商的場(chǎng)景，電商我們有非常多的存量的營(yíng)銷圖片，在視頻的時(shí)代，不管亞馬遜電商或者其他電商，都會(huì)希望商家上傳盡可能多的視頻內(nèi)容，基于存量圖片我們可以結(jié)合大模型生成一些內(nèi)容，包括人物、物體的運(yùn)鏡轉(zhuǎn)場(chǎng)，還有比較趣味的動(dòng)態(tài)海報(bào)，用戶所需要的僅僅是上傳一些圖片加上提示詞描述即可。

然而，多模態(tài)生成還是有很多問(wèn)題亟待解決，其中一個(gè)重要的問(wèn)題就是如何解決隨機(jī)的問(wèn)題，讓模型按照我們想要的方式生成。

實(shí)際上生數(shù)科技自成立以來(lái)一直在研究和思考可控生成問(wèn)題。

第一個(gè)可控問(wèn)題是位置，上面是輸入圖片，我們可以擬定一些角色、場(chǎng)景和道具的參考，也希望模型按照我們畫(huà)的線稿圖確定位置。

當(dāng)前的行業(yè)現(xiàn)狀是，它的物理規(guī)律和出現(xiàn)的方式非常奇怪，很難做到可控。但是在Q1模型的加持下，我們可以做到精準(zhǔn)控制不同角色的位置，也能做到比較符合人類的審美和自然規(guī)律。

除了位置可控，還有運(yùn)動(dòng)布局的可控。給定人物角色、場(chǎng)景和道具，我們希望按照我們想要的軌跡進(jìn)行運(yùn)動(dòng)。行業(yè)現(xiàn)狀是雖然我們給了一些參考，但是出現(xiàn)的方式很奇怪。而未來(lái)ViduQ1模型可以精準(zhǔn)控制機(jī)器人，從畫(huà)外走向畫(huà)內(nèi)，比例和軌跡運(yùn)動(dòng)的幅度都會(huì)比較自然。

生數(shù)科技將于下周發(fā)布Vidu Q1模型，歡迎大家屆時(shí)在APP端和網(wǎng)頁(yè)端體驗(yàn)。Q1的更多可控相關(guān)功能未來(lái)也會(huì)陸續(xù)上線，敬請(qǐng)期待。

我們這次會(huì)推出可控音頻，通過(guò)文字加上時(shí)間軸的方式控制音頻的生成，我們只需要輸入下面的文字就可以生成對(duì)應(yīng)的音頻，整體做到視頻和音頻同時(shí)精準(zhǔn)的控制。

我相信今年是多模態(tài)生成的爆發(fā)之年，在多模態(tài)領(lǐng)域我認(rèn)為有三個(gè)方面趨勢(shì)：

趨勢(shì)一，視頻生成這一塊內(nèi)容大量大幅提升，將迎來(lái)視頻生成領(lǐng)域的Midjourney V5時(shí)刻。
趨勢(shì)二，當(dāng)前視頻生成主要是默劇片斷的方式，并不是音視頻內(nèi)容的直接生成，今年大模型會(huì)發(fā)展成音視頻直接生成的情況。
趨勢(shì)三，我們相信有非常多專業(yè)和半專業(yè)用戶會(huì)涌入，之前還在猶豫觀望的人群將大規(guī)模涌入產(chǎn)生破圈高價(jià)值的內(nèi)容。

作為產(chǎn)品經(jīng)理，我也分享一下對(duì)多模態(tài)大模型終局的思考。

我認(rèn)為多模態(tài)大模型一定會(huì)誕生出新的內(nèi)容平臺(tái)，這個(gè)內(nèi)容平臺(tái)跟當(dāng)前的內(nèi)容平臺(tái)肯定不一樣。當(dāng)前內(nèi)容平臺(tái)不管是TikTok或者YouTube，更多內(nèi)容是提前制作好的，不管內(nèi)容是UGC（用戶生成內(nèi)容）或者PGC（專業(yè)生產(chǎn)內(nèi)容），通過(guò)推薦算法做到內(nèi)容的個(gè)性化推薦，但它并不是內(nèi)容的個(gè)性化生成。

隨著多模態(tài)技術(shù)發(fā)展，當(dāng)多模態(tài)可以做到實(shí)時(shí)可控、可交互的時(shí)候，它可以是完全個(gè)性化的，屆時(shí)一定會(huì)誕生出帶來(lái)新體驗(yàn)的內(nèi)容平臺(tái)，這個(gè)技術(shù)未來(lái)將應(yīng)用在社交、游戲、VR、AR等多個(gè)領(lǐng)域，會(huì)對(duì)所有的行業(yè)帶來(lái)非常深遠(yuǎn)的影響。