
出品|虎嗅科技組
作者|宋思杭
編輯|苗正卿
頭圖|AI生成
“多模態(tài)目前的水平仍處于GPT 2~3 中間,尚未迎來(lái)智能涌現(xiàn)的臨界點(diǎn)”,視頻生成模型公司“智象未來(lái)”創(chuàng)始人兼CEO梅濤對(duì)虎嗅坦言。這位曾主導(dǎo)微軟研究院多模態(tài)AI體系建設(shè)的科學(xué)家、前京東副總裁,如今正帶領(lǐng)團(tuán)隊(duì)占領(lǐng)視頻生成高地。
回溯2023年初ChatGPT引爆國(guó)內(nèi)市場(chǎng)之時(shí),中國(guó)的大語(yǔ)言模型水平還處在GPT 2的程度,如此計(jì)算,多模態(tài)模型與大語(yǔ)言模型拉開(kāi)的差距則至少是兩年起步。
而在過(guò)去的兩年時(shí)間里,無(wú)論是國(guó)內(nèi)的可靈、MiniMax還是Vidu,抑或是海外的Sora,也都是雷聲大雨點(diǎn)小。盡管是估值較高的MiniMax也將主要目標(biāo)市場(chǎng)瞄向了海外。
在這場(chǎng)關(guān)乎未來(lái)的技術(shù)競(jìng)速中,三個(gè)關(guān)鍵問(wèn)題亟待解答:造成這種差異的原因究竟是什么?多模態(tài)何時(shí)迎來(lái)“iPhone時(shí)刻”?創(chuàng)業(yè)公司又如何在大廠圍剿中突圍?
梅濤的成長(zhǎng)軌跡恰似一部微縮版行業(yè)進(jìn)化史。
今年是梅濤創(chuàng)業(yè)的第三年。在微軟研究院期間,梅濤曾探索過(guò)文生視頻的路線。可以說(shuō),今天從文字到圖片/視頻的生成,是站在過(guò)去從圖片/視頻到文字這塊墊腳石之上的。
十年前,被大眾所接受的路線并非是從文字到圖片,或從文字到視頻的生成,而是一種反過(guò)來(lái)的邏輯,即從圖片/視頻到文字的生成。但當(dāng)時(shí)間來(lái)到十年后的今天,后者才是被大眾接受的路線,前者則被認(rèn)為是反直覺(jué)。
從文字到圖片/視頻,這個(gè)如今再正常不過(guò)的生成邏輯,在十年前卻鮮少有人敢于嘗試。而梅濤等人正是首批研究這種逆向路徑的人。作為第一批吃螃蟹的人,梅濤需要突破的是一種“維度詛咒”。
簡(jiǎn)單理解是,因?yàn)閳D片和視頻都是多維信號(hào),而文字是單一維度,從多到一可以有標(biāo)準(zhǔn)答案,但從一到多卻有多條發(fā)展路線/技術(shù)路線。這種技術(shù)范式的顛覆,也注定了行業(yè)內(nèi)長(zhǎng)達(dá)十年的技術(shù)蟄伏期??梢哉f(shuō),直到今天,這條路線都還未有收斂跡象。
技術(shù)架構(gòu)的迭代勾勒出清晰的進(jìn)化圖譜:2015年深度神經(jīng)網(wǎng)絡(luò)突破、2017年Transformer架構(gòu)革命、2020年Diffusion模型崛起、2024年自回歸架構(gòu)創(chuàng)新......每個(gè)節(jié)點(diǎn)都暗藏玄機(jī)。讓梅濤真正走向創(chuàng)業(yè)道路的是一個(gè)重要的技術(shù)迭代契機(jī):
2022年末Stable Diffusion架構(gòu)點(diǎn)燃文生圖賽道,這讓梅濤嗅到了視頻生成的技術(shù)拐點(diǎn),也讓他重拾起自己5年前的研究成果。彼時(shí),受限于技術(shù)架構(gòu)發(fā)展,視頻生成模型的研究探索遲遲未能有突破。
2023年,梅濤成立了“智象未來(lái)”。巧合的是,這一年也正是國(guó)內(nèi)的大模型元年。
梅濤告訴虎嗅,目前,視頻生成類(lèi)產(chǎn)品之所以還沒(méi)有像大語(yǔ)言模型一樣跨越大眾認(rèn)知門(mén)檻,一方面是因?yàn)槭鼙姺秶^小,更偏重專業(yè)人士,因?yàn)樗幌翊竽P鸵粯幽芙o人算命、提供問(wèn)答;另一方面從模型能力來(lái)說(shuō),它的確還沒(méi)出現(xiàn)太多次的“aha moment”。
另?yè)?jù)虎嗅獨(dú)家獲悉,智象未來(lái)預(yù)計(jì)5月中旬上線C端視頻生成類(lèi)Agent應(yīng)用。此前,智象未來(lái)在C端應(yīng)用上所發(fā)力的重點(diǎn)則更聚焦在海外。值得一提的是,上周智象未來(lái)開(kāi)源了image模型,截至目前,該模型在Hugging Face上排名第三。
然而,如今多模態(tài)模型正在面臨現(xiàn)實(shí)窘境: 一邊是DeepSeek開(kāi)源勢(shì)力帶來(lái)的沖擊,另一邊是大廠生態(tài)資源的碾壓。
更深層的行業(yè)拷問(wèn)仍在延續(xù):當(dāng)下技術(shù)路線遠(yuǎn)未收斂,算力成本高企不下,這場(chǎng)多模態(tài)長(zhǎng)征還需要多少時(shí)間與耐心?在這條征途上,中國(guó)創(chuàng)業(yè)者能否走出差異化創(chuàng)新路徑?答案或許藏在下一個(gè)技術(shù)奇點(diǎn)的晨光里。
“工具革命”的生死時(shí)速
虎嗅:你能介紹下你在微軟研究院做視頻生成模型的背景嗎?
梅濤:研究生期間,我的博士論文題目就是視頻分析,當(dāng)時(shí)做的第一個(gè)工作是做 Sports video,分析足球籃球運(yùn)動(dòng)的視頻。
后來(lái)又開(kāi)始做廣告,當(dāng)時(shí)世界上第一批視頻廣告插入的專利就是我們寫(xiě)的。再后來(lái)到了 2015 年左右, 開(kāi)始研究深度神經(jīng)網(wǎng)絡(luò)。那個(gè)時(shí)候做過(guò)Captioning,即圖片/視頻生文。
到 2017 年的時(shí)候,業(yè)界的普遍認(rèn)知是從圖片/視頻到文字會(huì)更簡(jiǎn)單。彼時(shí)微軟是第一批把這個(gè)技術(shù)用在 office 和工業(yè)場(chǎng)景里的企業(yè)。
虎嗅:所以之前一直都是視頻到文字,現(xiàn)在是反過(guò)來(lái)。
梅濤:當(dāng)時(shí)很少有人敢嘗試,因?yàn)橛X(jué)得這個(gè)事情沒(méi)有標(biāo)準(zhǔn)答案。原因很簡(jiǎn)單,要做一對(duì)多很難justify。但我們?cè)?2017 年就做過(guò)一些文生視頻的實(shí)驗(yàn),就打算反過(guò)來(lái),研究從文字到視頻。
(虎嗅注:梅濤認(rèn)為文字是一維信號(hào),圖片是二維信號(hào),視頻是三維信號(hào)。當(dāng)時(shí)研究的都是多個(gè)維度到單一維度,會(huì)相對(duì)比較簡(jiǎn)單;而反過(guò)來(lái),當(dāng)時(shí)很難找到標(biāo)準(zhǔn)答案)
虎嗅:那你在京東做的事情也是這些嗎?
梅濤:我們?cè)诰〇|做的事情不太一樣。因?yàn)?DiT 是 2024 年出來(lái)的,Diffusion 應(yīng)該是 2020 出來(lái)。但直到 2022 年底才有人把它變成 Stable Diffusion。這也是為什么我們從 2017 年做完,一直到 2023 年中間就沒(méi)有做過(guò)生成。
所以智象是從 2023 年開(kāi)始用UNet架構(gòu),到 2024 年是 Diffusion Transformer(DiT),2025 年就開(kāi)始用DiT+AR(自回歸)架構(gòu)。
虎嗅:現(xiàn)在在 AI 時(shí)代做大模型的、做多模態(tài)的創(chuàng)業(yè)者基因上有很大不同,有些來(lái)自從硅谷圈,有些來(lái)自大廠,還有一類(lèi)人是移動(dòng)互聯(lián)網(wǎng)時(shí)代的。你覺(jué)得這幾類(lèi)人創(chuàng)業(yè)做AI會(huì)有什么差異嗎?
梅濤:差異很大,大家優(yōu)勢(shì)不一樣。
第一,移動(dòng)互聯(lián)網(wǎng)這波人對(duì)商業(yè)化非常敏感,可能會(huì)做出一些短平快的產(chǎn)品,很快就能爆。但 AI 時(shí)代做產(chǎn)品不容易。
不過(guò)如果他能知道技術(shù)的邊界,他依然可以。因?yàn)槿诵缘男枨笤谀抢?。所以有些人從移?dòng)互聯(lián)網(wǎng)時(shí)代進(jìn)入到 AI 時(shí)代,他依然能做出不錯(cuò)的產(chǎn)品,但上限不高。
因?yàn)?AI 時(shí)代,不像移動(dòng)互聯(lián)網(wǎng),現(xiàn)在不是模式創(chuàng)新,是工具創(chuàng)新、工具革命,是利用工具來(lái)提高生產(chǎn)效率,降低成本。那么現(xiàn)在首先需要的是替代以前的工具,再?gòu)墓ぞ咦龅狡脚_(tái)。
而過(guò)去是直接做平臺(tái),是一個(gè)新的模式。以前沒(méi)有手機(jī),只能在web端做,有手機(jī)后,就產(chǎn)生了很多新的生產(chǎn)場(chǎng)景,這就創(chuàng)造了新的商業(yè)模式。所以當(dāng)時(shí)的邏輯比較簡(jiǎn)單,模式對(duì)了,投資人就會(huì)有投資的意愿,而對(duì)技術(shù)本身的要求并不高。
第二,從大廠出來(lái)的人,會(huì)對(duì)商業(yè)化思考更多,尤其是對(duì)技術(shù)和商業(yè)化的碰撞上面。但我們會(huì)追求一個(gè)更大的機(jī)會(huì),比如顛覆掉從前的工具,再?gòu)墓ぞ叩狡脚_(tái),從平臺(tái)到社區(qū)。
第三,從學(xué)術(shù)界出來(lái)的人,他們?cè)谏虡I(yè)化方面,比如對(duì)用戶的需求、對(duì)場(chǎng)景的認(rèn)知,以及對(duì)產(chǎn)品怎樣做增長(zhǎng),要做渠道診斷、拓客方面仍需要更多探索。但同時(shí)他們的長(zhǎng)處也很明顯,他們特別有科研精神。
所以到底什么時(shí)間適合出來(lái),是需要考量的。如果這個(gè)技術(shù)在實(shí)驗(yàn)室已經(jīng)非常成熟了,還有一個(gè)特別懂商業(yè)化的合伙人,出來(lái)做會(huì)比較合適。
虎嗅:這兩年大模型圈有一個(gè)共識(shí),大家會(huì)覺(jué)得大模型、多模態(tài)商業(yè)化是很難的事情。難點(diǎn)在于找PMF的過(guò)程中,不僅是找不到“M”,可能有些人連“P”是什么都不清楚。所以你怎么看這里面的P和M?
梅濤:目前大模型找 PMF 確實(shí)花了點(diǎn)時(shí)間。但宏觀來(lái)講,站在 AI 長(zhǎng)期發(fā)展的角度來(lái)看,大家太著急了,整個(gè)市場(chǎng)上都比較迫切地在尋求所謂最優(yōu)解,基本上每年都在跟一個(gè)新的風(fēng)向。
虎嗅:著急會(huì)不會(huì)是因?yàn)榇蠹疫€是延續(xù)過(guò)去的模式走?
梅濤:對(duì),因?yàn)樵谒伎兼溌飞嫌幸环N惰性的慣性思維,這很難改變。今天很多人說(shuō) AI 泡沫,AI 肯定有泡沫。像很多公司估值過(guò)高,但收入?yún)s并不能覆蓋成本。
但從人工智能發(fā)展來(lái)看,從 1950 年代開(kāi)始至今共經(jīng)歷了三起三落?,F(xiàn)在回頭再看十年前會(huì)覺(jué)得是小兒科。所以說(shuō)要學(xué)習(xí)歷史。 AI 發(fā)展一定是長(zhǎng)期的過(guò)程,今天看的東西不是終局。
當(dāng)然現(xiàn)在找 PMF 并沒(méi)有像模式創(chuàng)新時(shí)那么快。剛才我講了工具革命,首先我們要把工具革掉,這個(gè)時(shí)間會(huì)稍微長(zhǎng)一點(diǎn)。
在移動(dòng)互聯(lián)網(wǎng)時(shí)代,做一個(gè)新的模式也需要很長(zhǎng)時(shí)間。比如字節(jié)跳動(dòng)最開(kāi)始也做過(guò)幾個(gè)失敗產(chǎn)品,到后來(lái)才找到信息流。后來(lái)做視頻也花了很久。所以我覺(jué)得大家對(duì) AI 還是要有點(diǎn)耐心。
另外,我并沒(méi)有覺(jué)得多模態(tài)找PMF會(huì)比大模型慢。舉幾個(gè)例子,比如 Midjourney 2022 年 11 個(gè)人收入做到 1 億美金,2023 年是 2 億美金,2024年是做到 5 億美金的ARR。你難道還說(shuō)他找不到 PMF 嗎?
再比如海外的HeyGen,也做到了幾千萬(wàn)美金的ARR,以及 Photoroom 這種傳統(tǒng)做圖像處理的,現(xiàn)在加了AI,也是大幾千萬(wàn)美金的ARR,所以我并不認(rèn)為多模態(tài) PMF 特別難。
虎嗅:你想做國(guó)內(nèi)的 Midjourney? 還是其他什么場(chǎng)景?
梅濤:我們不會(huì)復(fù)制別人。我們想做全球化的視頻創(chuàng)作開(kāi)發(fā)平臺(tái),會(huì)為設(shè)計(jì)師或者泛設(shè)計(jì)師人群設(shè)置非常低門(mén)檻的在上面,讓他們高效實(shí)現(xiàn)創(chuàng)意。
它首先是一個(gè)高效工具。這個(gè)工具未來(lái)可能是我們自研,也有可能由第三方提供一部分。在平臺(tái)上也會(huì)有很多種設(shè)計(jì)創(chuàng)意,可以叫它模板或者工作流,可以供大家使用。
其實(shí)今天的平臺(tái)包括Canva還存在一個(gè)問(wèn)題,就是用戶創(chuàng)作完之后需要在第三個(gè)平臺(tái)上變現(xiàn)。
中間過(guò)程非常割裂。我們希望一個(gè)平臺(tái)上既有我們的業(yè)務(wù),比如游戲公司做宣發(fā),影視公司做前期宣傳,文旅集團(tuán)做 IP 二創(chuàng)等等,它會(huì)把想法發(fā)布到我們平臺(tái)上,我們會(huì)連接最合適的創(chuàng)意,創(chuàng)作者生成作品后,我們會(huì)有流量平臺(tái)分發(fā)出去。最后再這些用戶反饋也會(huì)回到創(chuàng)作者那邊。我們希望實(shí)現(xiàn)整個(gè)流程的閉環(huán)。
虎嗅:這個(gè)事情很難嗎?
梅濤:現(xiàn)在還沒(méi)有人做到。智象未來(lái)也在努力。這里面首先需要生產(chǎn)力工具平臺(tái),其次是業(yè)務(wù),還要有創(chuàng)作者生態(tài)的建設(shè)。
虎嗅:這件事大概什么時(shí)間會(huì)看到希望?
梅濤:預(yù)計(jì)明年能有雛形吧。
開(kāi)源與技術(shù)架構(gòu)的雙重圍城
虎嗅:你們?yōu)槭裁磿?huì)選擇在這個(gè)時(shí)間點(diǎn)開(kāi)源?會(huì)不會(huì)受到 DeepSeek 影響?
梅濤 :我們現(xiàn)在這個(gè)階段要迎接變化,之前我們對(duì)開(kāi)源的認(rèn)知是不夠的。
DeepSeek 開(kāi)源之后起到很大的作用。所有人使用大模型的門(mén)檻降低了,應(yīng)用的天花板提高了,因?yàn)槊總€(gè)人都能創(chuàng)作出好用的東西。這對(duì)社區(qū)的貢獻(xiàn)是非常大,同時(shí)也提高了他的品牌影響力。
第二,開(kāi)源之后讓大家認(rèn)識(shí)到中國(guó)的公司其實(shí)有很強(qiáng)的技術(shù)?,F(xiàn)在大模型里開(kāi)源做比較好的兩家,一個(gè)是DeepSeek,一個(gè)是阿里的Qwen系列。這是大家比較認(rèn)可的。我們自己作為創(chuàng)業(yè)公司是想構(gòu)建社區(qū)。
虎嗅:那你們開(kāi)源和商業(yè)化之間是怎么平衡的?
梅濤 :我們開(kāi)源了 1.0 版本,另外還有一個(gè) Pro 版,效果會(huì)比這次的開(kāi)源好,參數(shù)也會(huì)更大。
還有一點(diǎn),我們開(kāi)源的是圖像模型,這也是我們?cè)谧鲈圏c(diǎn)操作過(guò)程中很關(guān)鍵的一步。因?yàn)楹芏鄷r(shí)候,用戶是先生成一張圖片,基于圖片再去上面修改做成視頻的。這是目前比較主流的創(chuàng)作方式。
另外,我們也希望把它拿出來(lái),讓大家共同來(lái)把事情做得更好一點(diǎn),同時(shí)也加速我們的技術(shù)迭代。
商業(yè)化方面我們靠視頻模型。但目前視頻模型暫無(wú)開(kāi)源計(jì)劃,不過(guò)也根據(jù)商業(yè)化情況調(diào)整。
虎嗅:之前聽(tīng)一些獨(dú)角獸公司說(shuō)他們講到并不是說(shuō)用戶數(shù)越多,模型能力就會(huì)變得越強(qiáng),所以說(shuō)現(xiàn)在很多其實(shí)也并不是很 care 用戶多不多。
梅濤 :對(duì),這個(gè)我同意。用戶數(shù)量大并不意味著能留存下來(lái)。目前用戶普遍的留存度不高,用戶還沒(méi)有形成完整的工作流習(xí)慣?,F(xiàn)在大家更多是幾種工具間來(lái)回切換,用戶會(huì)看效果看成本。
我覺(jué)得今天還是比較早期的競(jìng)爭(zhēng)態(tài)勢(shì),它并不代表未來(lái)的結(jié)果。對(duì)于我們來(lái)說(shuō),我們并沒(méi)有去大量的投流和投放,現(xiàn)在都是自然增長(zhǎng)。
虎嗅:現(xiàn)在做視頻生成模型,除了缺數(shù)據(jù),技術(shù)上還存在哪些卡點(diǎn)?
梅濤:還有交互,比如我要拿這個(gè)杯子,我要遞給你,然后你要接住這個(gè)杯子,還要喝水。這個(gè)過(guò)程是很難的。
4月7日我在香港參加了一個(gè) panel discussion,跟學(xué)術(shù)屆一起聊這個(gè)事情。大家普遍認(rèn)為現(xiàn)在大家把大模型的能力邊界擴(kuò)得很大,包括Sam Altman也在講他對(duì) AI 的期望有點(diǎn)高。他覺(jué)得 AI 其實(shí)就是一個(gè)非常 powerful 的工具。
我們以前的一些同事,像香港大學(xué)的馬毅教授、香港理工的楊紅霞教授,還有我們中科大的姚欣教授,我們?cè)谡搲隙家恢抡J(rèn)為今天 AI 即使再powerful,也只在 memorizing the world,就是用token的方式把整個(gè)世界記住。
但還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到智能,現(xiàn)在它只是在建立連接。它也不一定能理解 2 和 3 是什么意思,3 一定比 2 要多一個(gè) 1。它只是在不斷的輸出。
但你也不能說(shuō)它輸出的沒(méi)有價(jià)值。因?yàn)閺纳窠?jīng)學(xué)的角度來(lái)說(shuō),它其實(shí)在構(gòu)建連接。這跟人的學(xué)習(xí)方式也有些類(lèi)似,但人的學(xué)習(xí)方式更復(fù)雜。一個(gè)簡(jiǎn)單的邏輯就是現(xiàn)在的大模型也相當(dāng)于在建立人的神經(jīng)網(wǎng)絡(luò)、神經(jīng)元的連接。
但是我們現(xiàn)在大模型做的東西非常粗淺。跟人完全比不了。但即使這樣,已經(jīng)對(duì)工業(yè)界產(chǎn)生了極大的影響。
技術(shù)上哪怕是一點(diǎn)點(diǎn)的小進(jìn)步,對(duì)世界的經(jīng)濟(jì)影響都是很大的。比如我們以前在微軟做搜索,提高 0.1 個(gè)點(diǎn)的搜索準(zhǔn)確率,廣告收入就是幾十億美金。
所以說(shuō)一方面我們要認(rèn)可今天 AI 還不是那么 super(高級(jí)),也不是那么通用。但是它已經(jīng)足夠強(qiáng)大到成為一個(gè)非常好的工具。這個(gè)工具能對(duì)工業(yè)界和我們的生活產(chǎn)生巨大的影響,但同時(shí)也不要把它過(guò)分地?cái)U(kuò)大,說(shuō)我們今天就要實(shí)現(xiàn) AGI 了。
虎嗅:現(xiàn)在市面上Sora、MiniMax、可靈等等,大家視頻生成的風(fēng)格都不太一樣,這個(gè)風(fēng)格的差異是怎么形成的?
姚霆(智象未來(lái)CTO):最直接的來(lái)源肯定是數(shù)據(jù),數(shù)據(jù)決定一切。如果沒(méi)有對(duì)應(yīng)的數(shù)據(jù),你做不了任何風(fēng)格,這個(gè)是從模型側(cè)的角度來(lái)看。我不知道其他公司的側(cè)重點(diǎn)是什么,我們的側(cè)重點(diǎn)是在敘事性。
實(shí)際上,今天無(wú)論是生圖還是視頻,用戶買(mǎi)單的都是敘事能力。舉個(gè)例子,比如我腦海中就想講述一個(gè)故事,那每一幅圖它需要長(zhǎng)成什么樣?它的景別是什么樣?每幅圖應(yīng)該都有所不同,因?yàn)樗且粋€(gè)敘事的過(guò)程,一開(kāi)始可能是近景,然后是中景、遠(yuǎn)景等等,這樣才知道我要生成是什么樣的圖。
接下來(lái),生成好每一幅圖或者視頻幀以后,我再把它變成一個(gè)視頻,這樣才能夠串起來(lái)一個(gè)故事。
如果它不是一個(gè)故事的話,說(shuō)實(shí)話今天所有的素材可能價(jià)值都不大,因?yàn)槟菢泳褪チ遂`魂,所以說(shuō)敘事性是要貫穿始終的。
虎嗅:最新開(kāi)源的 image 模型是170億參數(shù)。那視頻呢?
姚霆:視頻肯定比圖片更大,幾百億的參數(shù)吧。
虎嗅:選擇多大參數(shù),數(shù)據(jù)可能是一方面,還有其他方面的考量嗎?
姚霆:今天去看模型訓(xùn)練的好壞,選擇多少的參數(shù)比較合適,是要看在訓(xùn)練過(guò)程中,需要多大量級(jí)的模型能夠把訓(xùn)練數(shù)據(jù)“重現(xiàn)”出來(lái),這是我們的核心點(diǎn)。先不管訓(xùn)練數(shù)據(jù)有多少,如果模型訓(xùn)練到一定程度發(fā)現(xiàn)能把訓(xùn)練數(shù)據(jù)完全重現(xiàn)了,那這就是一個(gè)相對(duì)好的匹配。
如果當(dāng)數(shù)據(jù)量極大的情況下,模型沒(méi)辦法完全重現(xiàn)訓(xùn)練數(shù)據(jù),那就要增大參數(shù)量,因?yàn)槟P偷娜萘坎粔颉?/p>
所以說(shuō)參數(shù)量不能過(guò)大也不能過(guò)小,過(guò)大會(huì)造成浪費(fèi)模型能力和成本,過(guò)小會(huì)沒(méi)法完全壓縮數(shù)據(jù)內(nèi)容和知識(shí),所以這是一個(gè)匹配的過(guò)程。
虎嗅:你們的數(shù)據(jù)是從哪里獲取的?
姚霆:一部分是公開(kāi)域的數(shù)據(jù),另一部分是和影視公司合作的,包括有版權(quán)的視頻數(shù)據(jù)等,不過(guò)商業(yè)化大部分都是私域數(shù)據(jù)。
虎嗅:之前國(guó)內(nèi)在視頻生成領(lǐng)域,也出現(xiàn)過(guò)版權(quán)糾紛案。從行業(yè)角度來(lái)講,視頻生成模型廠商會(huì)不會(huì)考慮使用幾大視頻平臺(tái)的數(shù)據(jù)?或者會(huì)如何使用?
姚霆:其實(shí)這種海量數(shù)據(jù)更多會(huì)用在預(yù)訓(xùn)練。后訓(xùn)練會(huì)少一些,因?yàn)樗蛻?yīng)用場(chǎng)景是強(qiáng)耦合的。等到后訓(xùn)練的時(shí)候會(huì)找一些特定應(yīng)用場(chǎng)景的數(shù)據(jù)。
虎嗅:智象使用的是DiT+AR的架構(gòu)。這兩年也一直有討論DiT其實(shí)并不能完全滿足視頻生成模型。所以想問(wèn)這個(gè)DiT+AR目前解決了哪些問(wèn)題?行業(yè)里這方面的探索進(jìn)行到什么程度了?
姚霆:對(duì),這個(gè)我們內(nèi)部一直也會(huì)有討論,到底是什么樣的一套架構(gòu)是我們要選擇的。目前路線也在不斷變化,還沒(méi)有收斂。
我猜測(cè)GPT-4o用的也是類(lèi)似融合的架構(gòu),雖然他們?cè)趫?bào)告中沒(méi)有詳細(xì)的介紹。目前我們正在用DiT和自回歸(AR)融合的方式,但如果你問(wèn)終局是什么,現(xiàn)在還很難說(shuō)。
另外也要看你的目標(biāo)是什么,對(duì)我們來(lái)說(shuō)自回歸和DiT的融合已經(jīng)能滿足大部分場(chǎng)景了。
DiT具備較高的生成質(zhì)量,但它需要多步的加噪去噪過(guò)程,因此推理速度較慢;而傳統(tǒng)的自回歸模型AR通過(guò)離散圖像編碼結(jié)合整圖的自回歸建模實(shí)現(xiàn)了較快的推理速度,但離散圖像編碼會(huì)帶來(lái)一定的信息損失,影響生成質(zhì)量。因此我們采用DiT+AR的技術(shù)路線,在保持連續(xù)圖像編碼的同時(shí)實(shí)現(xiàn)自回歸過(guò)程和輕量化擴(kuò)散過(guò)程的結(jié)合,從而提升推理速度的同時(shí)保持了生成質(zhì)量,而且自回歸的過(guò)程也能天然地和上下文語(yǔ)境理解適配和對(duì)齊,從而達(dá)到更強(qiáng)的指令跟隨特質(zhì)。
(虎嗅注:2025年4月3日,一篇揭秘GPT4o圖像生成架構(gòu)的論文正式發(fā)表,該論文指出GPT-4o很可能采用了AR+Diffusion架構(gòu),而智象未來(lái)也提到,HiDream模型于2024年末開(kāi)始使用DiT+AR架構(gòu))
虎嗅:用自回歸和DiT融合的架構(gòu)對(duì)成本也會(huì)有節(jié)省嗎?
姚霆:會(huì)。極致的話可能節(jié)省 50% 以上,甚至 80% 都有可能,但要是看怎么去組合和平衡。例如擴(kuò)散過(guò)程做的特別輕,那可能會(huì)影響生成效果。但如果重心都放到擴(kuò)散過(guò)程中,前面自回歸建模部分做的輕量級(jí),那其實(shí)推理成本上節(jié)省的就不多了。實(shí)際上,這個(gè)DiT+AR技術(shù)路線里面的訓(xùn)練機(jī)制方式非常復(fù)雜,并不是一個(gè)簡(jiǎn)單的積木拼接,需要結(jié)構(gòu)上巧妙地組合和優(yōu)化。
“文生視頻模型至今沒(méi)出現(xiàn)aha moment”
虎嗅:考慮到現(xiàn)在 Deepseek 還有大廠,他們可能更有場(chǎng)景,你們?cè)趺纯创齺?lái)自外部的競(jìng)爭(zhēng),智象的護(hù)城河在哪?
梅濤:我們并不會(huì)關(guān)注和創(chuàng)業(yè)公司的競(jìng)爭(zhēng),但我們最擔(dān)心就是大廠的競(jìng)爭(zhēng)。對(duì)我們來(lái)說(shuō),他們有更多的場(chǎng)景、數(shù)據(jù)、現(xiàn)金流、資源等等。
目前來(lái)說(shuō),大廠是在 C 端流量上競(jìng)爭(zhēng)非常激烈。但我們目前還并沒(méi)有去競(jìng)爭(zhēng)純C端。
當(dāng)然初創(chuàng)公司從零開(kāi)始肯定得有過(guò)程,但也不是說(shuō)不能做了。像我剛剛提到很多ARR過(guò)億的都是小公司。
所以還是有機(jī)會(huì)。另外大廠的劣勢(shì)是反應(yīng)速度沒(méi)有初創(chuàng)公司那么敏捷。雖然它資源多,但具體到某一個(gè)細(xì)分場(chǎng)景下,它的人員、資源的配置反而不像小公司那么極致的。它比較零散,很難聚匯聚到一起。
虎嗅:你怎么看ARR過(guò)億的應(yīng)用都是小公司做出來(lái)的?
梅濤:AI這一波趨勢(shì)很明顯。回到兩年前,當(dāng)時(shí)做得比較好的產(chǎn)品基本都是創(chuàng)業(yè)公司的。投資人也基本只看了小公司,不看大公司。
因?yàn)槭紫却蠊竞茈y去做一個(gè)很大的決定,比如 all in 某個(gè)地方,它有很多的包袱。相比之下,小公司沒(méi)有包袱,組織架構(gòu)比較輕盈,投資人也愿意在某個(gè)細(xì)分領(lǐng)域去砸。
虎嗅:但大公司優(yōu)勢(shì)可能也在于生態(tài)。
梅濤:生態(tài)是雙刃劍吧。說(shuō)實(shí)話,所謂的生態(tài)是你有沒(méi)有一個(gè)好的產(chǎn)品,好的場(chǎng)景。有的話生態(tài)是可以跟著你走,但并不是說(shuō)生態(tài)會(huì)一直跟著你走。在商業(yè)社會(huì)大家都講商業(yè)利益。
現(xiàn)在 AI 做的是增量市場(chǎng)。比如DeepSeek很迅速地幫創(chuàng)業(yè)公司把大眾的認(rèn)知鴻溝邁過(guò)去了。同樣地,Midjourney去年也達(dá)到5億美金ARR。他們都很垂。
所以AI不是一個(gè)存量市場(chǎng),我也不認(rèn)為大公司在這個(gè)增量市場(chǎng)里一定會(huì)找到自己的位置。
虎嗅:Deepseek 出現(xiàn)之后,很多人認(rèn)為 Deepseek 暫時(shí)還沒(méi)有入局多模態(tài),那么AI創(chuàng)業(yè)公司在多模態(tài)還是有機(jī)會(huì)的。但是這個(gè)事情有沒(méi)有壁壘?
梅濤:他們已經(jīng)做了一個(gè)很簡(jiǎn)單的圖像模型,架構(gòu)也是用AR自回歸,不保證它將來(lái)不會(huì)重投入。因?yàn)槎嗄B(tài)大家都能看得見(jiàn),如果要做物理模型、世界模型,肯定要結(jié)合多模態(tài)的數(shù)據(jù)。這樣多模態(tài)模型才會(huì)離商業(yè)化更近,離那個(gè)物理世界更近。
我不認(rèn)為現(xiàn)在還有人從零開(kāi)始做多模態(tài)這件事能有很好的排名。它的壁壘可能不在于模型本身,自研也好,用開(kāi)源也好,真正的壁壘在于有沒(méi)有自己的版權(quán)數(shù)據(jù),有沒(méi)有把生態(tài)建起來(lái)。還有就是能否基于模型構(gòu)建用戶粘性高的產(chǎn)品,這是很重要的。
目前來(lái)說(shuō),模型還沒(méi)有收斂?,F(xiàn)在多模態(tài)還處于 GPT 2 的階段,等到了 GPT 5 ,類(lèi)似于做到了連續(xù)幾個(gè) aha moment。那個(gè)時(shí)候就可以從模型到完整產(chǎn)品了。
虎嗅:那現(xiàn)在出現(xiàn)了幾次aha moment?
梅濤:視頻生成領(lǐng)域中的幾個(gè)要素:穩(wěn)定性、可控性和敘事性。這三個(gè)難點(diǎn)解決后才會(huì)出現(xiàn),未來(lái)慢慢會(huì)出現(xiàn)的。
虎嗅:那在數(shù)據(jù)方面你們會(huì)考慮和具身智能公司合作嗎?
梅濤:其實(shí)我們正在和機(jī)器人公司做一些合作。因?yàn)槲覀儽緛?lái)就是從視頻到世界模型之間中間缺了一步,就是具身智能的數(shù)據(jù)。但具體合作方式我們還在談。
本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4236395.html?f=wyxwapp
熱門(mén)跟貼