打開(kāi)網(wǎng)易新聞 查看精彩圖片

出品 | 網(wǎng)易科技態(tài)度AGI欄目

對(duì)話 | 丁廣勝、楊霞清

作者 | 袁寧

在AI的牌桌上,大廠們比拼算力與生態(tài),小廠們比拼輕盈和速度,唯有“中廠”——夾在資源劣勢(shì)和轉(zhuǎn)身遲緩之間,處境尷尬。

昆侖萬(wàn)維將自身在AI浪潮中的位置看得更為清晰:不是守成者,而是挑戰(zhàn)者;不是已經(jīng)上船的人,而是正要搶票的那批人。

要么轉(zhuǎn)得快,要么死得慢。昆侖萬(wàn)維選了前者。

這家成立于2008年,上市在2015年,靠游戲起家的公司,17年里先后跨過(guò)游戲、瀏覽器、社交、搜索、AIGC,業(yè)務(wù)覆蓋全球100多個(gè)國(guó)家和地區(qū),全球月活躍用戶接近4億,踩在每個(gè)產(chǎn)業(yè)風(fēng)口,在巨頭腳下守住自己的地盤(pán),靈活地活了下來(lái)。

2023年,昆侖萬(wàn)維All in AI,發(fā)布自研大模型“天工1.0”,2024年接連推出AI音樂(lè)生成工具M(jìn)ureka和AI短劇平臺(tái)SkyReels,主動(dòng)走上了一條確定性更高的路。目前其AI業(yè)務(wù)涉及AI大模型、AI搜索、AI游戲、AI音樂(lè)、AI 社交、AI短劇。2025年第一季度,營(yíng)業(yè)收入17.6億元,同比增長(zhǎng)46%,海外收入占比達(dá)94%。

昆侖萬(wàn)維董事長(zhǎng)兼CEO方漢用一句話向《網(wǎng)易科技態(tài)度AGI》詮釋了他們的選擇:“我們還是更愿意擁抱變化,因?yàn)槟悴粨肀ё兓?,就是等死?!?/b>

而更具體的方向選擇,方漢則向《網(wǎng)易科技態(tài)度AGI》算了一筆賬:中國(guó)一年目前約產(chǎn)1萬(wàn)部短劇,平均每部制作成本高達(dá)100萬(wàn)元,意味著年產(chǎn)值規(guī)模為100億人民幣。但在AI加持下,制作成本有望降至“每部1萬(wàn)元”以下,三年內(nèi)年產(chǎn)量提升至百萬(wàn)部,“成本仍是100億,但體量擴(kuò)大100倍”。

音樂(lè)也是同理。在過(guò)去影視或游戲中,音樂(lè)預(yù)算大多約占5%。而現(xiàn)在,定制音樂(lè)可以低到幾毛錢一個(gè)token,不僅能大規(guī)模應(yīng)用到影視游戲,還可進(jìn)入智能座艙、個(gè)性化播客等更多新場(chǎng)景,滿足長(zhǎng)尾需求。“制作門檻的降低,意味著賽道會(huì)以幾十倍、幾百倍的速度膨脹?!?/font>

在方漢眼里,“中廠”不是劣勢(shì)。經(jīng)歷互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、AI三波浪潮后,他把行業(yè)格局變化,類比于一場(chǎng)“搶椅子”的游戲——在PC互聯(lián)網(wǎng)時(shí)代,王座空空如也;到了移動(dòng)互聯(lián)網(wǎng)時(shí)代,留下的椅子已所剩不多。

而在AI時(shí)代,真正的“王位”則可能只有一個(gè),但“下面的位置”則機(jī)會(huì)四散?!皩?duì)中廠來(lái)說(shuō),這反而是一個(gè)更好的時(shí)代。”方漢說(shuō)道。

01十萬(wàn)變?nèi)珹I正在改寫(xiě)內(nèi)容行業(yè)的成本線

“內(nèi)容行業(yè)的創(chuàng)作門檻,正在被AI抹平?!狈綕h告訴《網(wǎng)易科技態(tài)度AGI》,在AI內(nèi)容浪潮全面鋪展的當(dāng)下,昆侖萬(wàn)維正在“音樂(lè)”和“短劇”兩條賽道上,展開(kāi)AIGC領(lǐng)域的產(chǎn)業(yè)級(jí)押注。

盡管音樂(lè)和短劇分別代表著兩個(gè)看似迥異的場(chǎng)景,但從底層技術(shù)演進(jìn)邏輯到落地市場(chǎng)的選擇標(biāo)準(zhǔn),卻可以看出昆侖萬(wàn)維的打法異常一致:

先在成本敏感、質(zhì)量容忍度高的應(yīng)用場(chǎng)景落地,不追求顛覆內(nèi)容分發(fā)體系,而是要通過(guò)底層技術(shù)降低創(chuàng)作成本,讓“創(chuàng)作權(quán)”變得更加普惠。

音樂(lè)這條線,昆侖萬(wàn)維著力于推理優(yōu)化。今年3月26日,昆侖萬(wàn)維正式發(fā)布全球首款音樂(lè)推理模型Mureka O1。

區(qū)別于傳統(tǒng)“一次性生成完再選”的方式,昆侖萬(wàn)維研發(fā)的新模型會(huì)在推理過(guò)程中自我評(píng)估并“撤回不滿意的結(jié)果”,這種類似OpenAI O1、DeepSeek R1在文本上的策略被遷移到了旋律生成上,帶來(lái)的是“最終生成音樂(lè)的效果有巨大幅度的提高”。

昆侖萬(wàn)維AI音樂(lè)生成工具M(jìn)ureka使用界面,來(lái)源:網(wǎng)站截圖
打開(kāi)網(wǎng)易新聞 查看精彩圖片
昆侖萬(wàn)維AI音樂(lè)生成工具M(jìn)ureka使用界面,來(lái)源:網(wǎng)站截圖

而在技術(shù)路徑上,他們從符號(hào)化生成、到Diffusion、再到Diffusion-in-Transformer(DIT),如今已進(jìn)入“DIT+COT”階段,不斷進(jìn)化的架構(gòu)正在向“低成本但專業(yè)可用”的生產(chǎn)能力逼近。

這些優(yōu)化不僅提升了音樂(lè)生成的上限,也極大拉低了音樂(lè)制作的邊際成本。方漢告訴《網(wǎng)易科技態(tài)度AGI》,過(guò)去游戲行業(yè)定制一首音樂(lè)常常需投入數(shù)萬(wàn)至百萬(wàn),如今使用昆侖萬(wàn)維的AI工具,生成一首商用級(jí)別的BGM每token只需幾毛錢。相較以往中小廠商花重金外包的水準(zhǔn),AI生成版本已具備相當(dāng)替代性。

昆侖萬(wàn)維AI音樂(lè)生成工具M(jìn)ureka定價(jià),來(lái)源:網(wǎng)站截圖
打開(kāi)網(wǎng)易新聞 查看精彩圖片
昆侖萬(wàn)維AI音樂(lè)生成工具M(jìn)ureka定價(jià),來(lái)源:網(wǎng)站截圖

更重要的是,低成本解鎖了音樂(lè)的新應(yīng)用場(chǎng)景:汽車企業(yè)為每輛新能源車定制“開(kāi)門聲”,短視頻內(nèi)容創(chuàng)作者為每條視頻快速匹配旋律,甚至素人K歌用戶用AI幫自己創(chuàng)作“第一首原創(chuàng)歌”。

方漢表示,昆侖萬(wàn)維的目標(biāo)并不在于打破音樂(lè)分發(fā)的渠道壟斷——那仍掌握在網(wǎng)易云、QQ音樂(lè)等平臺(tái)手中——而是在于把音樂(lè)“生產(chǎn)力”推向更廣泛的底層群體。“只要你降低了制作門檻和成本,這個(gè)行業(yè)的規(guī)模就會(huì)膨脹幾十倍、幾百倍?!?/p>

Mureka自上線以來(lái),在海內(nèi)外獲得了非常好的市場(chǎng)反響。根據(jù)第三方數(shù)據(jù)顯示,Mureka 2025年3月全球訪問(wèn)量達(dá)333萬(wàn),環(huán)比增長(zhǎng)86.5%,增速位列全球AI音樂(lè)品類第一。截止2025年3月底,AI音樂(lè)年化流水收入ARR達(dá)到約1,200萬(wàn)美金(月流水收入約100萬(wàn)美金)。

02 AI內(nèi)容生成不是替代創(chuàng)作者,而是放大創(chuàng)作供給

而在短劇賽道,昆侖萬(wàn)維從一開(kāi)始就盯準(zhǔn)了視頻生成的第一落地場(chǎng)景?!耙徊慷虅∪斯づ囊话偃f(wàn)到兩百萬(wàn),我們生成劇的成本幾乎可以忽略?!?/p>

方漢認(rèn)為,視頻生成技術(shù)落地的最大障礙在于長(zhǎng)度和質(zhì)量,短劇剛好成為最佳切口:一方面內(nèi)容時(shí)長(zhǎng)短、觀眾容忍度高,另一方面制作流程標(biāo)準(zhǔn)化程度高,更適合工程化接入。

昆侖萬(wàn)維在AI短劇上動(dòng)作迅速。2024年8月,推出全球首個(gè)集成視頻大模型與3D大模型的AI短劇創(chuàng)作平臺(tái)SkyReels,更以低門檻、更高效率賦能短視頻內(nèi)容創(chuàng)作;半年后,開(kāi)源了中國(guó)首個(gè)面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1和首個(gè)SOTA(當(dāng)前最佳水平)級(jí)別的表情動(dòng)作可控算法SkyReels-A1。開(kāi)源兩周,SkyReels-V1在Hugging Face的下載量已接近3萬(wàn)次,在Github收獲逾千星的點(diǎn)贊,成功撬動(dòng)了短視頻領(lǐng)域的需求。

昆侖萬(wàn)維走的是“重技術(shù)+重工程”的路線。從數(shù)據(jù)源起步,方漢向《網(wǎng)易科技態(tài)度AGI》透露“我們不拍素人,我們拍的是北電、中戲的學(xué)生”,這強(qiáng)調(diào)的是專業(yè)表演動(dòng)作的微表情和身體語(yǔ)言,這套“演員數(shù)據(jù)”的積累成為生成模型的獨(dú)有護(hù)城河。

在算法上,他們將視頻生成與3D物理引擎深度融合,“我們每生成一個(gè)視頻,都會(huì)先構(gòu)造一個(gè)3D世界來(lái)檢驗(yàn)物理合理性。雖然它很丑,不是給用戶看的,但它能告訴你‘這個(gè)球該往下掉’,‘這輛車該往上炸’?!?/font>

不久前,4月21日,SkyReels再度發(fā)布并開(kāi)源V2版本——這是全球首個(gè)使用擴(kuò)散強(qiáng)迫(Diffusion-forcing)框架的無(wú)限時(shí)長(zhǎng)電影生成模型,SkyReels-V2的推出標(biāo)志著視頻生成技術(shù)邁入了一個(gè)新的階段,AI生成無(wú)限時(shí)長(zhǎng)、影視大片級(jí)別的高質(zhì)量視頻成為可能。

昆侖萬(wàn)維AI短劇工具SkyReels使用界面,來(lái)源:網(wǎng)站截圖
打開(kāi)網(wǎng)易新聞 查看精彩圖片
昆侖萬(wàn)維AI短劇工具SkyReels使用界面,來(lái)源:網(wǎng)站截圖

方漢告訴《網(wǎng)易科技態(tài)度AGI》,整個(gè)短劇生成流程已高度工業(yè)化。小說(shuō)轉(zhuǎn)劇本、劇本轉(zhuǎn)分鏡、分鏡轉(zhuǎn)視頻、鏡頭腳本生成,昆侖萬(wàn)維將這條生產(chǎn)鏈條打通,并訓(xùn)練專用模型來(lái)替代GPT-4等通用API的調(diào)用。

“我們是自己訓(xùn)練的專門模型,只干這一件事,比你接個(gè)通用大模型要好得多?!弊罱K形成的是一整套可落地的生產(chǎn)工具鏈,不只是創(chuàng)作工具,而是一整條內(nèi)容工廠流水線。

方漢認(rèn)為,AI內(nèi)容生成不是替代創(chuàng)作者,而是放大創(chuàng)作供給。不論音樂(lè)還是短劇,昆侖萬(wàn)維想做的都是“讓創(chuàng)作像拍短視頻一樣簡(jiǎn)單”?!耙郧耙粋€(gè)縣城只有幾家拍攝店,現(xiàn)在有了手機(jī)人人能拍。和這個(gè)邏輯一樣,我們做的事情一樣,就是把內(nèi)容制作門檻打下去。”

最終,這條路徑通向的,是內(nèi)容產(chǎn)業(yè)結(jié)構(gòu)的徹底改寫(xiě):“現(xiàn)在拍電影的看不起拍電視劇的,電視劇看不起網(wǎng)劇,網(wǎng)劇看不起短劇——但你會(huì)發(fā)現(xiàn),短劇的量是最大的,創(chuàng)作者也是最多的。這個(gè)行業(yè)一定會(huì)重塑,只是現(xiàn)在沒(méi)人知道它會(huì)重生成什么樣?!?/p>

“視頻的核心還是故事,未來(lái)只要會(huì)講故事,人人都能借助AI技術(shù)當(dāng)導(dǎo)演、表達(dá)自己”。方漢依從多年的游戲、移動(dòng)互聯(lián)網(wǎng)行業(yè)經(jīng)驗(yàn)作出了斷言。

03興奮多于焦慮,中廠能吃大廠吃不了的苦

“我們是沒(méi)吃到餅的人,對(duì)我們來(lái)說(shuō),一定是興奮居多?!狈綕h直言不諱。他將中廠在AI浪潮中的位置看得極為清晰:不是守成者,而是挑戰(zhàn)者;不是已經(jīng)上船的人,而是正要搶票的那批人。

“要說(shuō)焦慮,那是大廠才會(huì)焦慮。他們擔(dān)心自己拿不到船票,被新玩家頂下去。中廠和小廠沒(méi)啥可焦慮的——因?yàn)榇蠹叶己芨F。”方漢笑言。

“我經(jīng)歷了互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和AI三波浪潮,感覺(jué)是,留給后來(lái)者的‘王位’越來(lái)越少。”他舉例說(shuō),互聯(lián)網(wǎng)時(shí)代機(jī)會(huì)最多,因?yàn)椤皞鹘y(tǒng)行業(yè)看不懂新東西”;移動(dòng)互聯(lián)網(wǎng)時(shí)代,中國(guó)能跑出來(lái)的,也就字節(jié)、滴滴、美團(tuán)那么幾家——大廠已經(jīng)在場(chǎng)。而到AI這一波,“你會(huì)發(fā)現(xiàn)所有移動(dòng)互聯(lián)網(wǎng)時(shí)代的巨頭全都進(jìn)來(lái)了”,留給新王者的位置,可能更少。但他話鋒一轉(zhuǎn):

“沒(méi)關(guān)系,底下的位置多了去了。王位少了,但崗位多了,這是所有沒(méi)賺到錢的人、沒(méi)吃到餅的人,最好的機(jī)會(huì)。”

方漢認(rèn)為,中廠最大的機(jī)會(huì)來(lái)自聚焦和穿透。“你只要在一個(gè)賽道做到垂類最強(qiáng),大廠也打不過(guò)你?!痹谒磥?lái),大廠雖然體量大,但每個(gè)賽道分?jǐn)傁氯ィ嬲邆洹澳雺杭?jí)”能力的并不多。

而相比之下,中廠只要在垂直領(lǐng)域做到極致,就有機(jī)會(huì)打穿。他總結(jié)說(shuō):“中廠不是啥都做,而是把一件事做到極致,后面的護(hù)城河就有了?!?/p>

“你別看大廠體量大,但你真讓他們?nèi)ハ鲁潦袌?chǎng)做苦活累活,他們吃不了苦。”而這,恰恰是中廠的機(jī)會(huì)窗口。

對(duì)于外界質(zhì)疑昆侖萬(wàn)維是否“資源足夠、能力足夠”做基礎(chǔ)模型,方漢的回答很直接:“其實(shí)還好。”

他的核心觀點(diǎn)是:“基礎(chǔ)模型這事兒不是拼算法工程師的‘?dāng)?shù)量’,是拼‘素質(zhì)’。”昆侖萬(wàn)維之所以能打音樂(lè)模型、視頻模型,是因?yàn)椤拔覀冇谢A(chǔ)的算力,有自己訓(xùn)練大模型的工程能力”。但同時(shí),相對(duì)于小型初創(chuàng)企業(yè)來(lái)說(shuō),“你沒(méi)有算力,只能租卡,根本起不來(lái)。”

方漢強(qiáng)調(diào),現(xiàn)在是“技術(shù)驅(qū)動(dòng)產(chǎn)品”的時(shí)代,而不是“產(chǎn)品驅(qū)動(dòng)技術(shù)”。如果你沒(méi)有基礎(chǔ)模型能力,“你前端再花哨,也無(wú)法提供用戶真正想要的體驗(yàn)?!?/p>

對(duì)于昆侖萬(wàn)維來(lái)說(shuō),AI不是一場(chǎng)熱鬧的流量戰(zhàn),而是一場(chǎng)關(guān)于“技術(shù)極限”與“工程落地”雙重突破的持久戰(zhàn)。

“我們?nèi)陜?nèi)要解決的主要問(wèn)題其實(shí)很清晰。”方漢一口氣列出三點(diǎn):一是模型能力,要能向一次化逼近;二是推理成本,要不斷往下打;三是工程完善度,把好模型包成好產(chǎn)品。

他沒(méi)有回避其中的艱難:“最難的肯定是模型能力,其次是推理成本,最后是工程完善度。但這三者缺一不可,缺了任何一個(gè),結(jié)果都出不來(lái)。”

據(jù)昆侖萬(wàn)維最新財(cái)報(bào)披露,其2023年通過(guò)增資方式控股AI算力芯片企業(yè)——北京艾捷科芯科技有限公司整體研發(fā)進(jìn)度已經(jīng)過(guò)半,并開(kāi)始向?qū)崿F(xiàn)量產(chǎn)邁進(jìn)。在“算力基礎(chǔ)設(shè)施—大模型算法—AI應(yīng)用”全產(chǎn)業(yè)鏈布局層面,昆侖萬(wàn)維比我們想象得要布局得可能更深遠(yuǎn)。

在他看來(lái),用戶真正關(guān)心的產(chǎn)品體驗(yàn),其實(shí)都落在這三條路徑的交匯點(diǎn)上。“你模型再好,成本再低,如果軟件工程跟不上,用戶一樣用不起來(lái)?!彼f(shuō),“最后拼的,還是工程團(tuán)隊(duì)能不能把這個(gè)東西做得順手、用得舒服、可復(fù)用。”

這不是“看誰(shuí)吹得響”,而是“看誰(shuí)磨得深”。方漢表示,中廠不靠熱鬧贏,也不靠背景贏,只靠一件事:在被忽視的戰(zhàn)場(chǎng)上,活得久、磨得深。