打開網(wǎng)易新聞 查看精彩圖片

出品 | 網(wǎng)易科技態(tài)度AGI欄目

對話 | 丁廣勝、楊霞清

作者 | 袁寧

在AI的牌桌上,大廠們比拼算力與生態(tài),小廠們比拼輕盈和速度,唯有“中廠”——夾在資源劣勢和轉(zhuǎn)身遲緩之間,處境尷尬。

昆侖萬維將自身在AI浪潮中的位置看得更為清晰:不是守成者,而是挑戰(zhàn)者;不是已經(jīng)上船的人,而是正要搶票的那批人。

要么轉(zhuǎn)得快,要么死得慢。昆侖萬維選了前者。

這家成立于2008年,上市在2015年,靠游戲起家的公司,17年里先后跨過游戲、瀏覽器、社交、搜索、AIGC,業(yè)務覆蓋全球100多個國家和地區(qū),全球月活躍用戶接近4億,踩在每個產(chǎn)業(yè)風口,在巨頭腳下守住自己的地盤,靈活地活了下來。

2023年,昆侖萬維All in AI,發(fā)布自研大模型“天工1.0”,2024年接連推出AI音樂生成工具Mureka和AI短劇平臺SkyReels,主動走上了一條確定性更高的路。目前其AI業(yè)務涉及AI大模型、AI搜索、AI游戲、AI音樂、AI 社交、AI短劇。2025年第一季度,營業(yè)收入17.6億元,同比增長46%,海外收入占比達94%。

昆侖萬維董事長兼CEO方漢用一句話向《網(wǎng)易科技態(tài)度AGI》詮釋了他們的選擇:“我們還是更愿意擁抱變化,因為你不擁抱變化,就是等死?!?/b>

而更具體的方向選擇,方漢則向《網(wǎng)易科技態(tài)度AGI》算了一筆賬:中國一年目前約產(chǎn)1萬部短劇,平均每部制作成本高達100萬元,意味著年產(chǎn)值規(guī)模為100億人民幣。但在AI加持下,制作成本有望降至“每部1萬元”以下,三年內(nèi)年產(chǎn)量提升至百萬部,“成本仍是100億,但體量擴大100倍”。

音樂也是同理。在過去影視或游戲中,音樂預算大多約占5%。而現(xiàn)在,定制音樂可以低到幾毛錢一個token,不僅能大規(guī)模應用到影視游戲,還可進入智能座艙、個性化播客等更多新場景,滿足長尾需求。“制作門檻的降低,意味著賽道會以幾十倍、幾百倍的速度膨脹?!?/font>

在方漢眼里,“中廠”不是劣勢。經(jīng)歷互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、AI三波浪潮后,他把行業(yè)格局變化,類比于一場“搶椅子”的游戲——在PC互聯(lián)網(wǎng)時代,王座空空如也;到了移動互聯(lián)網(wǎng)時代,留下的椅子已所剩不多。

而在AI時代,真正的“王位”則可能只有一個,但“下面的位置”則機會四散?!皩χ袕S來說,這反而是一個更好的時代。”方漢說道。

01十萬變?nèi)珹I正在改寫內(nèi)容行業(yè)的成本線

“內(nèi)容行業(yè)的創(chuàng)作門檻,正在被AI抹平?!狈綕h告訴《網(wǎng)易科技態(tài)度AGI》,在AI內(nèi)容浪潮全面鋪展的當下,昆侖萬維正在“音樂”和“短劇”兩條賽道上,展開AIGC領域的產(chǎn)業(yè)級押注。

盡管音樂和短劇分別代表著兩個看似迥異的場景,但從底層技術演進邏輯到落地市場的選擇標準,卻可以看出昆侖萬維的打法異常一致:

先在成本敏感、質(zhì)量容忍度高的應用場景落地,不追求顛覆內(nèi)容分發(fā)體系,而是要通過底層技術降低創(chuàng)作成本,讓“創(chuàng)作權”變得更加普惠。

音樂這條線,昆侖萬維著力于推理優(yōu)化。今年3月26日,昆侖萬維正式發(fā)布全球首款音樂推理模型Mureka O1。

區(qū)別于傳統(tǒng)“一次性生成完再選”的方式,昆侖萬維研發(fā)的新模型會在推理過程中自我評估并“撤回不滿意的結果”,這種類似OpenAI O1、DeepSeek R1在文本上的策略被遷移到了旋律生成上,帶來的是“最終生成音樂的效果有巨大幅度的提高”。

昆侖萬維AI音樂生成工具Mureka使用界面,來源:網(wǎng)站截圖
打開網(wǎng)易新聞 查看精彩圖片
昆侖萬維AI音樂生成工具Mureka使用界面,來源:網(wǎng)站截圖

而在技術路徑上,他們從符號化生成、到Diffusion、再到Diffusion-in-Transformer(DIT),如今已進入“DIT+COT”階段,不斷進化的架構正在向“低成本但專業(yè)可用”的生產(chǎn)能力逼近。

這些優(yōu)化不僅提升了音樂生成的上限,也極大拉低了音樂制作的邊際成本。方漢告訴《網(wǎng)易科技態(tài)度AGI》,過去游戲行業(yè)定制一首音樂常常需投入數(shù)萬至百萬,如今使用昆侖萬維的AI工具,生成一首商用級別的BGM每token只需幾毛錢。相較以往中小廠商花重金外包的水準,AI生成版本已具備相當替代性。

昆侖萬維AI音樂生成工具Mureka定價,來源:網(wǎng)站截圖
打開網(wǎng)易新聞 查看精彩圖片
昆侖萬維AI音樂生成工具Mureka定價,來源:網(wǎng)站截圖

更重要的是,低成本解鎖了音樂的新應用場景:汽車企業(yè)為每輛新能源車定制“開門聲”,短視頻內(nèi)容創(chuàng)作者為每條視頻快速匹配旋律,甚至素人K歌用戶用AI幫自己創(chuàng)作“第一首原創(chuàng)歌”。

方漢表示,昆侖萬維的目標并不在于打破音樂分發(fā)的渠道壟斷——那仍掌握在網(wǎng)易云、QQ音樂等平臺手中——而是在于把音樂“生產(chǎn)力”推向更廣泛的底層群體。“只要你降低了制作門檻和成本,這個行業(yè)的規(guī)模就會膨脹幾十倍、幾百倍?!?/p>

Mureka自上線以來,在海內(nèi)外獲得了非常好的市場反響。根據(jù)第三方數(shù)據(jù)顯示,Mureka 2025年3月全球訪問量達333萬,環(huán)比增長86.5%,增速位列全球AI音樂品類第一。截止2025年3月底,AI音樂年化流水收入ARR達到約1,200萬美金(月流水收入約100萬美金)。

02 AI內(nèi)容生成不是替代創(chuàng)作者,而是放大創(chuàng)作供給

而在短劇賽道,昆侖萬維從一開始就盯準了視頻生成的第一落地場景?!耙徊慷虅∪斯づ囊话偃f到兩百萬,我們生成劇的成本幾乎可以忽略?!?/p>

方漢認為,視頻生成技術落地的最大障礙在于長度和質(zhì)量,短劇剛好成為最佳切口:一方面內(nèi)容時長短、觀眾容忍度高,另一方面制作流程標準化程度高,更適合工程化接入。

昆侖萬維在AI短劇上動作迅速。2024年8月,推出全球首個集成視頻大模型與3D大模型的AI短劇創(chuàng)作平臺SkyReels,更以低門檻、更高效率賦能短視頻內(nèi)容創(chuàng)作;半年后,開源了中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1和首個SOTA(當前最佳水平)級別的表情動作可控算法SkyReels-A1。開源兩周,SkyReels-V1在Hugging Face的下載量已接近3萬次,在Github收獲逾千星的點贊,成功撬動了短視頻領域的需求。

昆侖萬維走的是“重技術+重工程”的路線。從數(shù)據(jù)源起步,方漢向《網(wǎng)易科技態(tài)度AGI》透露“我們不拍素人,我們拍的是北電、中戲的學生”,這強調(diào)的是專業(yè)表演動作的微表情和身體語言,這套“演員數(shù)據(jù)”的積累成為生成模型的獨有護城河。

在算法上,他們將視頻生成與3D物理引擎深度融合,“我們每生成一個視頻,都會先構造一個3D世界來檢驗物理合理性。雖然它很丑,不是給用戶看的,但它能告訴你‘這個球該往下掉’,‘這輛車該往上炸’。”

不久前,4月21日,SkyReels再度發(fā)布并開源V2版本——這是全球首個使用擴散強迫(Diffusion-forcing)框架的無限時長電影生成模型,SkyReels-V2的推出標志著視頻生成技術邁入了一個新的階段,AI生成無限時長、影視大片級別的高質(zhì)量視頻成為可能。

昆侖萬維AI短劇工具SkyReels使用界面,來源:網(wǎng)站截圖
打開網(wǎng)易新聞 查看精彩圖片
昆侖萬維AI短劇工具SkyReels使用界面,來源:網(wǎng)站截圖

方漢告訴《網(wǎng)易科技態(tài)度AGI》,整個短劇生成流程已高度工業(yè)化。小說轉(zhuǎn)劇本、劇本轉(zhuǎn)分鏡、分鏡轉(zhuǎn)視頻、鏡頭腳本生成,昆侖萬維將這條生產(chǎn)鏈條打通,并訓練專用模型來替代GPT-4等通用API的調(diào)用。

“我們是自己訓練的專門模型,只干這一件事,比你接個通用大模型要好得多?!弊罱K形成的是一整套可落地的生產(chǎn)工具鏈,不只是創(chuàng)作工具,而是一整條內(nèi)容工廠流水線。

方漢認為,AI內(nèi)容生成不是替代創(chuàng)作者,而是放大創(chuàng)作供給。不論音樂還是短劇,昆侖萬維想做的都是“讓創(chuàng)作像拍短視頻一樣簡單”。“以前一個縣城只有幾家拍攝店,現(xiàn)在有了手機人人能拍。和這個邏輯一樣,我們做的事情一樣,就是把內(nèi)容制作門檻打下去?!?/p>

最終,這條路徑通向的,是內(nèi)容產(chǎn)業(yè)結構的徹底改寫:“現(xiàn)在拍電影的看不起拍電視劇的,電視劇看不起網(wǎng)劇,網(wǎng)劇看不起短劇——但你會發(fā)現(xiàn),短劇的量是最大的,創(chuàng)作者也是最多的。這個行業(yè)一定會重塑,只是現(xiàn)在沒人知道它會重生成什么樣。”

“視頻的核心還是故事,未來只要會講故事,人人都能借助AI技術當導演、表達自己”。方漢依從多年的游戲、移動互聯(lián)網(wǎng)行業(yè)經(jīng)驗作出了斷言。

03興奮多于焦慮,中廠能吃大廠吃不了的苦

“我們是沒吃到餅的人,對我們來說,一定是興奮居多?!狈綕h直言不諱。他將中廠在AI浪潮中的位置看得極為清晰:不是守成者,而是挑戰(zhàn)者;不是已經(jīng)上船的人,而是正要搶票的那批人。

“要說焦慮,那是大廠才會焦慮。他們擔心自己拿不到船票,被新玩家頂下去。中廠和小廠沒啥可焦慮的——因為大家都很窮。”方漢笑言。

“我經(jīng)歷了互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和AI三波浪潮,感覺是,留給后來者的‘王位’越來越少?!?/font>他舉例說,互聯(lián)網(wǎng)時代機會最多,因為“傳統(tǒng)行業(yè)看不懂新東西”;移動互聯(lián)網(wǎng)時代,中國能跑出來的,也就字節(jié)、滴滴、美團那么幾家——大廠已經(jīng)在場。而到AI這一波,“你會發(fā)現(xiàn)所有移動互聯(lián)網(wǎng)時代的巨頭全都進來了”,留給新王者的位置,可能更少。但他話鋒一轉(zhuǎn):

“沒關系,底下的位置多了去了。王位少了,但崗位多了,這是所有沒賺到錢的人、沒吃到餅的人,最好的機會?!?/font>

方漢認為,中廠最大的機會來自聚焦和穿透。“你只要在一個賽道做到垂類最強,大廠也打不過你?!痹谒磥恚髲S雖然體量大,但每個賽道分攤下去,真正具備“碾壓級”能力的并不多。

而相比之下,中廠只要在垂直領域做到極致,就有機會打穿。他總結說:“中廠不是啥都做,而是把一件事做到極致,后面的護城河就有了?!?/p>

“你別看大廠體量大,但你真讓他們?nèi)ハ鲁潦袌鲎隹嗷罾刍?,他們吃不了苦?!?/font>而這,恰恰是中廠的機會窗口。

對于外界質(zhì)疑昆侖萬維是否“資源足夠、能力足夠”做基礎模型,方漢的回答很直接:“其實還好?!?/p>

他的核心觀點是:“基礎模型這事兒不是拼算法工程師的‘數(shù)量’,是拼‘素質(zhì)’。”昆侖萬維之所以能打音樂模型、視頻模型,是因為“我們有基礎的算力,有自己訓練大模型的工程能力”。但同時,相對于小型初創(chuàng)企業(yè)來說,“你沒有算力,只能租卡,根本起不來?!?/p>

方漢強調(diào),現(xiàn)在是“技術驅(qū)動產(chǎn)品”的時代,而不是“產(chǎn)品驅(qū)動技術”。如果你沒有基礎模型能力,“你前端再花哨,也無法提供用戶真正想要的體驗?!?/p>

對于昆侖萬維來說,AI不是一場熱鬧的流量戰(zhàn),而是一場關于“技術極限”與“工程落地”雙重突破的持久戰(zhàn)。

“我們?nèi)陜?nèi)要解決的主要問題其實很清晰?!狈綕h一口氣列出三點:一是模型能力,要能向一次化逼近;二是推理成本,要不斷往下打;三是工程完善度,把好模型包成好產(chǎn)品。

他沒有回避其中的艱難:“最難的肯定是模型能力,其次是推理成本,最后是工程完善度。但這三者缺一不可,缺了任何一個,結果都出不來?!?/p>

據(jù)昆侖萬維最新財報披露,其2023年通過增資方式控股AI算力芯片企業(yè)——北京艾捷科芯科技有限公司整體研發(fā)進度已經(jīng)過半,并開始向?qū)崿F(xiàn)量產(chǎn)邁進。在“算力基礎設施—大模型算法—AI應用”全產(chǎn)業(yè)鏈布局層面,昆侖萬維比我們想象得要布局得可能更深遠。

在他看來,用戶真正關心的產(chǎn)品體驗,其實都落在這三條路徑的交匯點上。“你模型再好,成本再低,如果軟件工程跟不上,用戶一樣用不起來?!彼f,“最后拼的,還是工程團隊能不能把這個東西做得順手、用得舒服、可復用。”

這不是“看誰吹得響”,而是“看誰磨得深”。方漢表示,中廠不靠熱鬧贏,也不靠背景贏,只靠一件事:在被忽視的戰(zhàn)場上,活得久、磨得深。