2024年2月,Sora的橫空出世,讓許多大模型公司的春節(jié)都沒能過好。

“春晚還在重播,我們就在緊急拉群討論”,一家AI頭部公司員工對「市界」急切地說??吹絊ora絲滑的體驗,連賣課博主都蜂擁而動,趕著上線教程,大賺一把。

誰能最快時間“復(fù)制”出國內(nèi)版的Sora,更多人將目光放在了阿里、百度、“大模型五虎”身上。但無人想到,拔得頭籌的會是技術(shù)表現(xiàn)相對“佛系”的快手。

6月7日,快手突然上線了文生視頻模型“可靈”(Kling),并可支持長達2分鐘的視頻生成。此外,與Sora至今仍在“期貨”階段相比,可靈一經(jīng)公布便開放了測試,生成效果亦可圈可點。

“可靈是最近圈內(nèi),被討論最多的對象”,一位風(fēng)投行業(yè)人士對「市界」說。據(jù)官方數(shù)據(jù)顯示:可靈上線一個月有超50萬人申請,已開放給超30萬用戶使用,生成了超700萬條短視頻。

可靈的意外火爆,不免讓字節(jié)有些尷尬。今年5月,字節(jié)也開放了文生視頻模型“即夢”測試,但效果在目前火爆的文生視頻賽道中,尚不具明顯優(yōu)勢。

突然被曾經(jīng)“忽視”的對手甩開身位,字節(jié)需要埋頭追趕。據(jù)鈦媒體報道,近期,字節(jié)跳動將AI大模型設(shè)為集團“P0最高級別”的方向。抖音、剪映等多個團隊也在抓緊研發(fā)AI視頻模型應(yīng)用,預(yù)計將在近期公布。

1、做可靈,快、糙、猛

多位開發(fā)者對「市界」表示,可靈的上線與亮眼表現(xiàn),在行業(yè)內(nèi)也算是個意外。

近日,「市界」以一段“黑貓”為關(guān)鍵詞,在可靈、即夢,以及智譜AI剛剛上線的“清影”中分別輸入了相同的提示:“下雨天的城市街道上空無一人,一只可愛的黑貓奔跑而過。它的眼珠是綠色,脖子上帶有黃色的項圈和鈴鐺,全身長著黑亮的長毛。視頻用攝像機的視角拍攝,地面的積水反射出黑貓的身影?!?/p>

在生成的三段視頻里,可靈版雖然未能實現(xiàn)快速奔跑的效果,但視頻大致符合客觀規(guī)律。

與之對比,“即夢”版地面沒有積水,黑貓也沒有向前走動?!扒逵啊卑骐m有積水,黑貓行走時,步態(tài)古怪,尾巴也出現(xiàn)了丟幀。

視頻依次為可靈、即夢、清影生成作品
打開網(wǎng)易新聞 查看更多視頻
視頻依次為可靈、即夢、清影生成作品

▲(視頻依次為可靈、即夢、清影生成作品)

據(jù)“硅星人”報道,可靈是快手花了3個月的時間打造的;團隊規(guī)模很小,僅有20余人,牽頭人是現(xiàn)快手視覺生成與互動中心負(fù)責(zé)人萬鵬飛,其大部分的研究方向為圖像/視頻信號處理、計算攝影和計算機視覺、減少Loss函數(shù)、視覺生成等。

可靈的前身,來自快手在2023年10月重啟的一個不起眼的項目“噗嘰”,這是一款將靜態(tài)圖片通過AI生成2s Gif表情包的工具軟件。今年3月初,快手內(nèi)部開了一個小會,萬鵬飛的想法得到了快手高級副總裁蓋坤(于越)的肯定,迅速確定了將噗嘰作為預(yù)調(diào)研的產(chǎn)品。

據(jù)“硅星人”了解,“做可靈的時候,執(zhí)行層面有個共識,就是快、糙、猛?!?/p>

可靈項目開始不到一個月,就獲得了快手創(chuàng)始人程一笑的支持,將其視為公司戰(zhàn)略級項目。蓋坤也常說:公司的卡都給你們用,公司全力支持。

數(shù)字人賽道創(chuàng)業(yè)者柯燃對「市界」分析道:“可靈的成功,很大程度上要歸功于快手積累的視頻數(shù)據(jù)素材。放眼國內(nèi),這方面可以與之一戰(zhàn)的也只有抖音?!?/p>

可靈風(fēng)光的同時,字節(jié)顯得有些落寞。

雖然“即夢”5月9日便官宣上線;6月17日,即夢也作為首席AI技術(shù)支持方,在AIGC短劇集《三星堆:未來啟示錄》中亮相。但無論是在C端的表現(xiàn),或是相較于快手7月13日上線的AIGC短劇《山海奇鏡》,即夢的聲量均不甚響亮。

7月17日,市場曾傳出消息稱,字節(jié)將公布類Sora的文生視頻技術(shù)進展。外界也將其解讀為,字節(jié)要奮起直追,與可靈正面迎戰(zhàn)了。

但字節(jié)方面隨后向「市界」表示,該消息并不準(zhǔn)確。7月17日當(dāng)日,「市界」注意到,活動更類似一場技術(shù)分享會。會議主要由豆包大模型視覺基礎(chǔ)研究團隊負(fù)責(zé)人馮佳時主持,并由字節(jié)研究科學(xué)家、機構(gòu)學(xué)者等,做了整場的英語技術(shù)分享。

看起來,字節(jié)的“大招”或許還需要等些時日。

2、字節(jié)還沒回過神

那么,在最近如火如荼的文生視頻賽道里,字節(jié)為何錯過盛宴;最近字節(jié)又在忙些什么?

某種程度上,或許因為比起快手押注“可靈”,可以“一力降十會”。字節(jié)的大模型布局要更為復(fù)雜——而今年上半年,字節(jié)更重要的對手放在了騰訊與阿里。

面對大模型,字節(jié)的步調(diào)已不可謂不“激進”。畢竟2個多月前,率先在行業(yè)內(nèi)發(fā)起大模型價格戰(zhàn)的,正是字節(jié)。

5月15日,在字節(jié)跳動“FORCE原動力大會”上,字節(jié)推出了基于其自研豆包大模型的API服務(wù)。同時,火山引擎總裁譚待一步到位,亮出了“豆包”的最新價格:0.0008元/千Tokens,宣布這是低于行業(yè)99.3%的“地板價”。

彼時,字節(jié)的“發(fā)難”曾先聲奪人。據(jù)「市界」從多方了解,頭部玩家對字節(jié)的出擊缺少準(zhǔn)備;各方雖感無奈,也只能被動追隨。

接下來幾天,阿里云、百度文心大模型、騰訊云先后宣布,將旗下大模型推理輸入token以及API大幅降價。在此影響下,如今頭部大模型的C端調(diào)用,已幾乎悉數(shù)免費,行業(yè)也開始朝著下一個生態(tài)量級“卷”去。

據(jù)一家法律AI應(yīng)用企業(yè)創(chuàng)始人向「市界」透露,API服務(wù)開放后幾乎沒有時間差,火山引擎的銷售人員就開始積極接觸客戶、推介產(chǎn)品。這也側(cè)面印證了,市場流傳的字節(jié)已將大模型標(biāo)記為最高級別戰(zhàn)略的猜測。

▲(譚待于2024“FOECE大會”。圖源/火山引擎)

而最近,字節(jié)的“當(dāng)家產(chǎn)品”豆包,增長得較為明顯。

據(jù)Questmobile數(shù)據(jù)顯示,截至2024年6月,在國內(nèi)AIGC App中,豆包、天工、Kimi智能助手、貓箱增長亮眼——其中豆包流量排名第一。

▲(圖源/QuestMobile)

與快手相比,字節(jié)如今更在意的,或許是從基礎(chǔ)大模型、到AI應(yīng)用層的全生態(tài)競爭。此外,考慮到2021年才正式做云的火山引擎,在巨頭云廠商里是“最年輕”的一朵。三年多來,火山云也一直被視為云市場的挑戰(zhàn)者角色。字節(jié)如何將基礎(chǔ)大模型、應(yīng)用層、云市場協(xié)同起來,更是一項綜合命題。

近日,據(jù)“光子星球”報道,字節(jié)“扣子”平臺的大量使用者,正尋求如何將創(chuàng)建的智能體、bot接入微信公號或小程序,討論十分活躍。

去年12月,字節(jié)在海外推出了AI應(yīng)用開發(fā)平臺“coze”。今年2月,國內(nèi)版“扣子”上線。大量抖音體系商家,也希望從中迅速掘一桶金。

考慮到騰訊在今年5月才姍姍來遲,發(fā)布了AI智能體創(chuàng)作與分發(fā)平臺“騰訊元器”。彼時,扣子的訪問量已達到了233萬次。而截至目前,騰訊元器尚未打通小程序、公眾號、客服訂閱號微信系列生態(tài)。

畢竟當(dāng)下,AI發(fā)展仍在早期階段。字節(jié)與騰訊一樣,都還需要花費大量時間教育用戶。爭奪AI時代的分發(fā)權(quán),先聲奪人,或許是字節(jié)為了瞄準(zhǔn)騰訊要做的更大功課。

3、后發(fā)制人,尚有時間

站在行業(yè)層面,在當(dāng)今互聯(lián)網(wǎng)中,最不缺內(nèi)容流量、電商流量,以及資金彈藥的字節(jié),即便短期在文生視頻中“落后”一步,從長期來看,仍具備后發(fā)制人的潛力。

用積極的市場策略追平落后身位、大力出奇跡,同樣也是字節(jié)的拿手好戲。

最近,瞄準(zhǔn)阿里,字節(jié)也在做整合大模型的工作。在剛剛過去的6月26日釘釘生態(tài)大會上,總裁葉軍宣布除了阿里自家的通義外,還將把其余6家的第三方大模型裝入釘釘中。其中包含MiniMax、月之暗面、智譜AI、獵戶星空、零一萬物和百川智能,涵蓋了國內(nèi)幾乎所有知名的大模型創(chuàng)企,要“構(gòu)建中國最開放的AI生態(tài)”不言自明。

而與釘釘玩法類似,字節(jié)旗下扣子平臺除了支持自家的“豆包”外,還接入了通義千問、月之暗面、MiniMax等各大外部模型。6月14日,扣子還上線了“模型廣場”功能,支持用戶選擇匿名的兩個模型,根據(jù)生成內(nèi)容的表現(xiàn)來為其打分PK。

此外,字節(jié)近期被曝光,對“AI+硬件”的探索正在加快,并不惜通過收購延攬人才。

據(jù)“Tech星球”報道,字節(jié)旗下的PICO從去年下半年開始在研發(fā)多個穿戴設(shè)備,包括耳機和音響,這些設(shè)備也將搭載AI。字節(jié)豆包團隊也有基于大模型軟硬件結(jié)合的探索,大模型軟硬件結(jié)合已經(jīng)逐步在學(xué)習(xí)機、機器狗、機器人等硬件設(shè)備上有所應(yīng)用。

另據(jù)36氪報道,字節(jié)AI硬件“D線”負(fù)責(zé)人為李浩乾。后者為字節(jié)在今年3月份收購的OWS(Open Wearable Stereo,開放式可穿戴立體聲耳機)耳機品牌Oladance的創(chuàng)始人。另一條AI硬件條線“O線”的負(fù)責(zé)人也是字節(jié)曾收購公司的創(chuàng)始人,其向字節(jié)跳動技術(shù)副總裁洪定坤匯報。

而在文生視頻方向,面對賽道剛剛的火爆,包括字節(jié)在內(nèi)的追趕者們,大家都還有時間。

近日,一位開發(fā)者告訴「市界」:“現(xiàn)在就是用可靈構(gòu)構(gòu)圖、減負(fù)工作流程,還不到完全用它創(chuàng)作的程度,所以也還沒有什么依賴性?!?/p>

而在另一位開發(fā)者、短視頻AIGC博主的眼中,可靈還有不少優(yōu)化空間:“靠可靈文生視頻不能保證虛擬人IP的一貫性。我一般都是用可靈圖生視頻的功能,相當(dāng)于給可靈‘墊’一張圖,讓他在這個基礎(chǔ)上生成不同視角動態(tài)視頻,再拼接到一起,模擬運鏡的效果,實際上還是人操作的比重更大。”

國內(nèi)某AI模擬交友產(chǎn)品的研發(fā)成員則講道:“現(xiàn)在的大模型應(yīng)用市場,大家都在摸著石頭過河。怎樣商業(yè)化是一個太遙遠(yuǎn)、太模糊的問題。但可以肯定的是,越多人用起來、玩起來,越能保證產(chǎn)品的優(yōu)化迭代。”

(柯燃為化名)

作者 | 董溫淑

編輯 | 李 原

運營 | 劉 珊