打開網(wǎng)易新聞 查看精彩圖片

可靈的下一步:優(yōu)先保證模型效果、聚焦專業(yè)生產(chǎn)者做滲透。

文丨高洪浩

《晚點 LatePost》獨家了解到,快手在今日成立了可靈 AI 事業(yè)部。該事業(yè)部下設(shè)可靈 AI 產(chǎn)品部、運營部和技術(shù)部,負責可靈、可圖等系列大模型業(yè)務(wù),快手高級副總裁蓋坤擔任可靈 AI 事業(yè)部負責人,繼續(xù)兼任社區(qū)科學線負責人。

與此同時,社區(qū)科學線下成立基礎(chǔ)大模型與應(yīng)用部,負責 LLM 大模型、多模態(tài)理解大模型以及應(yīng)用技術(shù)研發(fā)。

調(diào)整后,可靈 AI 將作為與主站、商業(yè)化、電商、國際化、本地生活并列的一級業(yè)務(wù)部門,向快手董事長兼 CEO 程一笑匯報。這也是近 3 年時間里,快手唯一成立的獨立事業(yè)部。

可靈與可圖分別是快手自研的視頻生成大模型與圖片生成大模型。2025 年 3 月 25 日的快手財報電話會上,快手 CEO 程一笑稱,目前可靈 AI“圖生視頻” 功能的綜合效果處于全球第一。

根據(jù)官方數(shù)據(jù),自商業(yè)化以來至今年 2 月,可靈 AI 累計營業(yè)收入已超過 1 億元。我們了解到,可靈 AI 今年前三個月的營收,已超過 2024 年下半年的總和。

一位快手人士稱,AI 一直是快手的公司級戰(zhàn)略,此次組織升級,意味著可靈 AI 在快手大模型整體戰(zhàn)略中的重要性進一步提升,團隊能更靈活地發(fā)展業(yè)務(wù)、獲取并調(diào)動更多的資源,以保持在視覺大模型領(lǐng)域的競爭優(yōu)勢。

快手不是國內(nèi)第一家將 AI 業(yè)務(wù)升格為一級部門的互聯(lián)網(wǎng)公司。2023 年底,字節(jié)跳動組建了獨立于原有組織架構(gòu)的新部門 Flow 和 Seed,前者做 AI 產(chǎn)品,后者做大模型研發(fā)。

另據(jù)我們了解,就在此次組織架構(gòu)調(diào)整公告發(fā)布之前一周,快手內(nèi)部員工已收到了可靈 AI 的內(nèi)推及 “活水” 通知,招聘的崗位涵蓋研發(fā)、算法工程、產(chǎn)品、運營及商務(wù)合作等多個職位。

一位快手戰(zhàn)略人士告訴我們,內(nèi)部對可靈有很大的期待。在最近的一次內(nèi)部干部會上,蓋坤提到,可靈在發(fā)展路徑選擇上要優(yōu)先保證模型效果,并聚焦 P 端用戶(professional creators),要求可靈能在 AI 視覺生產(chǎn)領(lǐng)域可以做到 “全球領(lǐng)先”。他還多次表達了,希望能用 AI 把《三體》的場景復現(xiàn)出來的想法。

快手 CEO 程一笑此前在財報電話會上也提到,AI 大模型有機會極致降低內(nèi)容創(chuàng)作的門檻和成本,并帶來 AIGC 內(nèi)容生產(chǎn)數(shù)量和質(zhì)量的爆發(fā)式增長,從而形成新的商業(yè)模型。

瞄準一個方向,更堅決的投入

快手是押注視頻模型最堅定的中國互聯(lián)網(wǎng)公司之一。

據(jù)我們了解,快手在 2023 年初啟動 AI 戰(zhàn)略并制定了相應(yīng)目標規(guī)劃。當年 3 月底的內(nèi)部干部會上,程一笑便提及,AI 是個新時代,對快手來說,推薦和視頻生成領(lǐng)域是發(fā)力點?!霸谙乱粋€十年想在風口找到自己的位置,要做長期而正確的事?!?一位在場的快手人士轉(zhuǎn)述他的話。

在 2023 年以來的 9 次干部會上,AI 始終是最高管理層反復強調(diào)的重點話題?!耙恍﹃P(guān)注 AI 如何賦能現(xiàn)有生態(tài),也提出要加快 AI 創(chuàng)新業(yè)務(wù)的發(fā)展節(jié)奏?!?/p>

2023 年下半年,快手成立專項,探索視頻生成技術(shù)。次年 2 月,OpenAI 的 Sora 問世,快手進一步向視頻生成傾斜開發(fā)資源,并很快被定為了公司級戰(zhàn)略。一位可靈人士告訴我們,程一笑經(jīng)常關(guān)注可靈的業(yè)務(wù)發(fā)展情況,還要求公司優(yōu)先保障可靈的 GPU 供給。

當時多數(shù)互聯(lián)網(wǎng)公司的重心都在應(yīng)用前景更明朗的大語言模型和圖片模型上。即便 Sora 讓行業(yè)看到了視頻模型的潛力,“但優(yōu)先級依舊沒提高多少?!?一位字節(jié)跳動大模型研發(fā)人士說。

百度 CEO 李彥宏就曾公開稱,不會投入視頻生成模型,他認為從長期來看,視頻模型無法帶來收益;字節(jié)跳動則把多模態(tài)的優(yōu)先級放在了視覺理解和圖片模型上;在騰訊,文本模型也一度被認為更重要,“因為這是任何產(chǎn)品都能用上且需要的能力?!?一位混元大模型研發(fā)人士說。

2024 年 6 月,可靈大模型上線,這是全球第一個與 Sora 一致采用 DiT 路線,且直接面向普通用戶開放的視頻大模型?!巴耆珱]想到是快手最先做出來?!?上述字節(jié)跳動大模型研發(fā)人士說。

除了較早開始堅決投入,可靈能迅速嶄露頭角也得益于組織優(yōu)勢。

可靈大模型是由快手社區(qū)科學線的團隊開發(fā)的,其中許多成員原本的日常工作就是處理千萬量級的視頻內(nèi)容,包括對視頻的畫質(zhì)和內(nèi)容做分析、標注等,而在做大模型時,“這種能力和工作流程是可以直接復用的?!?一位可靈人士說。比如,團隊只花了很短的時間便完成了訓練數(shù)據(jù)的規(guī)范化處理,并按照需求篩選整合至訓練集中。

相比之下,在不少公司里,研發(fā)大模型的團隊多是新組建的,他們得先花大量時間從零搭建數(shù)據(jù)處理的管線、重新打磨算法和工程效率。一位頭部互聯(lián)網(wǎng)公司視頻模型研發(fā)人員告訴我們,團隊組建好后,僅將每日處理的視頻數(shù)據(jù)量從 1000 萬提升至 2000 萬,就耗費了大半年時間。

根據(jù) AI 基準測試機構(gòu) Artificial Analysis 發(fā)布的全球視頻生成大模型榜單,快手可靈 1.6pro(高品質(zhì)模式)以 1000 分的 Arena ELO 基準測試評分登陸圖生視頻(Image to Video)賽道榜首,Google Veo 2、Pika Art 位居榜單第二、三名。

一位 AI 創(chuàng)業(yè)者稱,在各家公司豪擲大模型資源 “軍備” 的階段,快手選擇了一條更能發(fā)揮出自身稟賦的賽道并專注投入,這是明智的選擇。

長跑才剛剛開始

創(chuàng)立于 2011 年的快手最早是一款 GIF 動圖產(chǎn)品。2013 年轉(zhuǎn)型為短視頻平臺后,快手的日活躍用戶數(shù)在一年時間從萬級上漲到了百萬級。

可靈的出現(xiàn)讓快手看到了,在 AI 時代復刻這個成功路徑的可能性。

2025 年 4 月 15 日,面世不到一年后,快手發(fā)布了可靈 2.0 視頻生成模型及可圖 2.0 圖像生成模型。快手高級副總裁、社區(qū)科學線負責人蓋坤在發(fā)布會上稱,兩款模型在團隊內(nèi)部的多項勝負率評測中,均穩(wěn)居業(yè)內(nèi)第一。比如在文生視頻領(lǐng)域,可靈 2.0 對比谷歌 Veo2 的勝負比為 205%,對比 Sora 的勝負比達 367%。

不過一位快手人士稱,內(nèi)部對于將可靈打造為一個超級入口并不著急,目前最重要的任務(wù)還是將資源投入到研發(fā)上,保持可靈大模型和可靈 AI 在技術(shù)與產(chǎn)品上的領(lǐng)先,“畢竟以市面上各個視頻生成模型的能力來看,它們連數(shù)字媒體市場 20% 的份額都吃不下來。”

各公司對于什么是 AI 時代超級入口也尚無共識。在字節(jié)跳動,由抖音集團原 CEO 張楠帶隊的 AI 創(chuàng)作平臺即夢,其遠期規(guī)劃與快手類似——打造一個 AI 時代的抖音。

一位即夢人士稱,內(nèi)部判斷,至少還要再等 3-5 年才可能找到 AI 視頻平臺真正應(yīng)有的形態(tài)。據(jù)我們了解,如今市面上的一眾視頻生成應(yīng)用,30 日的用戶留存率普遍在 4%-5% 的低水位?!爱a(chǎn)品的使用者仍然局限在有創(chuàng)作需求的人,以及 AI 愛好者們。”

對快手來說,復刻一個 AI 時代的快手,也有很現(xiàn)實的挑戰(zhàn)。一位深入研究 AI 的二級市場人士告訴我們,目前的主流 AI 產(chǎn)品如果服務(wù) 1 億日活用戶,需要約 40 萬張卡的算力,這大約對應(yīng)十個新的算力中心。對多數(shù)公司來說,這是一筆不小的開支。

一位快手人士說,今年 3 月,蓋坤在可靈 2.0 發(fā)布前的公司干部會上強調(diào)了 “保持模型效果持續(xù)領(lǐng)先” 的重要性,同時在營收規(guī)模上,也提出了 2025 年要實現(xiàn) “跨越式增長” 的目標。

在這場長跑式的競爭里,快手要保證可靈的模型能力和 “造血” 能力的始終領(lǐng)先,這并不容易。

目前行業(yè)內(nèi)對視頻模型的技術(shù)路線仍存在爭議。一位字節(jié)跳動 Seed 人士稱,當前視頻生成技術(shù)雖與文本模型使用相似的底層架構(gòu),但缺乏對內(nèi)容的真正理解能力。

可靈 2.0 模型發(fā)布會上,蓋坤也表達了類似的觀點,“盡管 AI 在輔助創(chuàng)意表達上擁有巨大潛力,但當前的行業(yè)發(fā)展現(xiàn)狀還遠遠無法滿足用戶需求?!?他當時提出了一個新的視頻生成的交互理念 Multi-modal Visual Language(MVL),稱希望用戶可以借此更自由地引入文字、圖片、視頻等多模態(tài)信息,生成符合想法的創(chuàng)意視頻。

無論如何,“可靈還是帶給了快手久違的興奮感和戰(zhàn)斗力?!?一位快手人士說,“影視、廣告和互聯(lián)網(wǎng)行業(yè)里,可靈都在加速滲透?!?/p>

十二年前,快手從 GIF 社區(qū)轉(zhuǎn)型短視頻社區(qū),抓住了移動互聯(lián)網(wǎng)時代的機會,如今成為了中國總流量排名第三的應(yīng)用程序?!霸谝恍磥?,AI 是一次全新的起點,大概率將再次給各公司與產(chǎn)品帶來躍升的機會,這是快手一定要抓住的。” 上述快手人士說。

題圖來源:《大都會》