
機(jī)器之心發(fā)布
機(jī)器之心編輯部
在短視頻成為億萬用戶日常生活標(biāo)配的當(dāng)下,它不僅是一種娛樂方式,更是人們獲取信息、表達(dá)觀點、構(gòu)建社交的主要媒介。隨著內(nèi)容量的井噴式增長,平臺面臨著前所未有的挑戰(zhàn):一方面,需要更高效地識別和管理內(nèi)容;另一方面,必須精準(zhǔn)地將優(yōu)質(zhì)內(nèi)容推送給真正感興趣的用戶。
大模型技術(shù),尤其是多模態(tài)大模型,正迅速成為人工智能領(lǐng)域的新引擎,具備強(qiáng)大的圖文音視頻理解能力。但在短視頻生態(tài)這一復(fù)雜、高速演化的場景中,如何將這些技術(shù)真正落地,仍是一道難解的行業(yè)命題。
作為國內(nèi)領(lǐng)先的短視頻社區(qū),快手對利用多模態(tài)大模型重塑短視頻生態(tài)做出了嘗試,提出了基于多模態(tài)大模型的短視頻平臺生態(tài)優(yōu)化和綜合用戶體驗改善方案,并在實際部署中取得了顯著的成效。這一創(chuàng)新舉措不僅為短視頻平臺的健康發(fā)展提供了新的思路,也為行業(yè)樹立了標(biāo)桿。
基于多模態(tài)大模型的短視頻生態(tài)優(yōu)化方案

低質(zhì)內(nèi)容廣泛存在于各個媒體平臺,識別和過濾這些內(nèi)容是改善用戶體驗和平臺生態(tài)的重要環(huán)節(jié)。但傳統(tǒng)視頻質(zhì)量判別方案高度依賴靜態(tài)規(guī)則和標(biāo)注人員判別,造成了高昂的判斷成本,且難以適應(yīng)用戶反感內(nèi)容的動態(tài)性,現(xiàn)有的自動化質(zhì)量判別方案主要通過關(guān)鍵詞匹配和大語言模型的提示工程(Prompt Engineering)完成內(nèi)容的識別與過濾,難以保證識別過濾的準(zhǔn)確率。當(dāng)前工業(yè)界尚缺乏面向短視頻平臺的內(nèi)容質(zhì)量評測標(biāo)準(zhǔn)和成熟的自動化識別解決方案。
快手獨立完成了首個面向短視頻平臺的內(nèi)容質(zhì)量判別基準(zhǔn)測試構(gòu)建工作,依托自身生態(tài),打造了覆蓋 1000 條真實平臺短視頻、涵蓋 4 類主要劣質(zhì)內(nèi)容與 15 類細(xì)粒度劣質(zhì)內(nèi)容類型的數(shù)據(jù)集,并進(jìn)一步提出了工業(yè)級自動化短視頻質(zhì)量判別框架KuaiMod。區(qū)別于依賴成文規(guī)定的大陸法(Civil Law)體系判別策略,KuaiMod借鑒判例法(Common Law)在靈活性方面的優(yōu)勢,基于視覺語言模型(VLMs)的鏈?zhǔn)酵评恚–hain-of-Thought)深入剖析導(dǎo)致視頻引發(fā)用戶反感的原因,利用判例定義判別策略,從而攻克短視頻平臺中劣質(zhì)內(nèi)容動態(tài)變化的難題。KuaiMod 方案廣泛使用基于用戶反饋的強(qiáng)化學(xué)習(xí)策略幫助通用 VLM 完成面向視頻質(zhì)量判別任務(wù)的離線適配和在線更新,模型通過更新判例實時掌握平臺趨勢,保證對新生的劣質(zhì)內(nèi)容的準(zhǔn)確識別。
在離線測試中,KuaiMod-7B 模型在四種主要劣質(zhì)類別上整體準(zhǔn)確率高達(dá) 92.4%,相對于其他判別方案提升超過10%
目前 KuaiMod 判別方案已經(jīng)在快手平臺全面部署,為百萬級日新視頻提供質(zhì)量判別服務(wù),保障數(shù)億用戶的使用體驗。A/B 測試表明 KuaiMod 使用戶舉報率降低超過20%,展現(xiàn)出巨大的工業(yè)潛力。
為了促進(jìn)短視頻平臺生態(tài)優(yōu)化社區(qū)發(fā)展,當(dāng)前 KuaiMod 的評測標(biāo)準(zhǔn)以及詳細(xì)技術(shù)方案論文均已全面開源。
- 論文:VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform
- arXiv Paper:https://arxiv.org/pdf/2504.14904v1
- Homepage:https://kuaimod.github.io/
- KuaiMod Benchmark:https://github.com/KuaiMod/KuaiMod.github.io
主要貢獻(xiàn)
1、首個短視頻平臺劣質(zhì)內(nèi)容判別基準(zhǔn)測試:本工作面向快手生態(tài)構(gòu)建了短視頻劣質(zhì)內(nèi)容分類體系,形式化定義了短視頻內(nèi)容判別任務(wù),并基于真實場景中的用戶反饋構(gòu)建了首個短視頻劣質(zhì)內(nèi)容判別基準(zhǔn)測試。KuaiMod 劣質(zhì)內(nèi)容分類體系包含 4種主要的劣質(zhì)類別以及 15 種細(xì)粒度劣質(zhì)類別?;鶞?zhǔn)測試包含 1000 條短視頻樣本,涵蓋 15 種細(xì)粒度劣質(zhì)類別,完全由人工標(biāo)注,并經(jīng)過多輪數(shù)據(jù)清洗以保證正確性。
2、首個工業(yè)級自動化內(nèi)容判別解決方案:當(dāng)前 Facebook,Tiktok 等媒體平臺都對基于深度學(xué)習(xí)模型的自動化內(nèi)容質(zhì)量判別方案展開探索,但尚未公布成熟的技術(shù)路線。KuaiMod 是首個在工業(yè)場景下驗證了部署價值的自動化內(nèi)容質(zhì)量判別解決方案,在快手平臺多個場景下的部署結(jié)果表明,KuaiMod 方案具有能夠與人工判別相媲美的準(zhǔn)確率。我們在論文中詳細(xì)描述了 KuaiMod 方案的技術(shù)路線,希望引發(fā)更多的交流和討論。
3、基于用戶反饋的強(qiáng)化學(xué)習(xí)訓(xùn)練+更新策略:區(qū)別于靜態(tài)的規(guī)則或內(nèi)容判別 API,基于判例的劣質(zhì)內(nèi)容建模使得 KuaiMod 可以通過迭代訓(xùn)練數(shù)據(jù)完成判別策略的更新。為了保證實時性和準(zhǔn)確率,我們設(shè)計了基于用戶反饋的強(qiáng)化學(xué)習(xí)范式,利用用戶的線上反饋構(gòu)造新的訓(xùn)練數(shù)據(jù),實現(xiàn)線上判別服務(wù)的天級更新。
一、KuaiMod 短視頻質(zhì)量判別基準(zhǔn)測試

KuaiMod 劣質(zhì)內(nèi)容分類體系
為了應(yīng)對層出不窮的新增劣質(zhì)內(nèi)容,KuaiMod 建立了動態(tài)的劣質(zhì)內(nèi)容分類體系?;诳焓衷械呐袆e標(biāo)準(zhǔn),KuaiMod 將劣質(zhì)內(nèi)容分類成四個相互獨立的主要類別:法律與社會安全,內(nèi)容質(zhì)量與倫理,不良商業(yè)行為和侵害知識產(chǎn)權(quán)。在四個主要類別的基礎(chǔ)上進(jìn)一步構(gòu)建動態(tài)的細(xì)粒度劣質(zhì)內(nèi)容分類體系。具體來說,初版 KuaiMod 分類體系共包括 15 種細(xì)粒度劣質(zhì)標(biāo)簽。在后續(xù)判別過程中,如果視頻內(nèi)容被判定為質(zhì)量低下,但不存在與之匹配的細(xì)粒度標(biāo)簽,則根據(jù)劣質(zhì)內(nèi)容為該類視頻生成新的細(xì)粒度標(biāo)簽并計入原有分類體系。自部署以來,KuaiMod 分類體系中劣質(zhì)內(nèi)容的標(biāo)簽數(shù)目已從 15 個擴(kuò)充到 100 個,實現(xiàn)了對新增劣質(zhì)內(nèi)容的覆蓋和細(xì)粒度分類。
KuaiMod 基準(zhǔn)測試
基于上述分類體系,我們構(gòu)造了業(yè)界首個短視頻平臺內(nèi)容質(zhì)量判別基準(zhǔn)測試。該基準(zhǔn)測試由 1000 條來自快手平臺的短視頻和對應(yīng)的分類標(biāo)簽組成,其中 578 條視頻為非劣質(zhì)內(nèi)容,422 條劣質(zhì)視頻涵蓋了初版分類體系中的 15 種細(xì)粒度劣質(zhì)類型。KuaiMod 基準(zhǔn)測試中的每條數(shù)據(jù)都由多名資深標(biāo)注者把關(guān),確保分類標(biāo)簽的正確性。在嚴(yán)格的數(shù)據(jù)脫敏和清洗之后,我們將該基準(zhǔn)測試開源,希望促進(jìn)短視頻平臺生態(tài)優(yōu)化社區(qū)的交流和發(fā)展。
二、KuaiMod 短視頻質(zhì)量判別方案
KuaiMod 質(zhì)量判別模型由快手自研的 YuanQi 通用多模態(tài)模型作為基座,面向視頻質(zhì)量判別任務(wù),使用鏈?zhǔn)酵评頂?shù)據(jù)離線訓(xùn)練后部署上線,并根據(jù)線上反饋持續(xù)更新判別策略。

鏈?zhǔn)酵评頂?shù)據(jù)構(gòu)造
KuaiMod 訓(xùn)練數(shù)據(jù)的構(gòu)造結(jié)合了人工判別結(jié)果和大模型推理能力。為了增強(qiáng)多模態(tài)大模型對視頻內(nèi)容和劣質(zhì)標(biāo)簽之間的因果建模,我們設(shè)計了 Tag2CoT 和 CoT2Tag 流程,為每條訓(xùn)練數(shù)據(jù)提供細(xì)致的分析過程。
我們將線上的用戶反感(舉報/厭惡/差評)視頻隊列以及用戶喜愛的高質(zhì)量視頻隊列作為數(shù)據(jù)源,由人工標(biāo)注者為每條數(shù)據(jù)標(biāo)注細(xì)粒度劣質(zhì)標(biāo)簽。
在 Tag2CoT 過程中,多模態(tài)大模型將視頻元信息(視頻標(biāo)題、封面、視頻幀、OCR/ASR 文本,用戶評論等)以及人工標(biāo)注的劣質(zhì)標(biāo)簽作為輸入,并根據(jù)指令分析視頻內(nèi)容,為人工判別結(jié)果提供思維鏈格式的依據(jù)。 在 CoT2Tag 過程中,為了將推理過程結(jié)構(gòu)化,我們?yōu)橐曨l質(zhì)量判別任務(wù)設(shè)計了專門的流程,具體來說,我們將視頻質(zhì)量判別分成內(nèi)容提取,內(nèi)容分析,中期檢查,用戶反饋分析和總結(jié)判斷五個狀態(tài),由多模態(tài)大模型將視頻內(nèi)容以及 Tag2CoT 過程中生成的思維鏈整理成狀態(tài)轉(zhuǎn)移格式。
SFT+DPO 離線適配
基于構(gòu)造的鏈?zhǔn)酵评頂?shù)據(jù),KuaiMod 模型的離線適配由 SFT 和 DPO 兩階段訓(xùn)練組成。
在 SFT 階段,整合視頻元信息作為輸入,使用 next-token-prediction 任務(wù)訓(xùn)練 YuanQi 模型生成推理過程和判別結(jié)果。
在 DPO 階段,利用 SFT 后的模型在訓(xùn)練集上生成推理結(jié)果,從中挑選出判別結(jié)果錯誤的樣本,將模型的生成結(jié)果作為負(fù)例,將原本的訓(xùn)練數(shù)據(jù)作為正例,構(gòu)造偏好數(shù)據(jù),采用直接偏好優(yōu)化算法針對錯誤樣本優(yōu)化模型。
基于用戶反饋的強(qiáng)化學(xué)習(xí)(RLUF)更新范式
盡管 KuaiMod 模型在離線適配后具備初步的視頻質(zhì)量判別能力,但由于社交視頻平臺上的劣質(zhì)內(nèi)容會隨著用戶和社會趨勢而變化,靜態(tài)的質(zhì)量判別模型無法有效適應(yīng)這種動態(tài)性。因此,在線上更新階段,我們設(shè)計了基于用戶反饋的強(qiáng)化學(xué)習(xí)(RLUF)范式,持續(xù)優(yōu)化 KuaiMod 模型的判別策略。
RLUF 包括如下關(guān)鍵元素:
- 環(huán)境:由短視頻平臺上的視頻和用戶組成,用戶通過觀看視頻并提供反饋(如舉報)來與環(huán)境互動。
- 智能體:KuaiMod 模型作為代理與環(huán)境互動,其策略由參數(shù) θ 決定,基于視頻內(nèi)容進(jìn)行質(zhì)量判斷。
- 獎勵和目標(biāo):獎勵信號直接來自用戶反饋,較低的用戶舉報率表明更好的質(zhì)量判別策略。目標(biāo)是通過與環(huán)境的互動更新判別策略,以提高用戶滿意度和平臺生態(tài)。
劣質(zhì)內(nèi)容判別策略更新的關(guān)鍵在于消除模型與用戶對劣質(zhì)內(nèi)容理解的差異。為此,選擇模型判別結(jié)果與用戶反饋不一致的視頻案例作為優(yōu)化階段的訓(xùn)練數(shù)據(jù)。具體步驟包括:
1、實時難例收集:難例來自用戶舉報視頻以及高熱視頻。舉報行為直接反映了用戶理解的劣質(zhì)內(nèi)容的范疇,而高熱視頻因其受歡迎程度而具有更高的擴(kuò)散風(fēng)險,同時也反映了平臺趨勢和用戶偏好。
2、數(shù)據(jù)篩選
- 粗篩選:假設(shè)未被用戶舉報的視頻為正例,而高舉報隊列中的視頻為劣質(zhì)樣本。通過更新前的KuaiMod模型生成判別決策,識別出與人類反饋相矛盾的案例作為線上更新階段的候選訓(xùn)練數(shù)據(jù)。
- 精細(xì)標(biāo)注:對有爭議的候選案例進(jìn)行人工復(fù)檢,確定最終的劣質(zhì)標(biāo)簽,并通過既定的 Tag2CoT 和 CoT2Tag 流程生成數(shù)據(jù)。對于 KuaiMod 判斷錯誤的案例,原始和新生成的響應(yīng)分別作為錯誤和正確答案;對于 KuaiMod 判斷正確但用戶仍感到不適的案例,使用 YuanQi-20B 模型在 CoT 推理過程中列舉可能引起用戶不適的方面,并解釋該視頻為何不會對社區(qū)生態(tài)造成危害,以幫助模型區(qū)分個體用戶敏感性和社會共識。
在線上更新階段的訓(xùn)練中,我們?nèi)匀徊捎弥苯悠脙?yōu)化算法來完成模型判別策略與用戶反饋的對齊。
離線性能評估

我們在 KuaiMod 基準(zhǔn)測試上評估了多種視頻質(zhì)量判別方案,從較早的 RoBERTa 編碼器到先進(jìn)的 Intern-VL 模型,從通用的 GPT-4o 到專業(yè)的 Perspective API,以及經(jīng)過離線適配的 KuaiMod-7B 模型。評測包括簡單的劣質(zhì)/非劣質(zhì)二分類和對細(xì)粒度標(biāo)簽的多分類。
評測結(jié)果揭示了視頻質(zhì)量判別任務(wù)存在如下關(guān)鍵要素:
1、判別標(biāo)準(zhǔn)的實時性:在諸多判別方法中,Perspective 是唯一的工業(yè)級內(nèi)容判別 API,但由于其使用的模型訓(xùn)練時間較早,且無法微調(diào),因此相較于其他可微調(diào)的方法以及更新的 GPT-4o,準(zhǔn)確率較低。
2、多模態(tài)理解能力:能夠利用多模態(tài)信息的方法相比于僅能利用文本信息的模型普遍取得了更好的效果,強(qiáng)大的視覺理解能力對于視頻質(zhì)量判別任務(wù)至關(guān)重要。
KuaiMod-7B 模型取得了 92.4% 的整體準(zhǔn)確率,相對于其他方法取得了將近 10% 的提升,展現(xiàn)出了性能優(yōu)勢和應(yīng)用潛力。
線上部署性能增益

為了驗證 KuaiMod 方案的實際應(yīng)用價值,我們在快手生態(tài)中的三個場景(快手極速版,快手精選和快手主站)進(jìn)行了 A/B 測試。在極速版和精選場景下,KuaiMod 的質(zhì)量判別服務(wù)使視頻舉報率降低了 20% 以上,顯著提升了用戶的觀看體驗。同時,質(zhì)量判別服務(wù)沒有對活躍用戶數(shù)目和觀看時長造成負(fù)面影響,這證明 KuaiMod 剔除的短視頻不符合主流用戶的興趣。在主站場景下,KuaiMod 的質(zhì)量判別服務(wù)使得活躍用戶規(guī)模和人均觀看時長均產(chǎn)生了增長,這證明了劣質(zhì)內(nèi)容剔除對于短視頻平臺的發(fā)展具有巨大價值。
三、快手致力打造社區(qū)短視頻理解多模態(tài)大模型
短視頻平臺的內(nèi)容分發(fā)面臨兩大核心挑戰(zhàn):如何從海量內(nèi)容中精準(zhǔn)捕捉用戶興趣,以及如何在信息過載時代構(gòu)建用戶與內(nèi)容的高效連接。隨著短視頻內(nèi)容的多樣化和復(fù)雜性,平臺需要探索更加先進(jìn)的推薦技術(shù),以提升推薦的精準(zhǔn)性和可解釋性,從而更好地滿足用戶的需求。
快手正致力于打造一個能夠真正「理解社區(qū)短視頻」的多模態(tài)大模型,不只是追求技術(shù)指標(biāo)的突破,而是從用戶體驗、內(nèi)容理解到業(yè)務(wù)變現(xiàn),全面重塑平臺的智能基礎(chǔ)設(shè)施。這不僅關(guān)乎一個產(chǎn)品的升級,更代表著一種新的AI價值實現(xiàn)路徑。
多模態(tài)語義理解的「硬骨頭」:快手短視頻語義遠(yuǎn)超多模態(tài)通用范式
相比標(biāo)準(zhǔn)化的影視視頻或通用圖文內(nèi)容,社區(qū)短視頻的語義環(huán)境極為復(fù)雜:內(nèi)容碎片化嚴(yán)重、情境依賴性強(qiáng)、語言與視覺高度融合、表達(dá)風(fēng)格高度個性化、傳達(dá)意圖往往隱含于動作、語氣、背景與上下文之中。這意味著,只有能夠真正「看懂、聽懂、理解」這些視頻的大模型,才能為推薦、搜索、內(nèi)容生成等核心能力提供有效支撐。
這正是快手推進(jìn)多模態(tài)大模型建設(shè)的起點。
團(tuán)隊明確提出,模型不僅需要實現(xiàn)語言、視覺、音頻等模態(tài)的信息融合,還要具備:
- 對短視頻語境中復(fù)雜意圖的識別能力;
- 對用戶興趣動態(tài)變化的感知能力;
- 對視頻背后高階語義與知識圖譜的推理能力。
傳統(tǒng)方法往往止步于對視頻內(nèi)容的表征提取,而快手要做的是,從「表征」邁向「理解」——這是通往下一代 AI 系統(tǒng)的必由之路。
建立以「視頻理解」為核心的多模態(tài)模型框架
為此,快手自研的大模型能力被系統(tǒng)地分為三個層次:
第一層:多模態(tài)基礎(chǔ)能力
這一層聚焦于打通視頻、圖像、文本等多模態(tài)輸入的表示空間。團(tuán)隊探索了多種訓(xùn)練范式:
- 通過語言模型主導(dǎo)的 Encoder 路徑融合視覺內(nèi)容;
- 利用 Adapter 方式對視覺模態(tài)進(jìn)行調(diào)參適配;
- 構(gòu)建統(tǒng)一的流式理解體系,實現(xiàn)短視頻「上下文建?!?;
- 引入監(jiān)督微調(diào)(SFT)策略,提升模型生成能力和對齊度。
在模型訓(xùn)練數(shù)據(jù)上,快手搭建了高質(zhì)量的中文短視頻語料庫,支持「視頻-語音-文本」三位一體的訓(xùn)練目標(biāo),并構(gòu)建了以「視頻結(jié)構(gòu)化標(biāo)簽體系」為中心的訓(xùn)練監(jiān)督鏈條,實現(xiàn)模型對短視頻語義單位的精準(zhǔn)識別。
第二層:高級認(rèn)知與推理能力
在具備感知能力之后,快手將模型推向更高維度的認(rèn)知與推理能力。這部分重點突破如下:
- 利用 RAG 機(jī)制結(jié)合知識圖譜進(jìn)行視頻內(nèi)容補(bǔ)全與多跳問答;
- 提高模型對復(fù)雜命題(如動作因果、話題轉(zhuǎn)折、情感表達(dá)等)的理解力;
- 融合社交線索(如點贊評論、觀看路徑)進(jìn)行因果鏈建模。
與 OpenAI、DeepSeek 等在圖文領(lǐng)域大模型能力相比,快手的優(yōu)勢在于其數(shù)據(jù)更貼近用戶真實興趣軌跡,具備構(gòu)建「懂人心」模型的土壤。
第三層:多模態(tài)應(yīng)用能力
快手多模態(tài)模型的目標(biāo)并非「實驗室指標(biāo)」,而是「場景閉環(huán)」。當(dāng)前,模型已廣泛部署于平臺的多個核心任務(wù)中,包括:
- 視頻興趣標(biāo)簽結(jié)構(gòu)化;
- 短視頻 Caption 生成與標(biāo)題優(yōu)化;
- 用戶興趣識別與推薦意圖建模;
- 智能選題、內(nèi)容共創(chuàng)輔助;
- 電商商品知識圖譜構(gòu)建與導(dǎo)購?fù)扑];
- 用戶評論語義解析與話題擴(kuò)散預(yù)測。
尤其在商品推薦與內(nèi)容創(chuàng)作領(lǐng)域,快手正在構(gòu)建「知識驅(qū)動的 AI 內(nèi)容理解-生成-推薦」全鏈條,從而實現(xiàn)從內(nèi)容理解到價值轉(zhuǎn)化的智能躍遷。
實際業(yè)務(wù)中,這一模型體系已在用戶行為可解釋性任務(wù)中展現(xiàn)出顯著成效——在快手主站與極速版核心場景中,平臺多項正向核心指標(biāo)穩(wěn)步提升,主站場景下舉報率下降超過 26%,極速版下降超過 24%,充分體現(xiàn)了多模態(tài)大模型在真實業(yè)務(wù)環(huán)境中的落地能力與優(yōu)化成效。
三階段路徑:從能力建設(shè)到生態(tài)閉環(huán)
快手在多模態(tài)大模型建設(shè)方面采取了清晰的階段性策略,力求以系統(tǒng)性投入逐步構(gòu)建起具備產(chǎn)業(yè)價值和應(yīng)用閉環(huán)的模型能力體系。
第一階段:夯實基礎(chǔ)能力
快手聚焦于多模態(tài)模型的底層能力建設(shè),重點包括統(tǒng)一的標(biāo)簽體系構(gòu)建、多源異構(gòu)語料的采集與清洗,以及多模態(tài)監(jiān)督機(jī)制的初步搭建。通過標(biāo)準(zhǔn)化、結(jié)構(gòu)化的標(biāo)簽體系,為模型提供更精確的語義錨點,奠定了高質(zhì)量訓(xùn)練的基礎(chǔ)。
第二階段:推進(jìn)語義融合與興趣建模
隨著基礎(chǔ)能力的成熟,快手開始將模型能力延伸到內(nèi)容與用戶之間的深層理解。此階段重點探索內(nèi)容語義結(jié)構(gòu)與用戶行為偏好的聯(lián)動機(jī)制,推動知識圖譜在推薦、搜索等業(yè)務(wù)場景中的實用化落地,進(jìn)一步提升內(nèi)容分發(fā)的精準(zhǔn)性與用戶體驗。
第三階段:實現(xiàn)產(chǎn)品集成與業(yè)務(wù)共振
在模型能力逐步完善的基礎(chǔ)上,快手將多模態(tài)技術(shù)融入平臺多個關(guān)鍵業(yè)務(wù)流程,面向內(nèi)容理解、創(chuàng)作輔助、商業(yè)推薦等多類任務(wù)實現(xiàn)統(tǒng)一支撐。同時,探索 AI 能力在營銷、分發(fā)、內(nèi)容生產(chǎn)等場景中的創(chuàng)新應(yīng)用,推動模型從「算法引擎」邁向「平臺能力」的演進(jìn)。
這一分階段的策略不僅保障了技術(shù)建設(shè)的系統(tǒng)性,也使得大模型能力能夠穩(wěn)步走向規(guī)?;瘧?yīng)用和價值兌現(xiàn)。
走出學(xué)術(shù)范式,邁入「場景即能力」的產(chǎn)業(yè)實踐階段
快手的多模態(tài)大模型不是為了追趕潮流,而是一次源于真實場景需求的技術(shù)深耕。它所代表的,是中文內(nèi)容生態(tài)中,一個由社區(qū)驅(qū)動、短視頻驅(qū)動的智能化轉(zhuǎn)型路徑。
如果說過去多模態(tài)模型更像是「學(xué)術(shù)成果的工程化實現(xiàn)」,那么快手的路線更像是「產(chǎn)品倒推下的技術(shù)演進(jìn)」。在這個過程中,快手展現(xiàn)出一種難得的「慢功夫」與務(wù)實精神:先理解任務(wù)本身,再推動模型優(yōu)化,最終形成業(yè)務(wù)閉環(huán)。這種從需求出發(fā)、自研為本、場景驅(qū)動的技術(shù)策略,為整個中文AI生態(tài)提供了一種新的范式樣本。

熱門跟貼