作者 | AICon 全球人工智能開發(fā)與應(yīng)用大會
策劃 | 李忠良
編輯 | 宇琪
近年來,多模態(tài)大模型技術(shù)發(fā)展迅速,展現(xiàn)出強大的視覺理解能力,顯著提升了 AIGC 的可控性,各行各業(yè)正經(jīng)歷從“人工密集型”到“AI 原生驅(qū)動”的顛覆性變革。那么,多模態(tài)技術(shù)中面臨哪些核心技術(shù)挑戰(zhàn)?在 AIGC 技術(shù)落地過程中,會產(chǎn)生什么新的應(yīng)用場景?大模型的下一階段突破可能來自哪些方向?
近日 InfoQ《極客有約》X AICon 直播欄目特別邀請了上海交通大學(xué)人工智能學(xué)院副教授趙波擔(dān)任主持人,和快手快意多模態(tài)模型算法負(fù)責(zé)人高歡、騰訊混元專家研究員邵帥一起,在AICon全球人工智能開發(fā)與應(yīng)用大會2025 上海站即將召開之際,共同探討多模態(tài)大模型如何開啟智能交互新篇章。
部分精彩觀點如下:
先訓(xùn)練一個大模型,再用它來蒸餾小模型或減少推理步數(shù),比直接訓(xùn)練小模型或低步數(shù)模型效果更好。
現(xiàn)階段,比起通用模型,針對特定業(yè)務(wù)場景定制化的垂直領(lǐng)域模型仍是更優(yōu)選擇。
如果單純?yōu)榱俗非笮Ч鵁o限制地擴大模型規(guī)模,雖然可能獲得性能提升,但投入產(chǎn)出比會明顯失衡。
輕量級模型在處理相關(guān)性判斷和創(chuàng)意類任務(wù)時表現(xiàn)足夠出色,對于需要深度知識儲備和強推理能力的任務(wù)則需要大規(guī)模模型。
在 5 月 23-24 日將于上海舉辦的AICon全球人工智能開發(fā)與應(yīng)用大會上,我們特別設(shè)置了【多模態(tài)大模型創(chuàng)新實踐】專題。該專題將深入解析多模態(tài)大模型的技術(shù)原理,探討其在智能客服、智能駕駛等領(lǐng)域的創(chuàng)新應(yīng)用,展示多模態(tài)大模型如何實現(xiàn)語音、文本、圖像等協(xié)同交互。
查看大會日程解鎖更多精彩內(nèi)容:https://aicon.infoq.cn/2025/shanghai/schedule
以下內(nèi)容基于直播速記整理,經(jīng) InfoQ 刪減。
完整直播回放可查看:https://www.infoq.cn/video/mNVM5eqQsFsd0H4sZNrD
技術(shù)挑戰(zhàn)
趙波:前段時間 GPT-4O 文生圖功能令人印象深刻, 從 CLIP 實現(xiàn)跨模態(tài)“圖文對齊”,到 DALL·E 掀起文生圖革命,多模態(tài)技術(shù)正打破單一感知的邊界。快手的 AIGC 技術(shù),讓視頻生產(chǎn)成本直降 50%??焓挚煲饽P湍壳霸诙嗄B(tài)領(lǐng)域具體在探索什么方向?以及選擇探索這些”方向的原因是什么?
高歡:快手當(dāng)前重點推進(jìn)的 AIGC 業(yè)務(wù)"可靈",已具備基于文本或圖片生成視頻的核心能力。為支撐該業(yè)務(wù),我們構(gòu)建了深度視頻理解系統(tǒng),通過多模態(tài)模型對視頻內(nèi)容進(jìn)行語義解析與知識關(guān)聯(lián),確保模型建立完整的世界知識框架。這使得用戶輸入指令時,系統(tǒng)能智能生成符合語義的畫面呈現(xiàn)——這種文本到視頻(T2V)模型訓(xùn)練中的多模態(tài)理解能力具有關(guān)鍵作用。
例如在數(shù)字人場景中,我們的多模態(tài)模型已有效提升主播與觀眾的交互體驗;在素材剪輯場景中,通過精準(zhǔn)的素材定位檢索功能,顯著降低用戶創(chuàng)作門檻;同時在電商及廣告領(lǐng)域,多模態(tài)理解技術(shù)為商品展示、海報生成等環(huán)節(jié)提供核心支撐。當(dāng)前技術(shù)方向聚焦于構(gòu)建 caption 模型,包括 rephraser 與 prompt engineering 模塊,通過深化用戶意圖理解和視頻內(nèi)容解析,持續(xù)提升視頻生成模型的語義還原度。
趙波:近期騰訊混元大模型也在多模態(tài)理解與生成方面努力,顯著提升了內(nèi)容創(chuàng)作效率。騰訊目前在多模態(tài)領(lǐng)域具體在做什么方向呢?
邵帥:騰訊正基于多模態(tài)基礎(chǔ)模型,研發(fā)圖像、視頻、3D 內(nèi)容生成系統(tǒng)。與單純依賴文本輸入的基礎(chǔ)模式不同,實際業(yè)務(wù)中更多采用圖生圖、圖生視頻等混合生成模式,并延伸至圖片 / 視頻 /3D 編輯、智能混剪等理解 - 生成一體化場景。騰訊生態(tài)的多元化內(nèi)容需求(如騰訊視頻、微信生態(tài)、游戲及廣告業(yè)務(wù))持續(xù)驅(qū)動技術(shù)創(chuàng)新。目前相關(guān)技術(shù)已在影視創(chuàng)作、社交內(nèi)容生產(chǎn)、游戲資產(chǎn)生成、智能廣告投放等領(lǐng)域?qū)崿F(xiàn)規(guī)?;瘧?yīng)用。
趙波:高歡老師是否可以分享一下快手在 caption 模型這一塊運用的獨特技術(shù)?
高歡:快手的技術(shù)布局聚焦多模態(tài)內(nèi)容生成領(lǐng)域,覆蓋文生圖、文生視頻、圖生圖、圖生視頻全鏈路生成能力。其技術(shù)核心在于預(yù)訓(xùn)練階段對多模態(tài)數(shù)據(jù)的深度解析——不僅需要提取基礎(chǔ)語義信息,同時涉及美學(xué)要素提取。相較于傳統(tǒng) caption 任務(wù)僅關(guān)注事件要素記錄,我們更強調(diào)通過美學(xué)維度的結(jié)構(gòu)化解析提升生成內(nèi)容質(zhì)量。
在技術(shù)實現(xiàn)層面,我們重點構(gòu)建了鏡頭語言解析能力,包括景別識別、運鏡模式分析等影視化特征建模。通過數(shù)據(jù)標(biāo)注體系優(yōu)化與模型架構(gòu)創(chuàng)新在可控參數(shù)量級下實現(xiàn)了高精度 caption 標(biāo)注。這些結(jié)構(gòu)化描述數(shù)據(jù)為模型構(gòu)建世界知識體系提供關(guān)鍵支撐,使其能準(zhǔn)確解析用戶輸入的 prompt,最終實現(xiàn)創(chuàng)作意圖的精準(zhǔn)視覺轉(zhuǎn)化。
趙波:大家的模型是開源、閉源?為什么選擇開源或閉源?如果是閉源將來是否會開源?認(rèn)為未來多模態(tài)技術(shù)會是開源更強還是閉源更強?
邵帥:騰訊混元團(tuán)隊認(rèn)為開源與閉源并非對立的技術(shù)路線,而是交替引領(lǐng)行業(yè)發(fā)展的雙軌模式——開源生態(tài)通過社區(qū)智慧加速技術(shù)迭代,閉源體系則更聚焦商業(yè)場景的深度優(yōu)化。
開源模型能有效吸納開發(fā)者社區(qū)的創(chuàng)新成果。例如我們開源的圖像 / 視頻生成模型,已吸引大量開發(fā)者在底層架構(gòu)上構(gòu)建 LoRA 微調(diào)模塊、ControlNet 控制流等工作流,這些衍生創(chuàng)新通過技術(shù)反哺持續(xù)增強原始模型能力;中長尾業(yè)務(wù)場景存在碎片化需求(如區(qū)域化營銷素材生成、小眾內(nèi)容創(chuàng)作工具),開源模型為中小團(tuán)隊提供了低成本試錯路徑,待驗證場景可行性后再進(jìn)行商業(yè)閉環(huán)構(gòu)建;在設(shè)計師增效工具、廣告內(nèi)容生產(chǎn)等核心場景,商業(yè)價值實現(xiàn)取決于技術(shù)效果與應(yīng)用適配度,而非單純依賴模型的開源屬性。
需要強調(diào)的是,開源策略實際上拓展了技術(shù)商業(yè)化的可能性邊界:當(dāng)社區(qū)開發(fā)者基于開源模型解決特定場景需求后,其驗證成功的解決方案可通過技術(shù)集成反哺企業(yè)級產(chǎn)品,最終實現(xiàn)生態(tài)價值的正向循環(huán)。這種社區(qū)創(chuàng)新 - 商業(yè)轉(zhuǎn)化的雙向流動機制,正是騰訊踐行技術(shù)開放戰(zhàn)略的核心考量。
高歡:從快手的角度來看,我們目前主要在做的事情涉及更復(fù)雜的系統(tǒng),而非單一模型就能支持的。因此,我們與開源社區(qū)的互動更多以技術(shù)分享為主。在過去一年中,我們開源了可圖,為社區(qū)提供了相應(yīng)的技術(shù)輸出。此外,在可靈的開發(fā)過程中,我們也整理了一些效果較好的技術(shù)方案,并將其開源,同時發(fā)表了相關(guān)論文。
關(guān)于開源與閉源的選擇,我們認(rèn)為兩者各有優(yōu)勢。但目前,我們的核心目標(biāo)是為客戶提供更完善的服務(wù),因此整個系統(tǒng)仍以閉源為主?,F(xiàn)階段,我們更專注于優(yōu)化系統(tǒng)架構(gòu),因此尚未計劃將核心業(yè)務(wù)開源。
趙波:我們作為高校實驗室當(dāng)然是擁抱開源的,從模型、代碼到數(shù)據(jù)都是完全開源的。
趙波:多模態(tài)理解和生成的區(qū)別?以及結(jié)合點?有沒有什么融合趨勢?
邵帥:我認(rèn)為一個非常重要的結(jié)合場景是:如何利用理解模型來提升生成模型的性能。從技術(shù)實現(xiàn)上,可以將其分為訓(xùn)練前、訓(xùn)練中、訓(xùn)練后三個階段。
訓(xùn)練前,理解模型至少可以發(fā)揮兩個作用:數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)注。我們的實踐經(jīng)驗表明,數(shù)據(jù)質(zhì)量與生成效果呈正相關(guān),因此我們在這一環(huán)節(jié)投入了大量優(yōu)化工作。訓(xùn)練過程中,強化學(xué)習(xí)是一個關(guān)鍵能力,而強化學(xué)習(xí)通常依賴獎勵模型,而獎勵模型本身就是一個理解模型。
訓(xùn)練后,生成模型的應(yīng)用可以進(jìn)一步分為生成前和生成后兩個階段:生成前,目前常用的方法是 prompt rewriting。我們發(fā)現(xiàn),許多用戶輸入的 prompt 較為簡單,通過優(yōu)化用戶的原始 prompt,可以顯著提升輸出質(zhì)量。生成后,我們也在探索多種優(yōu)化手段,比如 test-time scaling;我們也會做 post-filtering,例如,在某些場景下,我們可能一次性生成 10 張圖,但僅返回其中 4 張質(zhì)量最佳的結(jié)果給用戶。
目前,我們已經(jīng)觀察到生成與理解一體化的明顯趨勢,并且這一進(jìn)展可能會比預(yù)期更快。如果這類一體化模型能結(jié)合強大的語言模型,還能復(fù)用其知識和推理能力,進(jìn)一步提升生成效果。
高歡:我們認(rèn)為模型架構(gòu)并非當(dāng)前最重要的考量因素,關(guān)鍵還是在于技術(shù)路線的選擇和應(yīng)用目標(biāo)。例如,在 GPT-4o 的技術(shù)方向上,趙老師團(tuán)隊此前發(fā)表的 EMU-3 論文已經(jīng)驗證了相關(guān)技術(shù)路線的可行性。我們團(tuán)隊主要從 Diffusion 模型的角度進(jìn)行探索。Diffusion 模型非常依賴對用戶意圖的理解,以及多模態(tài)信息的處理能力。雖然傳統(tǒng)觀點認(rèn)為自回歸模型更適合理解任務(wù),Diffusion 模型更適合生成任務(wù),但我們認(rèn)為未來應(yīng)該以實際應(yīng)用效果為導(dǎo)向。
趙波:多模態(tài)技術(shù)中,處理不同模態(tài)數(shù)據(jù)(如視頻、圖像、文本)時,分別面臨的核心技術(shù)挑戰(zhàn)是什么?
邵帥:目前最核心的難題在于多模態(tài)對齊與融合的問題。不同模態(tài)數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)上都存在顯著差異,這種根本性的差異導(dǎo)致我們需要解決兩個關(guān)鍵技術(shù)難點:一方面是如何設(shè)計通用的 tokenizer 來實現(xiàn)跨模態(tài)的統(tǒng)一表征,另一方面是如何建立有效的模態(tài)對齊機制來實現(xiàn)異構(gòu)數(shù)據(jù)間的語義關(guān)聯(lián)。
在實際應(yīng)用過程中,我們還面臨著數(shù)據(jù)平衡的挑戰(zhàn)。當(dāng)訓(xùn)練數(shù)據(jù)中某一模態(tài)占據(jù)優(yōu)勢時,往往會導(dǎo)致其他模態(tài)的性能出現(xiàn)退化。此外,在多任務(wù)學(xué)習(xí)場景下,當(dāng)模型需要同時處理多種不同類型的任務(wù)時,經(jīng)常會出現(xiàn)任務(wù)之間的相互干擾問題,以及計算資源如何合理分配的難題。
高歡:與靜態(tài)圖像不同,視頻是由連續(xù)幀構(gòu)成的時序數(shù)據(jù),這對當(dāng)前受限于上下文窗口的自回歸大語言模型提出了更高要求。目前常見的解決方案包括幀采樣、降低分辨率增加幀數(shù),或是采用 token merge 技術(shù)來壓縮視覺 token。但每種方法都不可避免地會損失部分信息,這種信息損耗在進(jìn)行深度多模態(tài)理解時尤為關(guān)鍵。
作為短視頻平臺,我們每天都需要處理海量的新數(shù)據(jù),這帶來了熱門概念快速更迭的問題。一個今天爆火的舞蹈可能明天就過時了,而訓(xùn)練一個模型往往也需要一整天時間,這就導(dǎo)致模型剛訓(xùn)練完就可能面臨失效的風(fēng)險。為了解決這個問題,我們探索了 RAG 等技術(shù)方案,以及輕量級訓(xùn)練方法來快速融入新概念。
短視頻數(shù)據(jù)還呈現(xiàn)出獨特的靜態(tài)特征:平臺上大量視頻包含特效、突破物理規(guī)律的創(chuàng)意內(nèi)容,這些與真實世界的物理規(guī)律存在顯著差異。雖然傳統(tǒng)訓(xùn)練方法難以準(zhǔn)確理解這類內(nèi)容,但它們恰恰是文本生成視頻中最具價值的部分。
這些技術(shù)挑戰(zhàn)最終都指向推理成本的增加。為了處理更長的視頻序列,我們需要引入更多幀和思維鏈,這直接導(dǎo)致推理時間延長。同時,某些場景下小模型完全無法勝任,必須使用大模型并經(jīng)過專門訓(xùn)練才能達(dá)到可用水平。
趙波:我們課題組目前專注于長視頻理解大模型的研究,核心要解決的問題是如何高效提取和壓縮視頻中的信息。正如高歡老師提到的,視頻數(shù)據(jù)最大的挑戰(zhàn)在于其冗余性——長視頻會產(chǎn)生海量的 token。我們近期完成的 Video-XL 和 Video-XL-Pro 兩項工作,分別從兩個維度進(jìn)行了技術(shù)創(chuàng)新:一是充分利用大語言模型自身的 token 壓縮能力,二是從源頭壓縮視覺 tokenizer 產(chǎn)生的 token 數(shù)量。
趙波:多模態(tài)訓(xùn)練是否缺數(shù)據(jù)?如何應(yīng)對?
邵帥:我們始終面臨著數(shù)據(jù)不足、標(biāo)注質(zhì)量欠佳、美學(xué)標(biāo)準(zhǔn)不達(dá)標(biāo)以及多樣性匱乏等挑戰(zhàn)。在策略上,我們采用"先多后精"的技術(shù)路線:前期收集海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練模型訓(xùn)練,同時建立完整的數(shù)據(jù)清洗和標(biāo)注管線。
我們將數(shù)據(jù)分為銅標(biāo)、銀標(biāo)、金標(biāo)三個等級,形成金字塔式的數(shù)據(jù)體系。對于精品數(shù)據(jù),我們不僅要關(guān)注基礎(chǔ)質(zhì)量,還要考量美學(xué)價值和具體任務(wù)適配性。雖然圖文匹配和文生圖數(shù)據(jù)相對容易獲取,但編輯類任務(wù)的數(shù)據(jù)卻十分稀缺。以草圖生圖任務(wù)為例,構(gòu)建草圖與完整圖片的配對數(shù)據(jù)就極具挑戰(zhàn)性。為此,我們廣泛采用合成數(shù)據(jù)和構(gòu)造方法。例如,讓人根據(jù)完整圖片繪制草圖要比反向操作容易得多。
最近我們還面臨新的挑戰(zhàn):訓(xùn)練數(shù)據(jù)中混入了 AI 生成內(nèi)容,這些數(shù)據(jù)的鑒別難度很高,一旦混入訓(xùn)練集就可能污染整個訓(xùn)練流程,這比以往的數(shù)據(jù)問題更加棘手。
高歡:當(dāng)前高質(zhì)量數(shù)據(jù)和垂直領(lǐng)域數(shù)據(jù)都存在嚴(yán)重短缺。垂直數(shù)據(jù)往往依賴現(xiàn)有業(yè)務(wù)場景的積累,但新業(yè)務(wù)開發(fā)時又恰恰缺乏這些數(shù)據(jù),形成了一個典型的"先有雞還是先有蛋"的困境。為此我們不得不投入大量精力來人工構(gòu)造訓(xùn)練數(shù)據(jù),整個過程相當(dāng)復(fù)雜耗時。
從實踐數(shù)據(jù)來看,當(dāng)前 LLM 訓(xùn)練規(guī)模已達(dá)數(shù)萬億 token 級別,而多模態(tài)模型即便算上主流訓(xùn)練案例,整體 token 量級仍相差一個數(shù)量級。換算成樣本數(shù)量的話,差距就更為明顯。目前多模態(tài)數(shù)據(jù)不僅總量不足,還存在嚴(yán)重的分布不均衡問題。開源數(shù)據(jù)集中的樣本往往過于"精致"而缺乏多樣性,這導(dǎo)致很多開源模型難以直接應(yīng)用于工業(yè)場景的具體任務(wù)。
趙波:在兩家的多模態(tài)模型中是否已經(jīng)用了基于用戶反饋的強化學(xué)習(xí)?是否有顯著的性能提升?
邵帥:在用戶反饋方面,我們發(fā)現(xiàn)評價標(biāo)準(zhǔn)與用戶偏好之間存在顯著差異。對于明顯的 Badcase,比如三腿六指、動作不自然等問題,大家容易達(dá)成共識。但在美學(xué)偏好等主觀評價上,比如人物形象是否好看,往往難以形成統(tǒng)一標(biāo)準(zhǔn)。為此,我們開發(fā)了通用美學(xué)和人像美學(xué)的評估體系,通過建立數(shù)據(jù)標(biāo)準(zhǔn)和標(biāo)注算子,在強化學(xué)習(xí)中引入這些"軟性"指標(biāo),顯著提升了生成內(nèi)容的美學(xué)質(zhì)量。
在廣告等業(yè)務(wù)場景中,我們嘗試直接利用 CTR、CVR 等業(yè)務(wù)指標(biāo)作為優(yōu)化目標(biāo)。每張投放的生成圖片都能獲得真實的用戶反饋數(shù)據(jù),這為我們提供了直接的優(yōu)化信號。
高歡:從對話系統(tǒng)的角度來看,用戶反饋的應(yīng)用存在一些特殊考量。特別是在開放域?qū)υ拡鼍爸?,很多時候回答并沒有絕對的對錯之分。雖然簡單回答"不知道"在技術(shù)上是準(zhǔn)確的,但這會直接終止對話。為了維持更自然的對話體驗,我們會分析哪些回復(fù)能促使用戶繼續(xù)交流,并以此作為正向反饋信號。這種優(yōu)化既包括在線實時調(diào)整,也包含離線模型迭代。
在快手的具體業(yè)務(wù)中,強化學(xué)習(xí)的應(yīng)用場景非常豐富。特別是在那些"左右都算對"但存在業(yè)務(wù)偏好的場景,RLHF 發(fā)揮著重要作用。而在 caption 生成這類任務(wù)上,我們主要采用 DPO 方法,通過 reward model 來優(yōu)化模型表現(xiàn)。
我們發(fā)現(xiàn)視頻理解模型常犯兩個典型錯誤:一是事件順序錯亂,二是過度冗長的描述。針對順序問題,我們主動構(gòu)造負(fù)樣本,通過交換事件順序來訓(xùn)練模型;針對過度描述問題,DPO 能有效控制模型在適當(dāng)時機停止生成。
趙波:在多模態(tài)領(lǐng)域前沿探索方面,目前有哪些研究熱點?
趙波:去年我們重點研究了視頻理解大模型,發(fā)現(xiàn)現(xiàn)有多模態(tài)模型雖然能較好處理圖像文本和短視頻(通過拆幀方式),但對于小時級長視頻的理解能力仍然有限。特別是在算力受限情況下,處理長視頻的海量 token 和復(fù)雜時序信息更具挑戰(zhàn)性。
近期我們轉(zhuǎn)向研究多模態(tài)大模型的空間和時間感知能力。我們開發(fā)了一個新的 Benchmark:STI-Bench,系統(tǒng)評估了主流開源和閉源模型在三維空間感知及時間理解方面的表現(xiàn)。該評測涵蓋封面場景、室內(nèi)場景和室外場景三種環(huán)境,重點考察模型對物體位置、運動軌跡等定量的時空關(guān)系的理解能力。
高歡:從實際應(yīng)用來看,當(dāng)前多模態(tài)模型在空間方位理解普遍存在不足,這對 AIGC 應(yīng)用是致命問題——當(dāng)用戶要求"左手動"時若模型錯誤生成"右手動",就會直接導(dǎo)致客訴。
長視頻理解是我們另一個重點方向,存在兩種典型情況:一種是內(nèi)容簡單的長視頻,只需簡短描述;另一種是信息密集的長視頻,需要準(zhǔn)確捕捉復(fù)雜運動、事件序列、背景元素和美學(xué)特征, 目前還沒有模型能在不損失時空精度的情況下完全處理這種復(fù)雜信息。近期涌現(xiàn)的 VideoChat-R1、Kimi-VL 等工作,以及從選擇題評分?jǐn)U展到 caption 生成的研究方向,都顯示出這個領(lǐng)域正在被賦予新的使命。
邵帥:在強化學(xué)習(xí)方面,我們重點研究如何更好地對齊人類美學(xué)偏好,優(yōu)化生成內(nèi)容的質(zhì)量。同時,我們也在深入探索指令遵循能力的提升,包括利用自回歸模型完成各類編輯任務(wù),實現(xiàn) ID、風(fēng)格、文本等多維度的可控生成,以及引入姿態(tài)、音頻等額外控制條件來驅(qū)動數(shù)字人生成等應(yīng)用場景。
在視頻生成領(lǐng)域,我們發(fā)現(xiàn)當(dāng)前主流模型大多只能生成 4-5 秒的短視頻片段,而實際業(yè)務(wù)往往需要 3 分鐘以上的長視頻生成能力。此外,推理速度的優(yōu)化也是關(guān)鍵問題,過長的生成時間不僅影響用戶體驗,還會顯著增加推理成本。這些研究方向既涉及核心算法突破,也直接關(guān)系到技術(shù)落地的可行性。
行業(yè)落地應(yīng)用
趙波:在提升多模態(tài)模型的效率(如降低計算成本、加速推理)方面,兩位認(rèn)為當(dāng)前最值得關(guān)注的技術(shù)路徑是什么?
高歡:由于不同業(yè)務(wù)場景的需求差異很大,快手目前還沒有一個統(tǒng)一的多模態(tài)模型能夠覆蓋所有應(yīng)用場景?,F(xiàn)階段我們主要采用兩種技術(shù)路線:一是直接訓(xùn)練小模型,二是通過大模型蒸餾小模型,以獲得符合特定業(yè)務(wù)需求的能力。
近期我們重點關(guān)注 token 壓縮技術(shù),包括 token merge、token fusion 等技術(shù)方向。在一些評測中我們發(fā)現(xiàn),即使去除 70-80% 的 token,模型性能仍能保持穩(wěn)定。在實際業(yè)務(wù)場景中也驗證了這一規(guī)律:對于那些不需要精細(xì)細(xì)節(jié)處理的任務(wù),采用激進(jìn)的 token 壓縮方案可以大幅縮短推理窗口。當(dāng)推理窗口縮減至原來的 1/4 時,推理性能可獲得成倍提升。
此外,我們也借鑒了語言模型領(lǐng)域的成功經(jīng)驗,如投機采樣等技術(shù)。通過小模型來輔助優(yōu)化推理過程,可以顯著降低部署成本。
邵帥:目前我們主要關(guān)注兩個技術(shù)方向:首先是編解碼器的效率優(yōu)化,通過開發(fā)更高效率的編碼器,可以在幾乎不損失模型效果的前提下實現(xiàn)數(shù)倍的效率提升,這本質(zhì)上類似于一個無損壓縮問題。另一個重要方向是模型蒸餾技術(shù),特別是針對 Diffusion 模型步數(shù)過長的優(yōu)化。以標(biāo)準(zhǔn) 100 步的模型為例,如果能成功蒸餾到 10 步,就能獲得 10 倍的效率提升。
我們的實踐經(jīng)驗表明,先訓(xùn)練一個大模型,再用它來蒸餾小模型或減少推理步數(shù),這種方案比直接訓(xùn)練小模型或低步數(shù)模型效果更好,這種"先大后小"的蒸餾策略已經(jīng)成為我們提升模型效率的重要手段。
趙波:面對定制化的模型需求,我們應(yīng)該直接訓(xùn)練垂直領(lǐng)域模型,還是應(yīng)該訓(xùn)練通用模型?實際應(yīng)用中有什么優(yōu)劣嗎?
高歡:現(xiàn)階段來看,定制化的垂直領(lǐng)域模型仍是更優(yōu)選擇。雖然未來或許能通過一個通用模型(all in one)完成這類任務(wù),但這與前述推理成本問題密切相關(guān)。目前,我們的業(yè)務(wù)算法團(tuán)隊已能通過微調(diào)或上下文學(xué)習(xí)結(jié)合特定指令 / 小樣本等方式,高效構(gòu)建精致的定制模型。
邵帥:這兩類模型將會共存并各自發(fā)揮價值,雖然從純效果指標(biāo)來看,通用模型的理論上限更高,但實際業(yè)務(wù)落地時需要面對諸多現(xiàn)實考量。
首先在數(shù)據(jù)層面,通用模型要在特定任務(wù)達(dá)到最佳表現(xiàn)通常需要海量數(shù)據(jù)支撐,而實際業(yè)務(wù)中很多長尾場景恰恰缺乏足夠數(shù)據(jù)。這類場景更適合采用小樣本學(xué)習(xí)或上下文學(xué)習(xí)等技術(shù)方案。反觀中長尾業(yè)務(wù),通用模型憑借其優(yōu)異的泛化能力往往能取得不錯效果。而對于那些數(shù)據(jù)充足的頭部業(yè)務(wù)場景,針對性地進(jìn)行模型精調(diào)往往能帶來顯著的效果提升。
另一個關(guān)鍵因素是推理效率。經(jīng)過專門優(yōu)化的垂直模型可以壓縮到極小規(guī)模,其推理速度相較通用模型甚至能有 1-2 個數(shù)量級的提升。這種性能優(yōu)勢在實時性要求高的場景尤為重要。
基于這些觀察,我們通常采用"先通用后定制"的漸進(jìn)策略:新業(yè)務(wù)場景可先嘗試通用模型方案,待驗證效果并積累足夠數(shù)據(jù)后,再評估是否需要轉(zhuǎn)向定制化方案。這種靈活務(wù)實的做法,既能控制初期投入成本,又能為后續(xù)優(yōu)化保留空間。
趙波:我們實驗室此前在垂直領(lǐng)域進(jìn)行過一些探索性嘗試,包括醫(yī)學(xué) CT 影像大模型以及具身智能方向——雖然嚴(yán)格來說后者不完全屬于垂直領(lǐng)域范疇。我們曾嘗試將通用大模型通過微調(diào)適配到特定領(lǐng)域,比如醫(yī)療領(lǐng)域,或在將通用模型繼續(xù)訓(xùn)練成視覺語言動作模型(VLA)。在這個過程中,我們觀察到一個有趣現(xiàn)象:模型經(jīng)過垂直領(lǐng)域微調(diào)后,往往會喪失原有的通用對話能力。
這引出了一個關(guān)鍵的技術(shù)難題:如何在提升模型垂直領(lǐng)域?qū)I(yè)能力的同時,不損害其通用能力?目前來看,這仍是一個亟待解決的重要技術(shù)挑戰(zhàn)。
趙波:在技術(shù)落地的業(yè)務(wù)場景中,端側(cè)算力限制是否為落地的關(guān)鍵瓶頸?如何平衡效果與速度?
高歡:從實際業(yè)務(wù)落地的角度來看,我們往往需要在模型效果和執(zhí)行效率之間尋找平衡點。如果單純?yōu)榱俗非笮Ч鵁o限制地擴大模型規(guī)模,雖然可能獲得性能提升,但投入產(chǎn)出比會明顯失衡,甚至出現(xiàn)負(fù)值。
目前這個矛盾在短期內(nèi)仍將顯著影響我們的技術(shù)選型。為此我們正在推進(jìn)多項優(yōu)化工作:包括采用更高效的視頻編碼器、實施 token 壓縮技術(shù),以及探索大模型的 INT8 量化方案等。在某些特定場景中,小型模型確實難以滿足需求,這就迫使我們必須在現(xiàn)有技術(shù)條件下尋找創(chuàng)新性的解決方案。
邵帥:一旦涉及 trade-off,就意味著這個問題已經(jīng)不存在完美解決方案。實際決策時,我們不僅需要考慮效果、耗時和用戶體驗,還必須將訓(xùn)練成本和推理成本納入考量范圍。
面對具體業(yè)務(wù)場景時,我們首先會評估是否可以采用預(yù)生成或異步處理方案。比如利用夜間潮汐資源進(jìn)行離線計算,次日反饋結(jié)果;或者提前生成內(nèi)容建立檢索庫。這種方式能巧妙規(guī)避多個矛盾:既可以使用大模型獲得最佳效果,又因異步處理無需擔(dān)心耗時問題,同時潮汐資源還能大幅降低成本。
但對于必須實時處理的場景,我們通常會設(shè)計折中方案。例如同時部署極速版和高質(zhì)量版雙模型,為用戶提供選擇權(quán):是立即獲取普通效果,還是等待更優(yōu)結(jié)果。也可以采用混合策略,先用快速模型生成初稿,再用大模型優(yōu)化最終質(zhì)量。另一個思路是允許用戶離開當(dāng)前頁面,待結(jié)果就緒后通過推送通知召回。
在耗時優(yōu)化方面,需要區(qū)分量變與質(zhì)變。大多數(shù)技術(shù)如模型蒸餾、量化只能帶來量變改進(jìn)(如響應(yīng)時間從 5 秒縮短到 3 秒)。但在直播等特殊場景,耗時優(yōu)化必須達(dá)到質(zhì)變級別——任何延遲都不可接受。這種情況下,即便犧牲部分效果也要優(yōu)先保證實時性,否則整個方案就無法落地應(yīng)用。這種質(zhì)變優(yōu)化往往能解鎖全新的業(yè)務(wù)可能性。
趙波:當(dāng)模型推理速度達(dá)到實時的時候,會產(chǎn)生什么新的應(yīng)用場景?
邵帥:傳統(tǒng)互聯(lián)網(wǎng)時代有著嚴(yán)格的速度標(biāo)準(zhǔn)——頁面加載超過 1 秒就會影響體驗,服務(wù)響應(yīng)超過 3 秒就難以接受。但在當(dāng)前的大模型應(yīng)用中,30 秒甚至更長的等待時間變得常見,在高峰時段排隊等待 30 分鐘的情況也時有發(fā)生。有趣的是,用戶對這種延遲的容忍度明顯提高了,這主要源于大模型帶來的前所未有的能力突破。雖然用戶勉強接受了這種體驗降級,但顯然這種交互方式遠(yuǎn)非理想狀態(tài),這也促使行業(yè)普遍開始重視"first-token 延遲"的優(yōu)化工作。
如果我們能夠?qū)⒛P晚憫?yīng)速度提升到實時或秒級,整個交互模式將發(fā)生根本性變革。以文生圖或文生視頻場景為例,當(dāng)前的交互流程是:輸入提示詞→點擊生成→等待結(jié)果→評估質(zhì)量→可能需要重新生成。這種模式效率低下。未來我們完全可以實現(xiàn)更流暢的體驗——比如在繪圖場景中實現(xiàn)"一筆一生成"的實時渲染,或者在對話式生成中實現(xiàn)語音輸入與圖像生成的同步進(jìn)行,真正做到"邊說邊生成"。
這種革新將徹底消除傳統(tǒng)"輸入 - 等待 - 輸出"的斷點式交互,代之以無縫的實時體驗。在數(shù)字人直播、智能客服、AI 面試官等需要即時反饋的場景中,這種變革尤為重要。我相信,這種交互革命很快就會成為行業(yè)標(biāo)配,而實現(xiàn)這一目標(biāo)的關(guān)鍵就在于持續(xù)優(yōu)化模型的響應(yīng)速度。
高歡:從交互方式和多模態(tài)(any to any)的角度來看,如果真能實現(xiàn)實時推理,那么《三體》小說中描繪的許多場景都將成為現(xiàn)實。我們可以輕松地將腦海中的想象即時轉(zhuǎn)化為視覺可見的內(nèi)容,這將極大地提升我們的預(yù)判和決策能力——AI 能實時提供各種信號和依據(jù)來輔助我們做出判斷。
觀眾:數(shù)據(jù)達(dá)到多少才有必要定制,以及定制化需要的最小數(shù)據(jù)集大小應(yīng)該是什么樣?
邵帥:關(guān)鍵考量因素在于業(yè)務(wù)價值而非單純的數(shù)據(jù)量,只要某個場景具備足夠高的業(yè)務(wù)價值,就有必要考慮定制化方案。至于最低數(shù)據(jù)要求,當(dāng)前已有多種輕量化定制技術(shù),比如使用 LoRA 等方法,在圖像或視頻領(lǐng)域可能僅需幾十到一百張樣本就能啟動訓(xùn)練——當(dāng)然數(shù)據(jù)越多效果越好。
我們在實際業(yè)務(wù)中探索出一種"自增強"方法:初始階段可能僅用 10 張圖片訓(xùn)練一個初始模型,雖然效果有限,但可以用它批量生成新樣本。假設(shè)生成 1000 張圖中僅有 10% 可用,我們就能篩選出 100 張質(zhì)量合格的圖片加入訓(xùn)練集。通過多次這樣的迭代循環(huán),最終可以獲得數(shù)量充足且質(zhì)量達(dá)標(biāo)的定制數(shù)據(jù)集。
趙波:模型技術(shù)路線方面,做更大、和做更輕量化的模型分別有什么不同?有哪些對應(yīng)的落地場景?
高歡:模型規(guī)模與能力確實存在直接關(guān)聯(lián)——更大的模型通常表現(xiàn)更優(yōu),而輕量級模型則更適合實時業(yè)務(wù)需求。以 caption 為例,若追求極致精準(zhǔn)度,大規(guī)模模型無疑是更好的選擇;但在需要全量處理的海量數(shù)據(jù)場景下,輕量化模型才是更實際的選擇。
在實際應(yīng)用中,我們通常會采用分級處理策略:對于包含復(fù)雜事件或多重要素的困難樣本,調(diào)用大模型處理;而對于相對簡單的常規(guī)視頻,則使用輕量模型完成。這種差異化方案能夠充分發(fā)揮不同規(guī)模模型的優(yōu)勢。
趙波:是否有某些特定的場景說它一定大模型更適合一些,然后或者輕量型模型更適合一些?
高歡:在短視頻理解任務(wù)中,我們將其劃分為幾個主要類別:創(chuàng)意類、事實類、相關(guān)性判別類等。根據(jù)我們的實踐經(jīng)驗,輕量級模型在處理相關(guān)性判斷和創(chuàng)意類任務(wù)時表現(xiàn)足夠出色,經(jīng)過適當(dāng)訓(xùn)練即可滿足需求。然而,對于需要深度知識儲備和強推理能力的任務(wù)——如問答類或判別類場景——大規(guī)模模型展現(xiàn)出明顯優(yōu)勢。特別是在內(nèi)容審核這類高風(fēng)險領(lǐng)域,采用大模型往往至關(guān)重要。
邵帥:在模型選型策略上,我們通常會從兩個關(guān)鍵維度進(jìn)行考量:首先是業(yè)務(wù)發(fā)展階段。對于尚處探索階段的新業(yè)務(wù),由于技術(shù)成熟度不足,我們更傾向于采用性能最優(yōu)的大模型進(jìn)行可行性驗證。只有當(dāng)模型能力確實滿足場景需求后,才會著手進(jìn)行模型壓縮和成本優(yōu)化,推動方案進(jìn)入穩(wěn)定交付階段。
其次是用戶需求性質(zhì)。我們將需求劃分為"靈感激發(fā)"和"生產(chǎn)輸出"兩類:在靈感場景中,用戶往往需要快速生成大量參考樣本(如尋找創(chuàng)作靈感或具象化模糊概念),這時輕量快速的模型更為合適;而在確定性生產(chǎn)場景中(如最終成品輸出),質(zhì)量優(yōu)先于速度,即便需要更長的等待時間或隔日交付,用戶也愿意為更優(yōu)質(zhì)的結(jié)果買單。
觀眾:現(xiàn)在模型訓(xùn)練過程中是不是已經(jīng)遇到了很多的 AIGC 圖片,這些 AIGC 圖片是不是已經(jīng)產(chǎn)生了一些副作用?我們應(yīng)如何應(yīng)對?
高歡:需要明確的是,AIGC 生成內(nèi)容并非沒有價值——它們特別適合用于補充特定概念或罕見元素組合的數(shù)據(jù)缺口。實際操作中,我們通過嚴(yán)格的數(shù)據(jù)預(yù)處理流程來確保內(nèi)容質(zhì)量:對于達(dá)到 100% 擬真度的 AIGC 內(nèi)容,完全可以視同真實素材使用;而對于存在瑕疵的生成內(nèi)容,通過識別篩選后,可以調(diào)整其在訓(xùn)練集中的配比。
邵帥:在 AIGC 內(nèi)容應(yīng)用上,我們采取風(fēng)格區(qū)分的策略。對于寫實類風(fēng)格(如照片級真實感),需要特別警惕生成內(nèi)容中的 artifact 問題——包括過度磨皮、紋理缺失、摩爾紋等典型的人工痕跡,這類瑕疵會嚴(yán)重影響模型的訓(xùn)練效果。但在非真實感渲染(NPR)領(lǐng)域,如卡通、動漫、游戲等風(fēng)格化場景,AIGC 內(nèi)容經(jīng)過人工美學(xué)把關(guān)后,能有效補充傳統(tǒng)手繪難以覆蓋的新概念和新風(fēng)格。
趙波:在 AIGC 技術(shù)落地過程中,騰訊混元大模型在哪些關(guān)鍵業(yè)務(wù)場景實現(xiàn)了顯著的效率提升?
邵帥:騰訊混元已在游戲生產(chǎn)環(huán)節(jié)實現(xiàn)了顯著的效率優(yōu)化,在 2D 概念階段,該技術(shù)已應(yīng)用于角色、皮膚、特效及場景的高效生產(chǎn)。同時,3D 技術(shù)也在部分游戲場景中落地,目前主要用于道具和簡單場景的建模。在創(chuàng)新玩法方面,我們重點關(guān)注互動影游這一游戲與影視結(jié)合的新形式。傳統(tǒng)互動影游需要為每個敘事分支拍攝大量素材,特別是大 IP 改編作品時,召回明星補拍的成本極高。而通過 AIGC 技術(shù),可以實現(xiàn)人物對話和場景分支的動態(tài)生成,這大大降低了制作難度。
在泛營銷場景中,該技術(shù)被用于廣告素材的智能化生成,包括圖片和高轉(zhuǎn)化率的視頻內(nèi)容制作。特別是針對廣告視頻的關(guān)鍵前三秒,傳統(tǒng)方式需要投入高昂成本制作夸張畫面來吸引觀眾,而現(xiàn)在通過 AIGC 技術(shù)可以快速生成創(chuàng)新內(nèi)容,同時有效避免重復(fù)或觸發(fā)消重系統(tǒng)的問題。
趙波:快手在哪些業(yè)務(wù)場景有明顯的效率提升?生產(chǎn)力提升?
高歡:T2V 訓(xùn)練的收斂速度顯著加快,這主要得益于數(shù)據(jù)質(zhì)量的提升。高質(zhì)量數(shù)據(jù)讓模型能夠更好地區(qū)分容易混淆的概念,有效降低了錯誤理解的干擾。類似的現(xiàn)象在語言模型訓(xùn)練中也很明顯,隨著數(shù)據(jù)質(zhì)量的提高,模型的收斂速度和在各類榜單指標(biāo)上的表現(xiàn)都有顯著提升。
未來趨勢
趙波:多模態(tài)大模型的下一階段突破可能來自哪些方向?技術(shù)、數(shù)據(jù)、應(yīng)用落地分別將會有什么樣的突破?
邵帥:數(shù)據(jù)層面即將迎來重要突破:通過利用更多模態(tài)的數(shù)據(jù),即使某些模態(tài)存在缺失,也能訓(xùn)練出具有更強指令遵循和泛化能力的模型。此外,當(dāng)前的數(shù)據(jù)清洗流程雖然提升了數(shù)據(jù)平均質(zhì)量,但也損失了大量潛在信息。未來我們需要探索如何增強模型的抗噪能力,從低質(zhì)量數(shù)據(jù)中提取更多信息,或通過修復(fù)技術(shù)提升數(shù)據(jù)質(zhì)量。
第二,個性化將成為關(guān)鍵發(fā)展方向。每個用戶都有獨特的興趣偏好和需求表達(dá)方式,可能是通過文本,也可能是通過交互反饋。如何為不同用戶或不同場景提供差異化能力,實現(xiàn)真正的"千人千面",將是重要的發(fā)展方向。
第三,應(yīng)用層面將迎來顯著增長。目前已有相對成熟穩(wěn)定的技術(shù)方案可供實際使用,不再局限于研究探索階段。同時,技術(shù)應(yīng)用的耗時和成本都大幅降低。用戶認(rèn)知也發(fā)生了重要轉(zhuǎn)變:相比一兩年前人們更多是抱著嘗鮮心態(tài)體驗新技術(shù),現(xiàn)在用戶對模型的能力邊界已有清晰認(rèn)知,越來越多的人開始思考如何利用這些模型解決具體問題,因此 2025 年必將成為 AI 應(yīng)用大規(guī)模落地的一年。
高歡:就像語言模型從最初的百花齊放發(fā)展到后來的大一統(tǒng),從單純的語言理解演進(jìn)到 RAG 和智能體等更復(fù)雜的應(yīng)用,多模態(tài)技術(shù)也將完整地經(jīng)歷這個過程。未來很可能會出現(xiàn)一個真正實現(xiàn)"any to any"轉(zhuǎn)換的 all in one 統(tǒng)一模型,這已經(jīng)成為行業(yè)共同努力的方向。
展望未來,像 VLA(視覺語言動作)這樣的具身智能應(yīng)用將會更加豐富。從技術(shù)發(fā)展節(jié)奏來看,2023 年第一季度 GPT-3.5 的出現(xiàn)推動了語言模型的快速發(fā)展,2024 年則是文本到視頻(T2V)技術(shù)突飛猛進(jìn)的一年。而今年 OpenAI 推出的圖片編輯工具,已經(jīng)展現(xiàn)出向"any to any"模型發(fā)展的趨勢。因此,我們有理由期待 2025 年可能成為"any to any"多模態(tài)技術(shù)爆發(fā)的關(guān)鍵年份。
趙波:我們近期主要關(guān)注的方向是大模型的空間感知能力。當(dāng)前多模態(tài)模型主要聚焦于平面 2D 視覺和語義理解,而我們正在推動其向三維空間感知方向發(fā)展,讓模型能夠更深入地理解和感知物理世界。在多模態(tài)生成模型方面,我們正在進(jìn)行視頻生成技術(shù)的創(chuàng)新探索,核心突破點在于賦予視頻生成模型記憶能力——當(dāng)模型再次進(jìn)入同一場景時,能夠保持生成場景中物體的連續(xù)性。這項技術(shù)突破將有效解決現(xiàn)有視頻生成中的一致性問題,為內(nèi)容創(chuàng)作帶來新的可能性。
趙波:DeepSeek R1 模型很火,多模態(tài)模型中 Reasoning 的重要性如何?這其中的 Reasoning 是語言層面的更重要?還是視覺層面的更重要?以及會產(chǎn)生哪些重要應(yīng)用?
邵帥:我有一個不太成熟的觀點:Diffusion 模型的推理過程與 COT 思維鏈推理具有高度相似性,兩者都是通過逐步生成的方式,從初始相對粗糙的結(jié)果出發(fā),經(jīng)過層層迭代和優(yōu)化,最終獲得更優(yōu)質(zhì)的結(jié)果。
基于這個觀察,我認(rèn)為類似 COT 的推理過程不僅適用于純語言模型,在多模態(tài)模型或大一統(tǒng)模型中也同樣可行。事實上,如果采用自回歸式的建模方法,我們就能充分利用現(xiàn)有語言模型和多模態(tài)模型的知識儲備與推理能力。目前我們已經(jīng)在圖像和視頻生成的前置環(huán)節(jié)進(jìn)行實踐探索。例如,在生成過程中引入類似語言模型的 planning 機制——先進(jìn)行布局 layout 或草圖生成,再進(jìn)入具體的生成階段,這種方法能夠有效提升生成內(nèi)容的邏輯性和連貫性。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯(lián)動,全覽 AI 技術(shù)前沿和行業(yè)落地。大會聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計和出海策略等話題。即刻掃碼購票,一同探索 AI 應(yīng)用邊界!
熱門跟貼