機(jī)器之心發(fā)布

機(jī)器之心編輯部

隨著 Deepseek 等強(qiáng)推理模型的成功,強(qiáng)化學(xué)習(xí)在大語(yǔ)言模型訓(xùn)練中越來越重要,但在視頻生成領(lǐng)域缺少探索。復(fù)旦大學(xué)等機(jī)構(gòu)將強(qiáng)化學(xué)習(xí)引入到視頻生成領(lǐng)域,經(jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化的視頻生成模型,生成效果更加自然流暢,更加合理。并且分別在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 兩大國(guó)際權(quán)威榜單中斬獲第一。

視頻細(xì)粒度文本描述

視頻細(xì)粒度文本描述模型(video detailed caption)為視頻生成模型提供標(biāo)簽,是視頻生成的基礎(chǔ)。復(fù)旦大學(xué)等機(jī)構(gòu)提出了 Cockatiel 方法 [3],該方法在權(quán)威的 VDC(Video Detailed Captioning 視頻細(xì)粒度文本描述評(píng)測(cè)集)榜單上獲得第一名,超過了包括通義千問 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在內(nèi)的多個(gè)主流視頻理解多模態(tài)大模型。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
  • 項(xiàng)目主頁(yè): https://sais-fuxi.github.io/projects/cockatiel/
  • 論文地址: https://arxiv.org/pdf/2503.09279
  • Github: https://github.com/Fr0zenCrane/Cockatiel

Cockatiel 的核心思路是:基于人類偏好對(duì)齊的高質(zhì)量合成數(shù)據(jù),設(shè)計(jì)三階段微調(diào)訓(xùn)練流程,系統(tǒng)集成了多個(gè)在不同描述維度上表現(xiàn)領(lǐng)先的模型優(yōu)勢(shì)。通過這一方法,以單機(jī)的訓(xùn)練成本訓(xùn)練出了一套在細(xì)粒度表達(dá)、人類偏好一致性等方面均表現(xiàn)卓越的視頻細(xì)粒度描述模型,為后續(xù)視頻生成模型的訓(xùn)練和優(yōu)化打下了堅(jiān)實(shí)基礎(chǔ),模型細(xì)節(jié)如下(更多詳情可參考論文和開源 github):

打開網(wǎng)易新聞 查看精彩圖片

  • 階段一:構(gòu)造視頻細(xì)粒度描述的人類偏好數(shù)據(jù):分別對(duì)視頻描述的對(duì)象、對(duì)象特征、動(dòng)態(tài)特征、鏡頭動(dòng)作和背景的文本描述質(zhì)量進(jìn)行人工標(biāo)注。
  • 階段二:基于打分器的多模型集成訓(xùn)練:基于人工標(biāo)注數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)函數(shù)(reward model),并多個(gè)模型合成的視頻描述計(jì)算獎(jiǎng)勵(lì)(reward),最終對(duì) 13B 的多模態(tài)大語(yǔ)言模型進(jìn)行人類偏好對(duì)齊優(yōu)化。
  • 階段三:蒸餾輕量化模型:基于上一步訓(xùn)練的 13B 的多模態(tài)大語(yǔ)言模型蒸餾 8B 模型,方便后續(xù)在下游任務(wù)中低成本推理。

實(shí)驗(yàn)結(jié)果顯示基于 Cockatiel 系列模型生成的視頻細(xì)粒度描述,具備維度全面、敘述精準(zhǔn)詳實(shí)以及幻覺現(xiàn)象較少的顯著優(yōu)勢(shì)。如下圖所示,與 ViLA,LLaVA 和 Aria 的基線模型相比,Cockatiel-13B 不僅能夠準(zhǔn)確復(fù)現(xiàn)基線模型所描述的細(xì)節(jié)(以黃底高亮部分表示),還能捕捉到基線模型遺漏的關(guān)鍵信息(以紅底高亮部分表示)。而 Cockatiel 生成的描述則大量避免了幻覺性內(nèi)容,Cockatiel 展現(xiàn)了更高的可靠性和準(zhǔn)確性。

打開網(wǎng)易新聞 查看精彩圖片

強(qiáng)化學(xué)習(xí)加強(qiáng)的視頻生成技術(shù)

在視頻生成領(lǐng)域,該團(tuán)隊(duì)首次提出了迭代式強(qiáng)化學(xué)習(xí)偏好優(yōu)化方法 IPOC [4],在權(quán)威視頻生成評(píng)測(cè)榜單 VBench (2025-04-14) 上,IPOC 以 86.57% 的總分強(qiáng)勢(shì)登頂,領(lǐng)先通義萬相、Sora、HunyuanVideo、Minimax、Gen3、Pika 等眾多國(guó)內(nèi)外知名視頻生成模型。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:IPO: Iterative Preference Optimization for Text-to-Video Generation
  • 論文地址:https://arxiv.org/pdf/2502.02088
  • 項(xiàng)目主頁(yè):https://yangxlarge.github.io/ipoc//
  • GitHub 地址:https://github.com/SAIS-FUXI/IPO

研究者通過迭代式強(qiáng)化學(xué)習(xí)優(yōu)化方式,避免了強(qiáng)化學(xué)習(xí)中訓(xùn)練不穩(wěn)定的問題。同時(shí)只需要依賴少量的訓(xùn)練數(shù)據(jù)和算力,以低成本實(shí)現(xiàn)效果優(yōu)化。 模型細(xì)節(jié)如下(更多詳情可參考論文和開源 github):

打開網(wǎng)易新聞 查看精彩圖片

階段一:人工偏好數(shù)據(jù)標(biāo)注:IPO 方法通過逐視頻打分(Pointwise Annotation)與成對(duì)視頻排序(Pairwise Annotation)兩種方式進(jìn)行人工標(biāo)注。標(biāo)注過程中,標(biāo)注者不僅需要提供評(píng)分或排序結(jié)果,還需詳細(xì)闡述評(píng)分理由,以構(gòu)建具有思維鏈(Chain-of-Thought, CoT)風(fēng)格的標(biāo)注數(shù)據(jù)。這種標(biāo)注形式有助于模型深入理解視頻內(nèi)容與文本描述之間的語(yǔ)義一致性,從而形成高質(zhì)量的人類偏好數(shù)據(jù)集。

階段二:獎(jiǎng)勵(lì)模型訓(xùn)練:IPO 方法進(jìn)一步引入了一種基于多模態(tài)大模型的 “獎(jiǎng)勵(lì)模型”(Critic Model)。獎(jiǎng)勵(lì)模型僅通過少量人工標(biāo)注數(shù)據(jù)和少量算力即可高效訓(xùn)練完成,隨后可自動(dòng)實(shí)現(xiàn)對(duì)單個(gè)視頻的評(píng)分以及對(duì)多個(gè)視頻的對(duì)比排序。這種設(shè)計(jì)無需在每次迭代優(yōu)化時(shí)都重新進(jìn)行人工標(biāo)注,顯著提高了迭代優(yōu)化效率。此外,獎(jiǎng)勵(lì)模型具備出色的通用性和 “即插即用” 特性,可廣泛適配于各類視頻生成模型。

階段三:迭代強(qiáng)化學(xué)習(xí)優(yōu)化:IPO 方法利用當(dāng)前的視頻生成(T2V)模型生成大量新視頻,并由已訓(xùn)練的獎(jiǎng)勵(lì)模型對(duì)這些視頻進(jìn)行自動(dòng)評(píng)價(jià)與標(biāo)注,形成新的偏好數(shù)據(jù)集。隨后,這些自動(dòng)標(biāo)注的數(shù)據(jù)用于進(jìn)一步優(yōu)化 T2V 模型。這一過程持續(xù)迭代循環(huán),即:“視頻生成采樣 → 樣本獎(jiǎng)勵(lì)計(jì)算 → 偏好對(duì)齊優(yōu)化”。此外,我們提出的 IPO 框架同時(shí)兼容當(dāng)前主流的偏好優(yōu)化算法,包括基于對(duì)比排序的 Diffusion-DPO 方法與基于二分類評(píng)分的 Diffusion-KTO 方法,用戶可靈活選擇訓(xùn)練目標(biāo),其中兩種人類偏好對(duì)齊方法(DPO 和 KTO)的訓(xùn)練目標(biāo)為:

  • DPO (Direct Preference Optimization):

打開網(wǎng)易新聞 查看精彩圖片

  • KTO (Kahneman-Tversky Optimization):

打開網(wǎng)易新聞 查看精彩圖片

實(shí)驗(yàn)結(jié)果顯示經(jīng)過優(yōu)化后,視頻生成模型在時(shí)序一致性上實(shí)現(xiàn)了顯著提升。相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,獅子的行走動(dòng)作更加自然連貫,整體動(dòng)態(tài)流暢度有了明顯改善。

打開網(wǎng)易新聞 查看精彩圖片

視頻鏈接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw

Prompt: An astronaut in a sandy-colored spacesuit is seated on a majestic lion with a golden mane in the middle of a vast desert. The lion's paws leave deep prints in the sand as it prowls forward. The astronaut holds a compass, looking for a way out of the endless expanse. The sun beats down mercilessly, and the heat shimmers in the air.

視頻生成模型在結(jié)構(gòu)合理性提升明顯。相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,人物和猛犸象具有更好結(jié)構(gòu)合理性。

打開網(wǎng)易新聞 查看精彩圖片

視頻鏈接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw

Prompt: A young girl in a futuristic spacesuit runs across a vast, icy landscape on a distant planet, with a towering mammoth-like creature beside her. The mammoth's massive, shaggy form and long tusks contrast with the stark, alien environment. The sky above is a deep, star-filled space, with distant planets and nebulae visible.

視頻生成模型在動(dòng)態(tài)程度和美學(xué)度都有明顯提升,相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,人物動(dòng)作更加流暢,人物和背景更好美觀。

打開網(wǎng)易新聞 查看精彩圖片

視頻鏈接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw

Prompt: A woman with flowing dark hair and a serene expression sits at a cozy The café, sipping from a steaming ceramic mug. She wears a soft, cream-colored sweater and a light brown scarf, adding to the warm, inviting atmosphere. The The café is dimly lit with soft, ambient lighting, and a few potted plants add a touch of greenery.

相關(guān)內(nèi)容:

[1].Chai, Wenhao, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jenq-Neng Hwang, Saining Xie, and Christopher D. Manning. "Auroracap: Efficient, performant video detailed captioning and a new benchmark." arXiv preprint arXiv:2410.03051 (2024).Project Page:https://wenhaochai.com/aurora-web/

[2].Huang, Ziqi, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang et al. "Vbench: Comprehensive benchmark suite for video generative models." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 21807-21818. 2024.Project Page:https://vchitect.github.io/VBench-project/

[3].Qin, Luozheng, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, and Hao Li. "Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption." arXiv preprint arXiv:2503.09279 (2025).Porject Page:https://sais-fuxi.github.io/projects/cockatiel/

[4].Yang, Xiaomeng, Zhiyu Tan, and Hao Li. "Ipo: Iterative preference optimization for text-to-video generation." arXiv preprint arXiv:2502.02088 (2025). Porject Page:https://yangxlarge.github.io/ipoc//