
新智元報道
編輯:LRST 好困
【新智元導讀】港中文和清華團隊推出Video-R1模型,首次將強化學習的R1范式應用于視頻推理領域。通過升級的T-GRPO算法和混合圖像視頻數(shù)據(jù)集,Video-R1在視頻空間推理測試中超越了GPT-4o,展現(xiàn)了強大的推理能力,并且全部代碼和數(shù)據(jù)集均已開源。
語言模型的推理剛火完,視頻AI也開始「卷」起來了。
這次出手的是港中文+清華組合,直接把強化學習里的R1玩法搬到了視頻領域,整出了全球首個視頻版R1模型:Video-R1。
別看它只有7B參數(shù),但它在李飛飛提出的VSI-Bench基準中,竟然超越了GPT-4o!
這波不是簡單微調。它背后換上了全新的時間感知算法T-GRPO,再配上圖像+視頻混合訓練、兩套高質量數(shù)據(jù)集,硬是把AI的視頻推理能力拉滿,讓模型不止能「看」,更開始「思考」。
而且,全套模型、代碼、數(shù)據(jù)集——已經(jīng)開源了!
視頻大模型的「推理時刻」,已經(jīng)開始。

論文鏈接:https://arxiv.org/abs/2503.21776
項目地址:https://github.com/tulerfeng/Video-R1
知名博主AK也連發(fā)2條推特,推薦這篇論文:

為什么視頻大模型總是「不聰明」?
視頻模型看起來「懂點東西」,其實大多都只是表面功夫。真正讓它們「動腦子」的地方,反而是它們最弱的短板。
研究團隊指出,如果還按照傳統(tǒng)GRPO的套路來訓練AI看視頻,會踩兩個坑:
一個是沒時間概念,模型完全不知道視頻事件的前后邏輯,常?!缚磮D說話」——看到一幀畫面就急著給出答案。這種套路最多就是蒙對幾次,沒法形成真正的因果推理,泛化性差。例如下圖所示。

另一個問題更棘手:訓練數(shù)據(jù)太淺。很多現(xiàn)有視頻數(shù)據(jù)集壓根就不適合教模型「思考」,清一色的識別題,幾乎沒多少需要推理才能解的任務。模型怎么練都只是在死記硬背,根本沒機會練大腦。
所以,視頻大模型「不聰明」,真不是沒潛力,而是沒人教對方法。
一套獎勵機制,把視頻推理訓會了
研究團隊整了個狠招:獎勵機制綁定時間理解。
研究人員把舊版GRPO算法升級成了更懂時序的T-GRPO,直接把「考慮時序」這事寫進了模型的獎勵邏輯里。
方法簡單粗暴又高效——模型每次會收到兩組輸入:一組視頻幀隨機亂序,一組順序。只有當它在「順序」輸入上答對題的比例更高,才會獲得獎勵。
這個機制在「教」模型:別光看圖,推理得講前因后果。哪怕只看了一幀猜對了題,也拿不到分。
在這種嚴格打分機制下,模型終于明白——視頻不是PPT翻頁,而是一個個邏輯線索串起來的故事。
靠混合數(shù)據(jù)打通任督二脈

視頻推理數(shù)據(jù)太稀缺,模型「練不成」?
研究人員干脆把圖像推理數(shù)據(jù)請進視頻訓練流程,做了兩個關鍵數(shù)據(jù)集:一個是圖像為主的Video-R1-COT-165k,專門用來冷啟動模型思維;另一個是以高質量視頻為核心的Video-R1-260k,用來精調強化訓練。
別以為圖片只是打輔助,恰恰相反——它幫AI打好了「邏輯底盤」,學會怎么通用推理;而那些優(yōu)選過的視頻數(shù)據(jù),則進一步逼它理解時間邏輯和動態(tài)變化。
這套圖像+視頻混合訓練方式,不光解決了數(shù)據(jù)稀缺,還真讓模型形成了從「看圖說話」到「視頻深思」的進階跳躍,真正打通了多模態(tài)理解的任督二脈。
視頻推理的「aha moment」
Video-R1在推理過程中,竟然出現(xiàn)了類似人類的「頓悟時刻」——那種突然把所有線索串起來、恍然大悟的瞬間,也被稱為「aha moment」。
比如有一道題是:哪個動作會導致系統(tǒng)能量損耗?另一個是:看完一段室內(nèi)漫游視頻,推理出從書柜走到浴缸的路徑。
換做以前的模型,十有八九就是「看一眼」就開答,但Video-R1卻能一步步分析時序,進行推理,最終給出邏輯閉環(huán)的準確回答。
這不是死記硬背,而是推理真正生效的信號。AI第一次表現(xiàn)出:它不只是識圖,而是在「思考」視頻里發(fā)生了什么。


實驗結果

在多個視頻推理測試基準上,這個Video-R1-7B模型幾乎場場領先,尤其在李飛飛提出的VSI-Bench這一權威評測中,它拿下了35.8%的準確率,超越了閉源頂尖大模型GPT-4o。
不僅如此,RL和傳統(tǒng)SFT之間的差距也被拉開了。比如同樣是7B體量的Qwen2.5-VL-SFT,在測試中表現(xiàn)不佳。反觀Video-R1,則在幾乎所有場景中都穩(wěn)定輸出,泛化能力一騎絕塵。

還有一個非常關鍵的發(fā)現(xiàn):幀數(shù)越多,推理越準。當模型輸入的視頻幀數(shù)從16增加到32,再到64,測試表現(xiàn)都跟著上臺階。這說明,對時間線的理解力,正是視頻推理模型的決勝點——誰能處理更長的視頻,誰就更有未來。

團隊還做了一組消融實驗,直接「抽掉」圖像數(shù)據(jù)訓練、再試試砍掉時間建模模塊,結果都一樣——模型性能明顯下滑。這直接驗證了一件事:Video-R1的每一塊設計都打在了點子上。

不僅如此,從訓練動態(tài)中也能看出門道。隨著強化學習的推進,模型獲得的準確率獎勵和時間獎勵在持續(xù)上升,說明它不僅越來越會答題,還越來越懂得「時間邏輯」這回事。
有意思的是,模型在訓練早期輸出的回答變短了——這是在主動拋棄之前SFT里學到的次優(yōu)推理模式;但隨著訓練推進,輸出逐漸恢復并穩(wěn)定,形成了一套更高效、更具邏輯的表達路徑。
Video-R1用實力證明:強化學習不只是NLP的專利,視頻大模型也能玩出推理力。
它不靠「堆料」,靠的是機制設計和訓練策略,并且全套開源。
R1的推理范式,正在把下一場AI革命,從文本世界帶進了每一幀畫面里。
視頻推理的時代,真的來了。
參考資料:
https://arxiv.org/abs/2503.21776
熱門跟貼