打開網(wǎng)易新聞 查看精彩圖片

白澤琛,新加坡國(guó)立大學(xué) Show Lab 博士生,他的研究方向主要包括視頻理解和統(tǒng)一的多模態(tài)模型,在 CVPR、ICCV、NeurIPS、ICLR 等會(huì)議發(fā)表多篇文章;曾在 Amazon AI 擔(dān)任 Applied Scientist,在 ByteDance、Baidu 擔(dān)任 Research Intern。

茲海,新加坡國(guó)立大學(xué) Show Lab Research Fellow,于北京大學(xué)獲得博士學(xué)位,主要研究方向?yàn)槎?a class="keyword-search" >模態(tài)模型的安全。

Mike Zheng Shou,PI,新加坡國(guó)立大學(xué)校長(zhǎng)青年教授,福布斯 30 under 30 Asia,創(chuàng)立并領(lǐng)導(dǎo) Show Lab 實(shí)驗(yàn)室。

"當(dāng)物理、生命、地理與社會(huì)規(guī)律被顛覆,多模態(tài)模型(LMMs)是否還能識(shí)別它們的 “不可能性”?"

隨著人工智能合成視頻(AIGC)技術(shù)的飛速發(fā)展,我們正步入一個(gè)由 AI 主導(dǎo)的視頻創(chuàng)作時(shí)代。當(dāng)前的 AI 視頻生成技術(shù)可以逼真地模擬現(xiàn)實(shí)世界,但在 “反現(xiàn)實(shí)”(anti-reality)場(chǎng)景方面仍然存在巨大的探索空間。

來自 NUS 的團(tuán)隊(duì)提出了 Impossible Videos 概念,即那些違背物理、生命、地理或社會(huì)常識(shí)的視頻,并構(gòu)建了 IPV-BENCH,一個(gè)全新的基準(zhǔn),用于評(píng)測(cè) AI 模型在 “反現(xiàn)實(shí)” 視頻生成與理解方面的極限能力。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Impossible Videos
  • 論文鏈接:https://arxiv.org/abs/2503.14378
  • 項(xiàng)目主頁:https://showlab.github.io/Impossible-Videos/
  • 代碼開源:https://github.com/showlab/Impossible-Videos
  • Hugging Face: https://huggingface.co/datasets/showlab/ImpossibleVideos
近千個(gè)反現(xiàn)實(shí)視頻構(gòu)建了「不可能」基準(zhǔn),哪個(gè)AI不服?來戰(zhàn)!
打開網(wǎng)易新聞 查看更多視頻
近千個(gè)反現(xiàn)實(shí)視頻構(gòu)建了「不可能」基準(zhǔn),哪個(gè)AI不服?來戰(zhàn)!

Impossible Videos 示例,包括物理、生物、地理和社會(huì)規(guī)范下的不可能場(chǎng)景

為什么 Impossible Videos 重要?

當(dāng)前的合成視頻數(shù)據(jù)集大多模擬現(xiàn)實(shí)世界,而忽略了真實(shí)世界中不可能發(fā)生的反現(xiàn)實(shí)場(chǎng)景。

我們嘗試回答兩個(gè)核心問題:

1、現(xiàn)有的視頻生成模型是否能按照提示生成高質(zhì)量的 “不可能” 視頻?

2、現(xiàn)有的視頻理解模型是否能夠正確識(shí)別和解釋 “不可能” 視頻?

Impossible Videos 的研究將推動(dòng):

  • 更強(qiáng)大的 AI 視覺推理能力。
  • 更深入的 AI 物理、社會(huì)和常識(shí)性理解。
  • 更安全可控的 AI 內(nèi)容生成能力。

IPV-BENCH:首個(gè) Impossible Video 基準(zhǔn)

我們構(gòu)建了 IPV-BENCH,一個(gè)涵蓋 四大領(lǐng)域(物理、生物、地理、社會(huì)),共 14 個(gè)類別 的基準(zhǔn),用于評(píng)測(cè)視頻模型的生成和理解能力。一共包含 260 個(gè)文本提示,902 個(gè)高質(zhì)量 AI 生成 impossible videos,及相應(yīng)反事實(shí)事件標(biāo)注。與現(xiàn)有其他基準(zhǔn)數(shù)據(jù)集相比,IPV-BENCH 擁有更豐富全面的數(shù)據(jù)模態(tài)及標(biāo)注。

Impossible Videos 分類

打開網(wǎng)易新聞 查看精彩圖片

Benchmark 統(tǒng)計(jì)數(shù)據(jù)

打開網(wǎng)易新聞 查看精彩圖片

關(guān)鍵結(jié)果分析

1. 評(píng)測(cè)主流 AI 視頻生成模型

使用 IPV-BENCH 提供的 260 條文本提示,我們測(cè)試了多個(gè)主流的開源和閉源 AI 視頻生成模型,如 OpenAI Sora、Kling、HunyuanVideo 等。我們提出了評(píng)價(jià)指標(biāo) IPV-Score,綜合考慮生成視頻的視覺質(zhì)量以及提示遵循情況。發(fā)現(xiàn):

  • 大多數(shù)模型難以生成符合 “不可能” 概念的高質(zhì)量視頻。表現(xiàn)最佳的 Mochi 1 也僅在 37.3% 的例子中生成了高質(zhì)量且符合提示要求的 “不可能” 視頻,大多數(shù)模型的成功率徘徊在 20% 左右。
  • 模型在視頻質(zhì)量以及提示遵循兩方面能力不均衡。商業(yè)模型在視覺質(zhì)量上遙遙領(lǐng)先,但是難以嚴(yán)格遵循文本提示生成 “不可能” 事件。開源模型如 Mochi 1 視覺質(zhì)量雖然遜色,但是提示遵循能力遠(yuǎn)強(qiáng)于閉源模型。
  • 影響生成能力的兩點(diǎn)限制:1)“不可能” 的文本提示作為分布外數(shù)據(jù),容易引起 artifacts,造成視頻質(zhì)量下降。2)過度強(qiáng)調(diào)對(duì)事實(shí)規(guī)律的遵循限制了模型的創(chuàng)造力。

打開網(wǎng)易新聞 查看精彩圖片

各視頻生成模型評(píng)估結(jié)果

打開網(wǎng)易新聞 查看精彩圖片

打開網(wǎng)易新聞 查看精彩圖片

視頻生成模型的失敗案例。(上) Mochi 1: A car was driving on a country road when it suddenly began to leave the ground and fly into the sky. (下) Sora: On a city street, a yellow car gradually turns green as it drives.

2. 評(píng)測(cè)主流 AI 視頻理解模型

使用 902 個(gè)高質(zhì)量視頻以及對(duì)應(yīng)的人工標(biāo)注,我們構(gòu)建了三個(gè)不同任務(wù)評(píng)測(cè)主流多模態(tài)理解模型對(duì)超現(xiàn)實(shí)現(xiàn)象的理解能力,包括:1)AI 生成視頻判斷任務(wù)(Judgement),2)“不可能” 事件識(shí)別任務(wù)(選擇題,MC),3)“不可能” 事件描述任務(wù)(自然語言,Open)。

打開網(wǎng)易新聞 查看精彩圖片

“不可能” 事件識(shí)別任務(wù)示例

打開網(wǎng)易新聞 查看精彩圖片

“不可能” 事件描述任務(wù)示例

根據(jù)是否需要時(shí)域線索進(jìn)行判斷,我們將 “不可能” 事件劃分為空域 (Spatial) 和時(shí)域(Temporal)兩類。 分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):

  • 現(xiàn)有模型展示出了對(duì) “不可能” 事件一定程度的理解能力。在 “不可能” 事件識(shí)別任務(wù)(MC)中,現(xiàn)有模型在區(qū)分選項(xiàng)中的不可能事件和其他事件方面展示了較大的潛力。然而,在沒有選項(xiàng)線索的開放描述任務(wù)中(Open),模型從視頻中直接推理并解釋” 不可能” 事件仍舊困難。
  • 物理規(guī)律類視頻的理解更具挑戰(zhàn)、生物、社會(huì)、地理類的視頻理解相對(duì)容易。
  • 現(xiàn)有模型在時(shí)域動(dòng)態(tài)推理方面仍存在不足。模型在時(shí)域任務(wù)上的性能顯著低于在空域任務(wù)上的性能。

打開網(wǎng)易新聞 查看精彩圖片

視頻理解模型在各類別任務(wù)上的表現(xiàn)

打開網(wǎng)易新聞 查看精彩圖片

視頻理解模型在空域和時(shí)域任務(wù)上的表現(xiàn)

總結(jié)與未來方向

  • 首個(gè) Impossible Videos Benchmark: 提供標(biāo)準(zhǔn)化評(píng)測(cè)體系。
  • 新挑戰(zhàn):從反事實(shí)的視角評(píng)測(cè)模型對(duì)現(xiàn)實(shí)世界規(guī)律的理解。
  • 面向未來:當(dāng)前多模態(tài)模型在 “不可能” 事件理解、 時(shí)域推理、反事實(shí)生成 等方面仍存在巨大挑戰(zhàn)?;?Impossible Videos 的數(shù)據(jù)增強(qiáng)、模型微調(diào)等是幫助模型掌握世界規(guī)律的新視角。

參考文獻(xiàn)

[1] Huang, Ziqi, et al. "Vbench: Comprehensive benchmark suite for video generative models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[2] Ye, Junyan, et al. "Loki: A comprehensive synthetic data detection benchmark using large multimodal models." arXiv preprint arXiv:2410.09732 (2024).

[3] Kong, Weijie, et al. "Hunyuanvideo: A systematic framework for large video generative models." arXiv preprint arXiv:2412.03603 (2024).

[4] Bai, Zechen, Hai Ci, and Mike Zheng Shou. "Impossible Videos." arXiv preprint arXiv:2503.14378 (2025).