視頻作為一種富含信息且密集的媒介,已廣泛應(yīng)用于娛樂(lè)、社交媒體、安全監(jiān)控和自動(dòng)駕駛等領(lǐng)域。人類能夠輕松理解視頻內(nèi)容,例如理解因果關(guān)系、定位特定時(shí)刻以及關(guān)聯(lián)動(dòng)作。

但是人工智能,尤其是大型語(yǔ)言模型(LLM)及其多模態(tài)(MLLM)變體,在視頻理解方面仍然面臨挑戰(zhàn),尤其是在處理長(zhǎng)視頻時(shí)。盡管像 GPT-4V 或 Claude 這樣的模型可以詳細(xì)描述圖像或短片,但在需要根據(jù)長(zhǎng)序列中特定時(shí)間間隔推斷事件時(shí),它們往往表現(xiàn)不佳。它們雖然可以提供籠統(tǒng)的總結(jié),但難以精確定位事件發(fā)生的時(shí)刻,或理解事件之間的因果關(guān)系。標(biāo)準(zhǔn)的 Chain-of-Thought (CoT) 技術(shù)在基于文本的推理中表現(xiàn)出色,但在需要將“思考”與精確時(shí)間相關(guān)聯(lián)的視覺(jué)證據(jù)時(shí),會(huì)遇到困難。

視頻不僅僅是一系列靜態(tài)圖像,它還包含一個(gè)至關(guān)重要的時(shí)間維度。理解視頻不僅需要識(shí)別“正在發(fā)生什么”,還需要識(shí)別“何時(shí)發(fā)生”、“持續(xù)多久”以及“與什么相關(guān)”。當(dāng)前的 MLLM 通常通過(guò)抽樣幀來(lái)處理視頻,這可能會(huì)錯(cuò)過(guò)關(guān)鍵時(shí)刻或難以在較長(zhǎng)時(shí)間內(nèi)保持上下文。它們?nèi)狈σ环N強(qiáng)大的時(shí)間定位機(jī)制,無(wú)法將推理和答案明確地鏈接回視頻中特定的、可驗(yàn)證的時(shí)間段。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 1:VideoMind 的 Chain-of-LoRA 推理策略應(yīng)用于一個(gè) 50 分鐘長(zhǎng)視頻的復(fù)雜問(wèn)題。問(wèn)題由 Planner 分解,并分發(fā)給 Grounder、Verifier 和 Answerer,以系統(tǒng)地定位、驗(yàn)證和解釋相關(guān)的視頻時(shí)刻。與純文本 CoT 過(guò)程相比,這種基于角色的管道能夠?qū)崿F(xiàn)更像人類的視頻推理。

VideoMind是一種專為應(yīng)對(duì)長(zhǎng)視頻中時(shí)間定位理解挑戰(zhàn)而設(shè)計(jì)的新型視頻語(yǔ)言代理。它不僅“觀看”視頻,還“分析”視頻,采用一種結(jié)合了專門(mén)角色和名為Chain-of-LoRA的創(chuàng)新技術(shù)的策略。

本文將深入探討 VideoMind,分析其克服的局限性,剖析其獨(dú)特的代理工作流程,揭示 Chain-of-LoRA 機(jī)制,介紹其采用的專業(yè) AI“角色”,評(píng)估其性能,并討論其對(duì) AI 發(fā)展的更廣泛影響。

時(shí)間盲點(diǎn):長(zhǎng)視頻為何使 AI 模型失效

試圖通過(guò)觀看隨機(jī)快照或閱讀沒(méi)有提及關(guān)鍵事件發(fā)生時(shí)間的文本摘要來(lái)理解復(fù)雜電影的情節(jié),可能會(huì)導(dǎo)致對(duì)情節(jié)的模糊理解,并錯(cuò)過(guò)細(xì)微之處和因果關(guān)系。這類似于當(dāng)前許多 AI 模型在處理長(zhǎng)視頻時(shí)遇到的困難。

以下是導(dǎo)致這種“時(shí)間盲點(diǎn)”的核心挑戰(zhàn):

數(shù)據(jù)量巨大:長(zhǎng)視頻包含大量信息,處理每一幀在計(jì)算上是不可行的。模型通常采用抽樣幀的方法,但這可能會(huì)錯(cuò)過(guò)關(guān)鍵事件,例如體育比賽中快速的動(dòng)作或改變對(duì)話含義的表情。

長(zhǎng)程上下文維護(hù):Transformer 架構(gòu)是大多數(shù) LLM/MLLM 的基礎(chǔ),但在處理極長(zhǎng)序列時(shí)存在局限性,因?yàn)橛?jì)算復(fù)雜度高。盡管稀疏注意力和線性 Transformer 等技術(shù)有所幫助,但在幾十分鐘或幾小時(shí)內(nèi)保持精確的時(shí)間關(guān)系和依賴性仍然困難。模型可能會(huì)忘記之前發(fā)生的事情,或難以將相隔很長(zhǎng)時(shí)間的事件聯(lián)系起來(lái)。

精確對(duì)齊需求:與回答整個(gè)圖像相關(guān)的圖像問(wèn)答不同,視頻問(wèn)答通常需要精確定位事件發(fā)生的時(shí)間。例如,對(duì)于問(wèn)題“這個(gè)人什么時(shí)候踩到香蕉皮滑倒的?”,籠統(tǒng)的答案“這個(gè)人摔倒了”是不夠的,答案需要與特定的時(shí)間戳或時(shí)間間隔對(duì)齊。

文本 CoT 的局限性:Chain-of-Thought 推理可以幫助 LLM 逐步分解復(fù)雜的問(wèn)題。將其直接應(yīng)用于視頻通常會(huì)導(dǎo)致一個(gè)純粹的文本推理鏈,而該鏈并沒(méi)有明確地鏈接回時(shí)間上的視覺(jué)證據(jù)。模型可能推斷出兔子聚集在一起的原因,但難以說(shuō)明“我得出這個(gè)結(jié)論是因?yàn)槲矣^察到男孩在 [X, Y] 時(shí)間段分發(fā)食物”,因?yàn)樗狈煽康卣业皆摃r(shí)間段的機(jī)制。

模糊性和細(xì)微差別:視頻通常包含多個(gè)類似事件的發(fā)生,或需要仔細(xì)觀察才能正確解釋的事件。模型可能會(huì)找到兔子聚集的一個(gè)時(shí)刻,但它是否是用戶詢問(wèn)的相關(guān)時(shí)刻?這需要不僅找到潛在的時(shí)刻,還要驗(yàn)證它們的關(guān)聯(lián)性和準(zhǔn)確性。

這些挑戰(zhàn)表明,簡(jiǎn)單地?cái)U(kuò)大現(xiàn)有 MLLM 的規(guī)?;驊?yīng)用標(biāo)準(zhǔn)的推理技術(shù),對(duì)于需要深入的時(shí)間定位的視頻理解任務(wù)來(lái)說(shuō),通常會(huì)產(chǎn)生不理想的結(jié)果。因此,需要一種從根本上不同的方法,明確地處理時(shí)間維度,并模仿人類使用的分析過(guò)程。

VideoMind:一種模仿人類視頻理解的 AI 代理

VideoMind 采用一種具有四個(gè)不同角色的代理工作流程來(lái)實(shí)現(xiàn)視頻理解:

  • Planner(計(jì)劃者):協(xié)調(diào)員,負(fù)責(zé)分析用戶查詢,并確定回答查詢的最佳行動(dòng)順序,以有效地回答問(wèn)題。
  • Grounder(定位器):時(shí)間定位器,負(fù)責(zé)根據(jù)文本描述(由 Planner 或原始查詢提供)精確地定位視頻中的相關(guān)時(shí)刻或時(shí)間間隔。
  • Verifier(驗(yàn)證器):事實(shí)核查員,負(fù)責(zé)獲取 Grounder 識(shí)別出的候選時(shí)刻,并仔細(xì)檢查它們,以確認(rèn)它們的準(zhǔn)確性和相關(guān)性。
  • Answerer(回答者):溝通者,基于經(jīng)過(guò)驗(yàn)證的證據(jù)(特定的視頻片段),生成對(duì)用戶問(wèn)題的最終答案。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 2:VideoMind 的整體工作流程。給定一個(gè)視頻和一個(gè)查詢,VideoMind 自適應(yīng)地激活不同的角色(在本例中為 Planner → Grounder → Verifier → Answerer),并通過(guò)調(diào)用各個(gè)模塊執(zhí)行逐步推理。

這種基于角色的方法允許每個(gè)組件高度專業(yè)化,并針對(duì)其特定的子任務(wù)進(jìn)行優(yōu)化。Planner 確保靈活性,根據(jù)查詢的性質(zhì)調(diào)整工作流程。Grounder 專注于時(shí)間定位,而 Verifier 則專注于準(zhǔn)確性檢查。

VideoMind 的核心創(chuàng)新在于Chain-of-LoRA,它能夠在沒(méi)有運(yùn)行四個(gè)獨(dú)立的、大型 AI 模型開(kāi)銷的情況下高效地實(shí)現(xiàn)這些角色的協(xié)作。

Chain-of-LoRA:技術(shù)詳解

Chain-of-LoRA 采用類似于多功能工具的 AI 模型原理。它使用一個(gè)可以接受各種輕量級(jí)附件的單一多功能手柄,而不是攜帶一個(gè)裝滿笨重工具的工具箱。

LoRA 簡(jiǎn)介

LoRA(Low-Rank Adaptation,低秩適應(yīng))是一種用于微調(diào)大型預(yù)訓(xùn)練模型(如 LLM 或 MLLM)的技術(shù)。LoRA 不是重新訓(xùn)練模型中所有參數(shù),而是在原始模型的特定層(通常是注意力層)中注入少量新的、可訓(xùn)練的參數(shù),這些參數(shù)采用低秩矩陣的形式。原始模型權(quán)重保持凍結(jié),僅更新這些小的 LoRA 適配器。這降低了計(jì)算成本、縮短了訓(xùn)練時(shí)間,并減少了存儲(chǔ)需求。

Chain-of-LoRA 詳解

VideoMind 利用 LoRA 的效率,并為其代理工作流程中的不同角色(Planner、Grounder、Verifier)訓(xùn)練單獨(dú)的適配器。所有這些角色都在同一個(gè)基礎(chǔ) MLLM 上運(yùn)行(在論文的實(shí)現(xiàn)中,具體來(lái)說(shuō)是 Qwen2-VL)。

以下是 Chain-of-LoRA 在推理期間的工作方式:

基礎(chǔ)模型:VideoMind 從預(yù)訓(xùn)練的 Qwen2-VL 模型開(kāi)始。

角色激活:當(dāng)需要特定角色時(shí)(由 Planner 確定),其相應(yīng)的預(yù)訓(xùn)練 LoRA 適配器會(huì)被動(dòng)態(tài)“激活”或“插入”到基礎(chǔ)模型的層中。

專業(yè)處理:基礎(chǔ)模型現(xiàn)在由活動(dòng)角色的 LoRA 適配器增強(qiáng),執(zhí)行該角色的專業(yè)功能(例如,Grounder LoRA 幫助模型專注于時(shí)間定位)。

角色切換:當(dāng)工作流程需要下一個(gè)角色時(shí),先前的 LoRA 適配器會(huì)被停用,而新角色的適配器會(huì)被激活。這種切換是無(wú)縫的,并且計(jì)算成本很低。

執(zhí)行鏈:這種動(dòng)態(tài)激活和切換會(huì)按照計(jì)劃繼續(xù)進(jìn)行,形成“Chain-of-LoRA”執(zhí)行流程。

Chain-of-LoRA 的優(yōu)勢(shì)

效率:避免了為每個(gè)角色加載和運(yùn)行多個(gè)不同的大型模型的計(jì)算和內(nèi)存開(kāi)銷,以最少的額外參數(shù)實(shí)現(xiàn)了功能專業(yè)化。消融研究表明,Chain-of-LoRA 以與單個(gè)基礎(chǔ)模型相同的低內(nèi)存占用(4.2G)實(shí)現(xiàn)了最佳性能,而使用單獨(dú)模型的分布式方法需要更多的內(nèi)存(16.6G)。

靈活性:Planner 可以根據(jù)查詢動(dòng)態(tài)地以不同的順序鏈接角色,從而動(dòng)態(tài)地調(diào)整推理過(guò)程。

有效性:允許使用其專門(mén)的 LoRA 適配器微調(diào)每個(gè)角色,優(yōu)化每個(gè)子任務(wù)(計(jì)劃、定位、驗(yàn)證)的性能,而不是試圖讓單個(gè)模型同時(shí)完成所有任務(wù)或僅僅依賴于文本 CoT。

極簡(jiǎn)主義:通過(guò)巧妙地調(diào)整單個(gè)核心模型來(lái)實(shí)現(xiàn)復(fù)雜的行為。

Chain-of-LoRA 是架構(gòu)支柱,它以高效和有效的方式實(shí)現(xiàn)了 VideoMind 復(fù)雜的、多步驟推理過(guò)程。它有力地證明了輕量級(jí)自適應(yīng)技術(shù)如何能夠釋放大型模型中復(fù)雜的代理行為。

VideoMind 的角色詳解

下面將更仔細(xì)地了解 VideoMind 代理中的每個(gè)專業(yè)角色。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 3:VideoMind 工作流程的可視化。Planner 首先確定對(duì)函數(shù)調(diào)用的需求,并使用 Grounder 生成多個(gè)候選時(shí)刻。然后,它應(yīng)用 Verifier 來(lái)選擇最相關(guān)的視頻片段(以黃色突出顯示)。放大后,該片段將傳遞給 Answerer。通過(guò)鏈接 Grounder、Verifier 和 Answerer 角色,VideoMind 可以準(zhǔn)確定位關(guān)鍵時(shí)刻并選擇正確的答案,從而避免了來(lái)自不正確片段的混淆(紅色框)。

Planner(計(jì)劃者):協(xié)調(diào)分析

充當(dāng)中央?yún)f(xié)調(diào)員,理解用戶的查詢,并通過(guò)決定調(diào)用哪些角色以及以什么順序調(diào)用來(lái)制定最佳執(zhí)行計(jì)劃。

工作方式:

  • 將視頻和用戶的文本查詢作為輸入。
  • 分析查詢以確定所需的功能,例如是否需要定位或驗(yàn)證。
  • 輸出一個(gè)計(jì)劃,該計(jì)劃被制定為 JSON 動(dòng)作列表。該論文確定了三個(gè)主要計(jì)劃:
  • [Grounder, Verifier, Answerer]:對(duì)于在回答之前需要精確定位和驗(yàn)證的復(fù)雜查詢(例如,“當(dāng)嬰兒哭泣時(shí),男孩在做什么?”)。
  • [Grounder, Verifier]:對(duì)于答案是時(shí)間戳的時(shí)刻檢索任務(wù)(例如,“女人什么時(shí)候下樓?”)。
  • [Answerer]:對(duì)于不需要特定時(shí)刻定位的簡(jiǎn)單問(wèn)題(例如,“總結(jié)此視頻”)。
  • 查詢改寫(xiě):如果原始查詢含糊不清或缺乏有效定位的細(xì)節(jié),Planner 可以將其改寫(xiě)為更適合 Grounder 的描述性查詢。這是使用 GPT-40 mini 訓(xùn)練的,以生成查詢改寫(xiě)對(duì)。

訓(xùn)練:使用其特定的 Planner LoRA 適配器進(jìn)行微調(diào),使用從 NExT-QA 和 QVHighlights 等數(shù)據(jù)集中重新利用的數(shù)據(jù),將問(wèn)題映射到適當(dāng)?shù)挠?jì)劃和潛在的改寫(xiě)。

Grounder(定位器):精確定位時(shí)間點(diǎn)

核心時(shí)間定位引擎,給定文本描述(查詢),識(shí)別視頻中相應(yīng)事件的開(kāi)始和結(jié)束時(shí)間戳。

工作方式(技術(shù)細(xì)節(jié)):

  • 時(shí)間戳解碼器頭:一個(gè)自定義解碼器頭構(gòu)建在基礎(chǔ) MLLM 功能之上,不依賴于 LLM 的文本生成功能來(lái)獲取時(shí)間戳。
  • 特殊 Token :引入了一個(gè)特殊 token ,當(dāng) LLM 生成此 token 時(shí),它會(huì)發(fā)出執(zhí)行定位的信號(hào)。
  • 特征提?。?/strong>與 token(表示查詢)和視覺(jué) token(表示視頻幀)關(guān)聯(lián)的隱藏狀態(tài)從 MLLM 的最后一層提取。
  • 時(shí)間特征金字塔:視覺(jué)特征通過(guò) 1D 卷積金字塔處理,以捕獲多個(gè)時(shí)間分辨率的信息,創(chuàng)建視頻時(shí)間動(dòng)態(tài)的多尺度表示。
  • 集成與解碼:查詢特征和多尺度視頻特征(以及模態(tài)和位置嵌入)被饋送到 Transformer 解碼器中。
  • 密集預(yù)測(cè)頭:兩個(gè)頭對(duì)輸出進(jìn)行操作:
  • 分類頭:預(yù)測(cè)幀級(jí)別置信度分?jǐn)?shù)(此幀是否在目標(biāo)時(shí)刻內(nèi)?),使用二元焦點(diǎn)損失進(jìn)行優(yōu)化。
  • 回歸頭:預(yù)測(cè)從每幀到目標(biāo)時(shí)刻的開(kāi)始和結(jié)束邊界的偏移量,使用 L1 損失進(jìn)行優(yōu)化。
  • 對(duì)比損失:鼓勵(lì)在目標(biāo)時(shí)刻內(nèi)的幀的特征比在時(shí)刻外的幀的特征更類似于查詢特征,從而改善對(duì)齊。

訓(xùn)練:Grounder LoRA 適配器和時(shí)間戳解碼器在各種時(shí)間定位數(shù)據(jù)集(QVHighlights、DiDeMo、TACOS 等)的集合上一起訓(xùn)練。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 4:VideoMind 的監(jiān)督微調(diào)數(shù)據(jù)集。計(jì)劃數(shù)據(jù)集是從 NExT-QA 和 QVHighlights 重新利用的。驗(yàn)證數(shù)據(jù)集是從預(yù)訓(xùn)練的 Grounder 的預(yù)測(cè)生成的。mr 和 step 分別表示 HiREST 的時(shí)刻檢索和步驟定位子集。

采用這種方法的原因:與依賴于可能脆弱的時(shí)間戳字符串的文本生成相比,直接從豐富的視覺(jué)和查詢特征解碼時(shí)間戳可以實(shí)現(xiàn)更精確和魯棒的定位。多尺度金字塔有助于處理不同持續(xù)時(shí)間的事件。

Verifier(驗(yàn)證器):通過(guò)仔細(xì)觀察確保準(zhǔn)確性

充當(dāng)質(zhì)量控制步驟,評(píng)估 Grounder 提出的候選時(shí)刻,并選擇最準(zhǔn)確和相關(guān)的時(shí)刻。

工作方式:

  • Top-N 候選:接收來(lái)自 Grounder 的前 N 個(gè)候選時(shí)刻。
  • 通過(guò)放大進(jìn)行回顧:對(duì)于每個(gè)候選時(shí)刻:
  • 擴(kuò)展:時(shí)間邊界略有擴(kuò)展。
  • 裁剪:視頻在時(shí)間上被裁剪為此擴(kuò)展的片段。
  • 提高分辨率:可能會(huì)提高此裁剪片段中幀的空間分辨率。
  • 這種“放大”使 Verifier 能夠以更高的保真度和更多的周圍上下文檢查關(guān)鍵時(shí)刻。
  • 布爾判斷:放大后的視頻片段和原始查詢被饋送到 Verifier,要求它判斷此片段是否完美地覆蓋查詢的時(shí)刻。特殊 token(
  • )被插入到視覺(jué) token 序列中,以明確標(biāo)記擴(kuò)展片段中原始提議的邊界,從而增強(qiáng)邊界意識(shí)。Verifier 輸出“是”或“否”。
  • 評(píng)分和選擇:該模型計(jì)算生成 token (Ly) 和 token (Ln) 的可能性。候選者的置信度分?jǐn)?shù)為 Sigmoid(Ly — Ln)。選擇具有最高置信度分?jǐn)?shù)的候選時(shí)刻作為最終定位的時(shí)刻。

訓(xùn)練:Verifier LoRA 在通過(guò)獲取 Grounder 在其訓(xùn)練集上的預(yù)測(cè)并根據(jù)它們與真實(shí)時(shí)間戳的 Intersection-over-Union (IoU) 將它們標(biāo)記為“是”或“否”來(lái)生成的數(shù)據(jù)上進(jìn)行微調(diào)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 5:Grounder 生成多個(gè)候選時(shí)刻,然后通過(guò)應(yīng)用放大策略并由 Verifier 評(píng)估來(lái)優(yōu)化這些時(shí)刻,以選擇最佳時(shí)刻。

Answerer(回答者):傳達(dá)發(fā)現(xiàn)

生成對(duì)原始查詢的最終答案。

工作方式:

  • 接收由 Verifier 識(shí)別的經(jīng)過(guò)驗(yàn)證的視頻片段(如果 Planner 確定不需要定位,則接收整個(gè)視頻)。
  • 接收原始用戶查詢。
  • 直接使用基礎(chǔ)預(yù)訓(xùn)練的 MLLM (Qwen2-VL),沒(méi)有任何特定的 Answerer LoRA 或進(jìn)一步的微調(diào)。
  • 根據(jù)提供的視覺(jué)證據(jù)生成自然語(yǔ)言答案。

沒(méi)有 LoRA 的原因:假設(shè)是,當(dāng)提供正確的視覺(jué)上下文時(shí),基礎(chǔ) MLLM 已經(jīng)非常擅長(zhǎng)問(wèn)答。其他角色解決的關(guān)鍵挑戰(zhàn)是查找和驗(yàn)證該上下文。

通過(guò) Chain-of-LoRA 機(jī)制結(jié)合這些專業(yè)角色,VideoMind 實(shí)現(xiàn)了一個(gè)復(fù)雜的推理過(guò)程,該過(guò)程直接解決了長(zhǎng)視頻中時(shí)間定位的挑戰(zhàn)。

VideoMind 的性能評(píng)估

VideoMind 研究人員在 14 個(gè)不同的公共基準(zhǔn)上進(jìn)行了實(shí)驗(yàn),涵蓋了視頻理解任務(wù)的三個(gè)主要類別:

  1. Grounded Video Question-Answering (Grounded VideoQA):需要回答問(wèn)題并提供特定時(shí)間間隔作為證據(jù)的任務(wù)。
  2. Video Temporal Grounding (VTG):專注于定位文本查詢描述的時(shí)刻的任務(wù)。
  3. General Video Question-Answering (General VideoQA):標(biāo)準(zhǔn)視頻 QA 任務(wù),通常在較長(zhǎng)的視頻上進(jìn)行,其中時(shí)間理解仍然有益。

實(shí)驗(yàn)結(jié)果表明:

  • 最先進(jìn)的性能:VideoMind 在所有三個(gè)類別中的眾多基準(zhǔn)上都實(shí)現(xiàn)了 SOTA 結(jié)果。
  • 在長(zhǎng)視頻定位中的優(yōu)勢(shì):在具有挑戰(zhàn)性的長(zhǎng)視頻定位 QA 基準(zhǔn)(如 CG-Bench)上,VideoMind 明顯優(yōu)于以前的開(kāi)源模型。值得注意的是,VideoMind 的 7B 參數(shù)版本超過(guò)了更大的閉源 GPT-4o 的定位性能,甚至輕量級(jí) 2B VideoMind 模型在定位指標(biāo)方面也與許多更大的模型具有競(jìng)爭(zhēng)力或更好。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 6:CG-Bench 上的 Grounded VideoQA。盡管尺寸較小,但 VideoMind 在這個(gè)具有挑戰(zhàn)性的長(zhǎng)視頻基準(zhǔn)上超過(guò)了 GPT-4o 和開(kāi)源基線。

  • 強(qiáng)大的泛化能力:在 ReXTime 上,VideoMind 展示了出色的零樣本性能,優(yōu)于其他零樣本模型,甚至超過(guò)了已在該任務(wù)上進(jìn)行微調(diào)的幾個(gè)模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 7:ReXTime 上的 Grounded VideoQA。FT 表示是否在下游訓(xùn)練集上進(jìn)行了微調(diào)。VideoMind 展示了強(qiáng)大的泛化能力;其零樣本分?jǐn)?shù)優(yōu)于所有零樣本基線,并超過(guò)了微調(diào)變體。

  • 零樣本時(shí)間定位能力:當(dāng)僅在時(shí)間定位任務(wù)上進(jìn)行評(píng)估時(shí),VideoMind 的 Grounder 和 Verifier 組合實(shí)現(xiàn)了令人印象深刻的零樣本結(jié)果,超過(guò)了許多基于 LLM 的專用定位方法,并且接近在這些數(shù)據(jù)集上明確微調(diào)的專家的性能。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 8:CharadesSTA 上的零樣本視頻時(shí)間定位。VideoMind 明顯優(yōu)于同類產(chǎn)品。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 9:ActivityNetCaptions 上的零樣本視頻時(shí)間定位。VideoMind 優(yōu)于基于 LLM 的方法。

  • 提升通用 VideoQA:即使在通用 VideoQA 基準(zhǔn)上,與其他 MLLM 相比,VideoMind 也表現(xiàn)出卓越的性能。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 10:Video-MME、MLVU 和 LVBench 上的 VideoQA。VideoMind 在長(zhǎng)視頻上表現(xiàn)出卓越的性能。

  • 效率驗(yàn)證:消融研究證實(shí),Chain-of-LoRA 方法在提供最佳性能的同時(shí),還具有很高的內(nèi)存效率,明顯優(yōu)于樸素 CoT 或在單個(gè)模型上的標(biāo)準(zhǔn)多任務(wù)訓(xùn)練,并且與更重的分布式模型設(shè)置的性能相匹配。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 11:用于研究具有不同角色集成的測(cè)試時(shí)間策略的關(guān)鍵消融,包括基礎(chǔ)模型、使用文本 CoT 的版本以及集成多個(gè)角色的三種實(shí)現(xiàn)。Mem. 表示 GPU 內(nèi)存使用情況。值得注意的是,Chain-ofLoRA 以最小的內(nèi)存成本實(shí)現(xiàn)了最佳性能。

這些結(jié)果表明,VideoMind 的代理工作流程和 Chain-of-LoRA 策略對(duì)于解決視頻中時(shí)間推理的細(xì)微差別非常有效,尤其是在以前的模型難以處理的長(zhǎng)時(shí)間內(nèi)。

技術(shù)細(xì)節(jié)

時(shí)間戳解碼器

  • 輸入:采用 token (hr) 的 1 x D 維隱藏狀態(tài)和幀 token (hv,在 1D 池化到 T x DL 之后) 的 T x D 維隱藏狀態(tài)。
  • 投影:線性層 Er 和 Ev 將這些投影到維度 D。
  • 集成 Transformer:在將可學(xué)習(xí)的模態(tài)嵌入 (mr, mv) 和正弦位置編碼 (ep) 添加到幀嵌入后,將投影的查詢嵌入 (er) 和幀嵌入 (ev) 連接起來(lái)。此組合序列 [ev + mv + ep; er + mr] 通過(guò)標(biāo)準(zhǔn) Transformer 編碼器饋送。
  • 時(shí)間特征金字塔:輸出幀嵌入 (e’v) 通過(guò)并行 Conv1D-LayerNorm-SiLU 塊傳遞。每個(gè)級(jí)別應(yīng)用步幅為 2 的卷積,有效地將時(shí)間分辨率下采樣 2。使用 4 個(gè)級(jí)別創(chuàng)建以 T、T/2、T/4 和 T/8 分辨率捕獲動(dòng)態(tài)的特征。
  • 連接和預(yù)測(cè):來(lái)自所有金字塔級(jí)別的特征沿時(shí)間維度連接成長(zhǎng)度為 L = T + T/2 + T/4 + T/8 的單個(gè)序列 p。此組合特征圖被饋送到分類 (CLS) 和回歸 (REG) 頭。
  • CLS 頭:兩個(gè) Conv1D 層 + Sigmoid,輸出幀級(jí)別置信度 ?i。損失:二元焦點(diǎn)損失。
  • REG 頭:兩個(gè) Conv1D 層 + 指數(shù)激活,輸出每幀的開(kāi)始/結(jié)束邊界偏移量 [bi_s, bi_e]。損失:L1 損失。
  • 對(duì)比損失:計(jì)算上下文查詢嵌入 (e’r) 和所有上下文幀嵌入 (e’v) 之間的余弦相似度。使用 InfoNCE 損失將正幀特征(在真實(shí)值內(nèi))拉近到查詢特征,而不是負(fù)幀特征。L = Lcls + Lreg + Lcon。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 12:時(shí)間戳解碼器的詳細(xì)架構(gòu)。此模塊接受幀 token 和 token 的隱藏狀態(tài),將它們解碼為開(kāi)始和結(jié)束時(shí)間戳。

驗(yàn)證器的評(píng)分

驗(yàn)證器使用以下公式計(jì)算置信度分?jǐn)?shù):Score = Sigmoid(Ly — Ln)。此分?jǐn)?shù)衡量了模型對(duì)該特定候選時(shí)刻的“是”的置信度比“否”高多少。

Chain-of-LoRA 實(shí)現(xiàn)

該機(jī)制涉及為 Planner、Grounder 和 Verifier 角色的基礎(chǔ) Qwen2-VL 模型的層訓(xùn)練單獨(dú)的 LoRA 權(quán)重(適配器矩陣)。

def videomind_inference(video V, query Q):
# 1. Planning (using Planner LoRA)
plan = Planner.generate_plan(V, Q) # e.g., ["grounder", "verifier", "answerer"]
rephrased_query = plan.get_rephrased_query_if_any(Q) # Optional
grounded_moment = None
verified_segment = V # Default to whole video
# 2. Grounding (if needed)
if "grounder" in plan:
# Activate Grounder LoRA
candidate_moments = Grounder.localize_moments(V, rephrased_query or Q) # List of [ts, te]
# Deactivate Grounder LoRA
# 3. Verification (if needed)
if "verifier" in plan:
# Activate Verifier LoRA
best_moment_index = -1
best_score = -1
scores = []
zoomed_segments = []
for i, moment in enumerate(candidate_moments):
# Apply Recap-by-ZoomIn
zoomed_segment_i = Verifier.zoom_in(V, moment)
zoomed_segments.append(zoomed_segment_i)
# Get Yes/No likelihoods and calculate score
score_i = Verifier.calculate_confidence(zoomed_segment_i, Q, moment)
scores.append(score_i)
if score_i > best_score:
best_score = score_i
best_moment_index = i
grounded_moment = candidate_moments[best_moment_index]
verified_segment = zoomed_segments[best_moment_index]
# Deactivate Verifier LoRA
# 4. Answering (if needed)
final_answer = "Grounding complete." # Default if no answerer
if "answerer" in plan:
# Use BASE MLLM (no specific LoRA)
final_answer = Answerer.generate_answer(verified_segment, Q)
return final_answer, grounded_moment

總結(jié)

VideoMind 通過(guò)結(jié)合受人類啟發(fā)的代理工作流程與 Chain-of-LoRA 技術(shù),使 AI 模型具備了計(jì)劃、定位、驗(yàn)證和解釋基于特定視頻時(shí)刻的事件所需的專業(yè)技能。

VideoMind 推動(dòng)了多模態(tài) AI 的發(fā)展,為構(gòu)建更復(fù)雜、高效和上下文感知的系統(tǒng)提供了藍(lán)圖。

https://avoid.overfit.cn/post/8155100cbbd041e28439d64974789287