始智AI wisemodel.cn開(kāi)源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)。正在,歡迎加入共同成長(zhǎng)。wisemodel社區(qū)上線,最新上線4090資源不限量,價(jià)格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。

GPT-4o的問(wèn)世引發(fā)了研究者們對(duì)實(shí)現(xiàn)全模態(tài)模型的濃厚興趣。盡管目前已經(jīng)出現(xiàn)了一些開(kāi)源替代方案,但在性能方面,它們與專門的單模態(tài)模型相比仍存在明顯差距。

研究團(tuán)隊(duì)提出了Ola模型,這是一款全模態(tài)模型,與同類的專門模型相比,它在圖像、視頻和音頻理解等多個(gè)方面都展現(xiàn)出了頗具競(jìng)爭(zhēng)力的性能。

Ola 的核心設(shè)計(jì)在于其漸進(jìn)式模態(tài)對(duì)齊策略,該策略逐步擴(kuò)展語(yǔ)言模型所支持的模態(tài)。訓(xùn)練流程從差異最為顯著的模態(tài)開(kāi)始:圖像和文本,隨后借助連接語(yǔ)言與音頻知識(shí)的語(yǔ)音數(shù)據(jù),以及連接所有模態(tài)的視頻數(shù)據(jù),逐步拓展模型的技能集。

這種漸進(jìn)式學(xué)習(xí)流程能夠?qū)⒖缒B(tài)對(duì)齊數(shù)據(jù)維持在相對(duì)較小的規(guī)模,從而讓基于現(xiàn)有視覺(jué)-語(yǔ)言模型開(kāi)發(fā)全模態(tài)模型變得更為輕松且成本更低。OLa-7B已上線始智AI-wisemodel開(kāi)源社區(qū),歡迎體驗(yàn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

模型地址

https://www.wisemodel.cn/models/yuhaodong/Ola

Ola模型大幅度推動(dòng)了全模態(tài)模型在圖像、視頻和音頻理解評(píng)測(cè)基準(zhǔn)中的能力上限。研究團(tuán)隊(duì)在涵蓋圖像、視頻和音頻等方面的完整全模態(tài)基準(zhǔn)測(cè)試下,Ola作為一個(gè)僅含有7B參數(shù)的全模態(tài)模型,實(shí)現(xiàn)了對(duì)主流專有模型的超越。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖1:Ola全模態(tài)模型超越Qwen2.5-VL、InternVL2.5等主流多模態(tài)模型

在圖像基準(zhǔn)測(cè)試方面,在極具挑戰(zhàn)性的OpenCompass基準(zhǔn)測(cè)試中,其在MMBench-1.1、MMMU等8個(gè)數(shù)據(jù)集上的總體平均準(zhǔn)確率達(dá)到72.6%,在市面上所有30B參數(shù)以內(nèi)的模型中排名第1,超越了GPT-4o、InternVL2.5、Qwen2.5-VL等主流模型。

在綜合視頻理解測(cè)試VideoMME中,Ola在輸入視頻和音頻的情況下,取得了68.4%的準(zhǔn)確率,超越了LLaVA-Video、VideoLLaMA3等知名的視頻多模態(tài)模型。另一方面,Ola在諸如語(yǔ)音識(shí)別和聊天評(píng)估等音頻理解任務(wù)方面也表現(xiàn)卓越,達(dá)到了接近最好音頻理解模型的水平。

完整的測(cè)試結(jié)果表明,與現(xiàn)有的全模態(tài)大語(yǔ)言模型(如VITA-1.5、IXC2.5-OmniLive等)相比,Ola有巨大的性能提升,甚至超越了最先進(jìn)的專有多模態(tài)模型的性能,包括最新發(fā)布的Qwen2.5-VL、InternVL2.5等。目前,模型、代碼、訓(xùn)練數(shù)據(jù)已經(jīng)開(kāi)源,研究團(tuán)隊(duì)旨在將Ola打造成為一個(gè)完全開(kāi)源的全模態(tài)理解解決方案,以推動(dòng)這一新興領(lǐng)域的未來(lái)研究。

01.

模型介紹

訓(xùn)練全模態(tài)大模型的核心挑戰(zhàn)在于對(duì)于多種分布的模態(tài)進(jìn)行建模,并設(shè)計(jì)有效的訓(xùn)練流程,從而在所有支持的任務(wù)上實(shí)現(xiàn)有競(jìng)爭(zhēng)力且均衡的性能。

然而,在以往的研究中,高性能與廣泛的模態(tài)覆蓋往往難以兼顧,現(xiàn)有的開(kāi)源全模態(tài)解決方案與最先進(jìn)的專用大語(yǔ)言模型之間仍存在較大的性能差距,這給全模態(tài)概念在現(xiàn)實(shí)世界的應(yīng)用帶來(lái)了嚴(yán)重障礙。

Ola模型在于探索如何訓(xùn)練出性能可與最先進(jìn)的專用多模態(tài)模型相媲美、具備實(shí)時(shí)交互能力且在對(duì)齊數(shù)據(jù)上高效的全模態(tài)大語(yǔ)言模型。Ola模型的核心設(shè)計(jì)是漸進(jìn)式模態(tài)對(duì)齊策略。

為在語(yǔ)言與視覺(jué)之間建立聯(lián)系,研究團(tuán)隊(duì)從圖像和文本這兩種基礎(chǔ)且相互獨(dú)立的模態(tài)入手,為全模態(tài)模型構(gòu)建基礎(chǔ)知識(shí)。隨后,我們逐步擴(kuò)充訓(xùn)練集,賦予模型更廣泛的能力,包括通過(guò)視頻幀強(qiáng)化視覺(jué)理解能力,借助語(yǔ)音數(shù)據(jù)連通語(yǔ)言與音頻知識(shí),以及利用包含音頻的視頻全面融合來(lái)自語(yǔ)言、視頻和音頻的信息。

這種漸進(jìn)式學(xué)習(xí)策略將復(fù)雜的訓(xùn)練過(guò)程分解為小步驟,使全模態(tài)學(xué)習(xí)變得更容易,從而保持較小規(guī)模的跨模態(tài)對(duì)齊數(shù)據(jù),也更容易基于視覺(jué)-語(yǔ)言模型的現(xiàn)有成果展開(kāi)研究。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖2:漸進(jìn)式模態(tài)學(xué)習(xí)能夠訓(xùn)練更好的全模態(tài)模型

為配合訓(xùn)練策略,研究團(tuán)隊(duì)在架構(gòu)和數(shù)據(jù)領(lǐng)域也進(jìn)行了重要改進(jìn)。

  • Ola架構(gòu)支持全模態(tài)輸入以及流式文本和語(yǔ)音生成,其架構(gòu)設(shè)計(jì)可擴(kuò)展且簡(jiǎn)潔。研究團(tuán)隊(duì)為視覺(jué)和音頻設(shè)計(jì)了聯(lián)合對(duì)齊模塊,通過(guò)局部-全局注意力池化層融合視覺(jué)輸入,并實(shí)現(xiàn)視覺(jué)、音頻和文本標(biāo)記的自由組合。此外,我們集成了逐句流式解碼模塊以實(shí)現(xiàn)高質(zhì)量語(yǔ)音合成。

  • 除了在視覺(jué)和音頻方面收集的微調(diào)數(shù)據(jù)外,研究團(tuán)隊(duì)深入挖掘視頻與其對(duì)應(yīng)音頻之間的關(guān)系,以構(gòu)建視覺(jué)與音頻模態(tài)之間的橋梁。具體而言,從學(xué)術(shù)及開(kāi)放式網(wǎng)絡(luò)資源收集原始視頻,設(shè)計(jì)獨(dú)立的清理流程,然后利用視覺(jué) - 語(yǔ)言模型根據(jù)字幕和視頻內(nèi)容生成問(wèn)答對(duì)。

02.

方法概覽

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖3:Ola模型結(jié)構(gòu)圖

打開(kāi)網(wǎng)易新聞 查看精彩圖片

全模態(tài)結(jié)構(gòu)設(shè)計(jì)

全模態(tài)輸入編碼:基于先前文本到單模態(tài)大語(yǔ)言模型的成功實(shí)踐,分別對(duì)視覺(jué)、音頻和文本輸入進(jìn)行編碼。對(duì)于視覺(jué)輸入,使用任意分辨率視覺(jué)編碼器OryxViT進(jìn)行編碼,保留每個(gè)圖像或幀的原始寬高比;對(duì)于音頻輸入,提出雙編碼器方法,使用Whisper-v3作為語(yǔ)音編碼器,BEATs作為音樂(lè)編碼器;對(duì)于文本輸入,直接使用預(yù)訓(xùn)練大語(yǔ)言模型中的嵌入層來(lái)處理文本標(biāo)記。

視覺(jué)與音頻聯(lián)合對(duì)齊:對(duì)齊模塊充當(dāng)從特定模態(tài)空間到文本嵌入空間的轉(zhuǎn)換器,這是全模態(tài)大語(yǔ)言模型的關(guān)鍵部分。為了提高效率并減少視覺(jué)特征的標(biāo)記長(zhǎng)度,進(jìn)一步提出了“局部-全局注意力池化”層,以在減少信息損失的情況下獲得更好的下采樣特征。具體而言,采用雙線性插值進(jìn)行2倍下采樣以獲得全局特征,將原始特征和全局特征結(jié)合用于局部-全局嵌入,并使用Softmax預(yù)測(cè)每個(gè)下采樣空間區(qū)域的重要性,此后通過(guò)哈達(dá)瑪積確定每個(gè)先前區(qū)域的權(quán)重。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究團(tuán)隊(duì)參照先前的工作,應(yīng)用兩層非線性MLP將特定模態(tài)特征投影到語(yǔ)言空間中。

流式語(yǔ)音生成:采用CosyVoice作為高質(zhì)量的語(yǔ)音解碼器進(jìn)行語(yǔ)音生成。為支持用戶友好的流式解碼,實(shí)時(shí)檢測(cè)生成的文本標(biāo)記,一旦遇到標(biāo)點(diǎn)符號(hào)就截?cái)嗑渥?。隨后,將前一個(gè)句子輸入語(yǔ)音解碼器進(jìn)行音頻合成。因此,Ola 無(wú)需等待整個(gè)句子完成即可支持流式解碼。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

漸進(jìn)式模態(tài)對(duì)齊策略

語(yǔ)言、視覺(jué)與音頻之間的模態(tài)差距:通過(guò)探索,認(rèn)識(shí)到全模態(tài)訓(xùn)練中的兩個(gè)關(guān)鍵問(wèn)題。

模態(tài)平衡:直接合并來(lái)自所有模態(tài)的數(shù)據(jù)會(huì)對(duì)基準(zhǔn)性能產(chǎn)生負(fù)面影響。文本和圖像是全模態(tài)學(xué)習(xí)中的核心模態(tài),而語(yǔ)音和視頻分別是文本和圖像的變體。學(xué)會(huì)識(shí)別文本和圖像可確保模型具備基本的跨模態(tài)能力,所以優(yōu)先處理這些較難的情況。隨后,逐步將視頻、音頻和語(yǔ)音納入全模態(tài)大語(yǔ)言模型的訓(xùn)練中。

音頻與視覺(jué)之間的聯(lián)系:在全模態(tài)學(xué)習(xí)中,聯(lián)合學(xué)習(xí)音頻和視覺(jué)數(shù)據(jù)能夠通過(guò)提供跨不同模態(tài)的更全面視角,產(chǎn)生令人驚喜的結(jié)果。Ola 模型將視頻視為音頻與視覺(jué)之間的橋梁,因?yàn)橐曨l在幀與伴隨音頻之間包含自然、豐富且高度相關(guān)的信息。通過(guò)優(yōu)化訓(xùn)練流程和準(zhǔn)備有針對(duì)性的訓(xùn)練數(shù)據(jù)來(lái)驗(yàn)證這一假設(shè)。

在訓(xùn)練流程中,訓(xùn)練階段1為文本-圖像訓(xùn)練,包括 MLP對(duì)齊、大規(guī)模預(yù)訓(xùn)練以及監(jiān)督微調(diào);階段2為圖像與視頻的持續(xù)訓(xùn)練,利用視頻數(shù)據(jù)持續(xù)擴(kuò)展Ola的能力;階段3為通過(guò)視頻連接視覺(jué)與音頻,遵循視覺(jué)MLP適配器的訓(xùn)練策略,同時(shí)通過(guò)基本的ASR任務(wù)初始化音頻MLP。

然后,研究團(tuán)隊(duì)將文本與語(yǔ)音理解、文本與音樂(lè)理解、音頻與視頻聯(lián)合理解以及最重要的文本-圖像多模態(tài)任務(wù)混合在一起進(jìn)行正式訓(xùn)練。在這個(gè)階段,Ola專注于學(xué)習(xí)音頻識(shí)別以及識(shí)別視覺(jué)與音頻之間的關(guān)系,訓(xùn)練完成后,便得到一個(gè)能夠綜合理解圖像、視頻和音頻的模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

全模態(tài)訓(xùn)練數(shù)據(jù)

圖像數(shù)據(jù)中,在大規(guī)模預(yù)訓(xùn)練階段,從開(kāi)源數(shù)據(jù)和內(nèi)部數(shù)據(jù)中收集了約20M個(gè)文本-圖像數(shù)據(jù)對(duì);對(duì)于SFT數(shù)據(jù),從LLaVA-Onevision、Cauldron、Cambrian-1、Mammoth-VL、PixMo等數(shù)據(jù)集中混合了約7.3M圖像訓(xùn)練數(shù)據(jù)。視頻數(shù)據(jù)中,從LLaVA-Video-178k、VideoChatGPT-Plus、LLaVA-Hound、Cinepile中收集了1.9M個(gè)視頻對(duì)話數(shù)據(jù)。音頻數(shù)據(jù)中,設(shè)計(jì)了ASR、音頻字幕、音頻問(wèn)答、音樂(lè)字幕、音樂(lè)問(wèn)答等文本-語(yǔ)音理解任務(wù),總體音頻訓(xùn)練數(shù)據(jù)包含1.1M個(gè)樣本,相關(guān)的文本問(wèn)答表示則從SALMONN數(shù)據(jù)集中收集。

進(jìn)一步地,研究團(tuán)隊(duì)構(gòu)造了一種跨模態(tài)視頻數(shù)據(jù)的生成方法,旨在揭示視頻與音頻之間的內(nèi)在關(guān)系,引導(dǎo)全模態(tài)大語(yǔ)言模型學(xué)習(xí)跨模態(tài)信息。現(xiàn)有的大多數(shù)視頻訓(xùn)練數(shù)據(jù)僅從幀輸入進(jìn)行注釋或合成,常常忽略了伴隨音頻中的寶貴信息。

具體而言,研究團(tuán)隊(duì)為跨模態(tài)學(xué)習(xí)開(kāi)發(fā)了兩個(gè)任務(wù):視頻-音頻問(wèn)答和視頻語(yǔ)音識(shí)別。使用視覺(jué)-語(yǔ)言模型基于視頻和相應(yīng)字幕生成問(wèn)題和答案,并要求模型以字幕輸入為重點(diǎn),同時(shí)將視頻作為補(bǔ)充信息生成問(wèn)答。為每個(gè)視頻創(chuàng)建了3個(gè)問(wèn)答對(duì),獲取了243k個(gè)跨模態(tài)視頻-音頻數(shù)據(jù)。此外,還納入了包含83k個(gè)訓(xùn)練數(shù)據(jù)的原始視頻字幕任務(wù),以幫助模型在嘈雜環(huán)境中保持其語(yǔ)音識(shí)別能力。

03.

實(shí)驗(yàn)結(jié)果

打開(kāi)網(wǎng)易新聞 查看精彩圖片

全模態(tài)理解

與當(dāng)前最先進(jìn)的多模態(tài)大語(yǔ)言模型和全模態(tài)模型相比,Ola在主要多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)出極強(qiáng)的競(jìng)爭(zhēng)力。具體而言,在圖像基準(zhǔn)測(cè)試中,Ola在MMBench-1.1中達(dá)到84.3%,在MMStar上達(dá)到70.8%,在MMMU上達(dá)到57.0%,超越了所有參數(shù)數(shù)量相近的相關(guān)多模態(tài)大語(yǔ)言模型。

在視頻基準(zhǔn)測(cè)試中,Ola在VideoMME上取得了68.4%的準(zhǔn)確率。在音頻基準(zhǔn)測(cè)試中,Ola在LibriSpeech上的WER為3.1%,在AIR-Bench上的平均得分為6.41,超過(guò)了現(xiàn)有的全模態(tài)模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

打開(kāi)網(wǎng)易新聞 查看精彩圖片

音頻評(píng)測(cè)集上的分析

在音頻評(píng)測(cè)集上的細(xì)節(jié)結(jié)果表明,Ola相較于現(xiàn)有的全模態(tài)模型展現(xiàn)出顯著優(yōu)勢(shì),甚至接近專門的音頻模型,突顯了其強(qiáng)大的通用性。此外,我們可以觀察到通過(guò)跨模態(tài)聯(lián)合學(xué)習(xí),性能仍有穩(wěn)定提升。盡管視頻音頻與語(yǔ)音相關(guān)數(shù)據(jù)集之間存在顯著的分布差異,但這種提升表明了視頻與語(yǔ)音模態(tài)之間存在穩(wěn)固的聯(lián)系。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

打開(kāi)網(wǎng)易新聞 查看精彩圖片

全模態(tài)訓(xùn)練的影響

通過(guò)比較全模態(tài)訓(xùn)練前后的結(jié)果,我們發(fā)現(xiàn)在VideoMME上的性能從63.8%提升到了64.4%。此外,在原始視頻中加入音頻模態(tài)后,性能顯著提升,在VideoMME上的分?jǐn)?shù)從64.4%提高到了68.4%。這些發(fā)現(xiàn)表明音頻包含有助于提升整體識(shí)別性能的有價(jià)值信息。

值得注意的是,經(jīng)過(guò)全模態(tài)訓(xùn)練并輸入音頻的Ola準(zhǔn)確率甚至超過(guò)了使用原始文本字幕的結(jié)果,總體性能達(dá)到68.4%,而使用原始文本字幕的總體性能為67.1%。結(jié)果表明,在某些基準(zhǔn)測(cè)試中,音頻數(shù)據(jù)可能包含超出原始文本信息的更多內(nèi)容。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

打開(kāi)網(wǎng)易新聞 查看精彩圖片

漸進(jìn)式模態(tài)對(duì)齊的影響

研究團(tuán)隊(duì)評(píng)估了每個(gè)階段中間模型的基本性能,可以觀察到,從圖像、視頻到音頻的漸進(jìn)式模態(tài)訓(xùn)練能夠最大程度地保留先前學(xué)到的能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

04.

總結(jié)

研究團(tuán)隊(duì)提出了 Ola,這是一款功能全面且強(qiáng)大的全模態(tài)語(yǔ)言模型,在圖像、視頻和音頻理解任務(wù)中展現(xiàn)出頗具競(jìng)爭(zhēng)力的性能?;跐u進(jìn)式模態(tài)對(duì)齊策略給出的解決方案,為訓(xùn)練全模態(tài)模型提供了一種自然、高效且具競(jìng)爭(zhēng)力的訓(xùn)練策略。通過(guò)支持全模態(tài)輸入和流式解碼的架構(gòu)設(shè)計(jì)改進(jìn),以及高質(zhì)量跨模態(tài)視頻數(shù)據(jù)的準(zhǔn)備,進(jìn)一步拓展了Ola的能力。未來(lái)期望這項(xiàng)工作能夠啟發(fā)對(duì)更通用人工智能模型的研究。

本文主要作者來(lái)自清華大學(xué)智能視覺(jué)實(shí)驗(yàn)室(i-Vision Group)、騰訊和南洋理工大學(xué)S-Lab。本文的共同第一作者為清華大學(xué)自動(dòng)化系博士生劉祖炎和南洋理工大學(xué)博士生董宇昊,本文的通訊作者為騰訊高級(jí)研究員饒永銘和清華大學(xué)自動(dòng)化系魯繼文教授。

編輯:成蘊(yùn)年

----- END -----

wisemodel相關(guān):

系統(tǒng)升級(jí):

大賽報(bào)名:

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開(kāi)源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開(kāi)放的AI開(kāi)源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開(kāi)發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開(kāi)發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開(kāi)源社區(qū)

始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū),匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。

向上滑動(dòng)查看