打開(kāi)網(wǎng)易新聞 查看精彩圖片

新智元報(bào)道

編輯:編輯部 HXZ

【新智元導(dǎo)讀】來(lái)自Meta和NYU的團(tuán)隊(duì),剛剛提出了一種MetaQuery新方法,讓多模態(tài)模型瞬間解鎖多模態(tài)生成能力!令人驚訝的是,這種方法竟然如此簡(jiǎn)單,就實(shí)現(xiàn)了曾被認(rèn)為需要MLLM微調(diào)才能具備的能力。

現(xiàn)在的大模型都有一個(gè)「理想」,那就是將各種模態(tài)大一統(tǒng),一個(gè)模型就能生文、生圖、生視頻,可以稱之為「全干模型」!

GPT-4o發(fā)布了自己原生的多模態(tài)繪圖能力著實(shí)火了一把,OpenAI還給模型起了一個(gè)新的名字「全能模型」。

統(tǒng)一的多模態(tài)模型旨在整合理解(文本輸出)和生成(像素輸出),但在單個(gè)架構(gòu)內(nèi)校準(zhǔn)這些不同的模態(tài)通常需要復(fù)雜的訓(xùn)練方案和仔細(xì)的數(shù)據(jù)平衡。

在剛剛發(fā)布的一項(xiàng)研究中,來(lái)自Meta和紐約大學(xué)的研究人員探索了一種簡(jiǎn)單但尚未得到充分探索的、用于統(tǒng)一多模態(tài)建模的替代方法。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

論文地址:https://arxiv.org/pdf/2504.06256

項(xiàng)目主頁(yè):https://xichenpan.com/metaquery/

新的方法MetaQuery橋接了凍結(jié)的(Frozen)多模態(tài)大語(yǔ)言模型(MLLM)骨干和擴(kuò)散模型(DiT)。

實(shí)驗(yàn)表明,MetaQuerie實(shí)現(xiàn)了所有曾被認(rèn)為需要MLLM微調(diào)才能具備的能力,同時(shí)其訓(xùn)練過(guò)程也更為簡(jiǎn)便。

簡(jiǎn)而言之就是,具備理解能力的MLLM可以直接和負(fù)責(zé)生成圖片的DiT進(jìn)行SOTA水平的多模態(tài)生成。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

文本到圖像生成

打開(kāi)網(wǎng)易新聞 查看精彩圖片

一個(gè)巨大的人形,由蓬松的藍(lán)色棉花糖制成,踩在地上,咆哮著沖向天空,身后是湛藍(lán)的天空

打開(kāi)網(wǎng)易新聞 查看精彩圖片

一個(gè)穿著褲子和夾克的生銹舊機(jī)器人在超市里騎滑雪板

打開(kāi)網(wǎng)易新聞 查看精彩圖片

一只亮藍(lán)色鸚鵡的羽毛在燈光下閃閃發(fā)光,顯示出它獨(dú)特的羽毛和鮮艷的色彩

指令微調(diào)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

同一個(gè)機(jī)器人,但在「我的世界」

打開(kāi)網(wǎng)易新聞 查看精彩圖片

同樣一種車(chē)型,但在紐約

打開(kāi)網(wǎng)易新聞 查看精彩圖片

同一個(gè)碗藍(lán)莓,但俯視圖

推理和知識(shí)增強(qiáng)生成

打開(kāi)網(wǎng)易新聞 查看精彩圖片

最高的建筑主宰著這座被稱為光之城的城市的天際線

打開(kāi)網(wǎng)易新聞 查看精彩圖片

新月之夜的夜空

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這個(gè)在春季節(jié)日中備受贊頌的花,是壽司發(fā)源國(guó)所特有的

橋接MLLM與DiT,實(shí)現(xiàn)大一統(tǒng)

通常來(lái)說(shuō),創(chuàng)建一個(gè)「既要又要」的模型——既要最先進(jìn)的多模態(tài)理解能力,同時(shí)又要強(qiáng)大的生成圖像能力——有些困難。

目前的一些方案依賴于精細(xì)微調(diào)基礎(chǔ)多模態(tài)大語(yǔ)言模型(MLLM)來(lái)處理理解和生成任務(wù)。

但這個(gè)過(guò)程涉及復(fù)雜的架構(gòu)設(shè)計(jì)、數(shù)據(jù)/損失平衡、多個(gè)訓(xùn)練階段以及其他復(fù)雜的訓(xùn)練方案,若不靠考慮這些,優(yōu)化一種能力可能會(huì)損害另一種能力——「按下葫蘆又起了瓢」。

如何有效地將自回歸多模態(tài)大語(yǔ)言模型(MLLM)中的潛在世界知識(shí)轉(zhuǎn)移到圖像生成器中?

說(shuō)來(lái)也簡(jiǎn)單,將生成任務(wù)交給擴(kuò)散模型,將理解任務(wù)交給大語(yǔ)言模型——「讓凱撒的歸凱撒」。

換句話說(shuō),不是設(shè)法從頭開(kāi)始構(gòu)建一個(gè)單體系統(tǒng),而是專注于在專門(mén)針對(duì)不同輸出模態(tài)的最先進(jìn)的預(yù)訓(xùn)練模型之間有效地轉(zhuǎn)移能力。

為了實(shí)現(xiàn)這一點(diǎn),研究團(tuán)隊(duì)讓MLLM凍結(jié)(Frozen),以便可以專注于它們最擅長(zhǎng)的事情——理解,同時(shí)將圖像生成委托給擴(kuò)散模型。

即使在這種凍結(jié)條件下,只要有合適的架構(gòu)橋梁,MLLM固有的世界知識(shí)、強(qiáng)大的推理能力和上下文學(xué)習(xí)能力確實(shí)可以轉(zhuǎn)移到圖像生成中。

這樣的系統(tǒng)可以解鎖協(xié)同能力,其中理解為生成提供信息,反之亦然。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

戴著墨鏡的英國(guó)短毛貓

MetaQuery將一組可學(xué)習(xí)的查詢直接輸入到凍結(jié)的MLLM中,以提取用于多模態(tài)生成的條件。

實(shí)驗(yàn)表明,即使沒(méi)有進(jìn)行微調(diào)或啟用雙向注意力,凍結(jié)的LLM也能充當(dāng)強(qiáng)大的特征重采樣器,為多模態(tài)生成產(chǎn)生高質(zhì)量的條件。

使用MetaQueries訓(xùn)練統(tǒng)一模型僅需要少量圖文對(duì)數(shù)據(jù),即可將這些提示條件連接到任何條件擴(kuò)散模型。

由于整個(gè)MLLM在理解方面保持不變,訓(xùn)練目標(biāo)仍然是原始的去噪目標(biāo)——就像微調(diào)擴(kuò)散模型一樣高效和穩(wěn)定。

思路與GPT-4o原生生圖相似

相比訓(xùn)練單個(gè)自回歸Transformer骨干來(lái)聯(lián)合建模的統(tǒng)一模型,MetaQuery選擇使用token→Transformer→擴(kuò)散→像素的范式。

這一思路,可能與同期的GPT-4o圖像生成系統(tǒng)所體現(xiàn)的理念相似。

通過(guò)將MLLM的自回歸先驗(yàn)與強(qiáng)大的擴(kuò)散解碼器相結(jié)合,MetaQuery直接利用凍結(jié)MLLM在建模壓縮語(yǔ)義表示方面的強(qiáng)大能力,從而避免了直接生成像素這一更具挑戰(zhàn)性的任務(wù)。

統(tǒng)一所有模態(tài)的前景并非止步于并行處理多模態(tài)理解和文本到圖像的生成。

更深層次的協(xié)同作用值得期待——一種能夠利用MLLM的高級(jí)能力(如推理、內(nèi)部知識(shí)、多模態(tài)感知和上下文學(xué)習(xí))來(lái)增強(qiáng)生成的能力。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

比如生成一個(gè)和「9條命」相關(guān)的動(dòng)物——通過(guò)推理,得出是九命的是貓妖

MetaQuery

概括來(lái)說(shuō)就是,MetaQuery方法能夠無(wú)損地為僅具理解能力的多模態(tài)大語(yǔ)言模型(MLLM)賦予多模態(tài)生成能力,同時(shí)保持其原始架構(gòu)設(shè)計(jì)和參數(shù)不變。

架構(gòu)

具體到架構(gòu)層,研究人員首先使用隨機(jī)初始化的可學(xué)習(xí)查詢Q∈R^(N×D)來(lái)查詢獲取用于生成的條件C。其中,N是查詢的數(shù)量,D是查詢的維度(與MLLM的隱藏維度相同)。

為簡(jiǎn)單起見(jiàn)并保持兼容性,繼續(xù)對(duì)整個(gè)序列使用因果掩碼(causal masking),而不是專門(mén)為查詢Q啟用全注意力(full attention)。

然后將條件C輸入一個(gè)可訓(xùn)練的連接器(trainable connector),從而與文本到圖像擴(kuò)散模型的輸入空間對(duì)齊。

這些擴(kuò)散模型可以是任意類(lèi)型,只要它們具有條件輸入接口即可。需要做的,就只是將模型的原始條件替換為生成的C。

雖然模型目前專注于圖像生成任務(wù),但也可輕松擴(kuò)展至其他模態(tài),如音頻、視頻、3D等。

設(shè)計(jì)選擇

架構(gòu)涉及兩個(gè)核心設(shè)計(jì)選擇:使用可學(xué)習(xí)查詢(learnable queries)和保持MLLM骨干凍結(jié)(frozen)。

· 可學(xué)習(xí)查詢

目前,很多模型會(huì)使用(M)LLM輸入Token的最后一層嵌入(last layer embedding)作為圖像生成條件。但這與統(tǒng)一建模中的許多期望任務(wù)并不兼容,如上下文學(xué)習(xí)或生成多模態(tài)、交錯(cuò)的輸出。

而且,隨機(jī)查詢(random queries)雖然能產(chǎn)生不錯(cuò)的FID分?jǐn)?shù),但它們?cè)谔崾驹~的對(duì)齊方面表現(xiàn)不佳。

如表1所示,僅使用N=64個(gè)Token的可學(xué)習(xí)查詢,即可實(shí)現(xiàn)與這些模型相當(dāng)?shù)膱D像生成質(zhì)量。當(dāng)N=512個(gè)Token時(shí),性能則直接超越了最后一層嵌入方法。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

· 凍結(jié) MLLM

現(xiàn)有的統(tǒng)一模型通過(guò)訓(xùn)練MLLM來(lái)聯(lián)合建模p(文本, 像素),但這樣會(huì)讓訓(xùn)練過(guò)程更復(fù)雜,甚至?xí)档湍P偷睦斫庑阅堋?/p>

相比之下,MetaQuery可在原始MLLM架構(gòu)和參數(shù)不變的情況下,保留SOTA的理解能力。

如表2所示,雖然可調(diào)的參數(shù)顯著更少,但凍結(jié)MLLM能夠?qū)崿F(xiàn)與MLLM全量微調(diào)相當(dāng)?shù)男阅?,其提示詞對(duì)齊能力略低,但視覺(jué)質(zhì)量略有提高。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

訓(xùn)練方案

接下來(lái),團(tuán)隊(duì)進(jìn)一步研究了MetaQuery兩個(gè)主要組件的關(guān)鍵訓(xùn)練選項(xiàng):可學(xué)習(xí)查詢(learnable queries)和連接器(connectors)。

· Token數(shù)量

如圖2所示,對(duì)于文本到圖像生成任務(wù),視覺(jué)質(zhì)量在64個(gè)Token后開(kāi)始趨于收斂,而更多的Token能持續(xù)帶來(lái)更好的提示詞對(duì)齊效果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

對(duì)于長(zhǎng)標(biāo)注(long captions)來(lái)說(shuō),這一點(diǎn)更為明顯,因?yàn)殡S著Token數(shù)量的增加,使用重寫(xiě)提示詞(rewritten prompts)的GenEval分?jǐn)?shù)增長(zhǎng)得更快。

而對(duì)于圖像重建任務(wù),更多的Token則能持續(xù)提高重建圖像的質(zhì)量。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

· 連接器設(shè)計(jì)

在這里,團(tuán)隊(duì)研究了兩種不同的設(shè)計(jì):編碼器前投影(Projection Before Encoder, Proj-Enc)和編碼器后投影(Projection After Encoder, Enc-Proj)。

  • Proj-Enc首先將條件投影到擴(kuò)散解碼器的輸入維度,然后使用Transformer編碼器來(lái)對(duì)齊條件

  • Enc-Proj首先使用Transformer編碼器在與MLLM隱藏狀態(tài)相同的維度上對(duì)齊條件,然后將條件投影到擴(kuò)散解碼器的輸入維度

如表3所示,Enc-Proj比Proj-Enc實(shí)現(xiàn)了更好的性能,同時(shí)參數(shù)更少。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

值得一提的是,研究人員使用的是與Qwen2.5相同的架構(gòu),并為連接器啟用了雙向注意力(bi-directional attention)。

模型訓(xùn)練

MetaQuery的訓(xùn)練分兩個(gè)階段:預(yù)訓(xùn)練和指令微調(diào)。

其中,每個(gè)訓(xùn)練階段都保持MLLM凍結(jié),并微調(diào)可學(xué)習(xí)查詢、連接器和擴(kuò)散模型。

MLLM骨干則有三種不同的規(guī)模:Base(LLaVAOneVision 0.5B)、Large(Qwen2.5-VL 3B)和X-Large(Qwen2.5-VL 7B)。

所有模型的Token數(shù)量都為N=256,并采用具有Enc-Proj架構(gòu)的24層連接器。

· 預(yù)訓(xùn)練

研究人員在2500萬(wàn)個(gè)公開(kāi)可用的圖文對(duì)上對(duì)我們的模型進(jìn)行了8個(gè)epoch的預(yù)訓(xùn)練,學(xué)習(xí)率為1e-4,全局批大小為4096。學(xué)習(xí)率遵循余弦衰減策略,并設(shè)有4000步的預(yù)熱期,之后逐漸降低至1e-5。

· 指令微調(diào)

受MagicLens的啟發(fā),研究人員使用網(wǎng)絡(luò)語(yǔ)料庫(kù)中自然出現(xiàn)的圖像對(duì)來(lái)構(gòu)建指令微調(diào)數(shù)據(jù)。

這些語(yǔ)料庫(kù)不僅包含豐富的多模態(tài)上下文,其中的圖像對(duì)也展現(xiàn)出了更有意義的關(guān)聯(lián)(從直接的視覺(jué)相似性到更微妙的語(yǔ)義聯(lián)系),從而為指令微調(diào)提供了極好且多樣化的監(jiān)督信號(hào)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

接著,研究人員開(kāi)發(fā)了一個(gè)數(shù)據(jù)構(gòu)建流程,用于挖掘圖像對(duì)并利用MLLM生成開(kāi)放式指令來(lái)捕捉它們圖像間的關(guān)系。

  • 首先,從mmc4核心的人臉子集中收集分組圖像,其中每張圖像都附有圖說(shuō)。

  • 然后,使用SigLIP聚類(lèi)具有相似圖說(shuō)的圖像。每組中,與其他圖像平均相似度最低的圖像被指定為目標(biāo)圖像,而其余圖像則作為源圖像。這個(gè)過(guò)程總共產(chǎn)生了240萬(wàn)個(gè)圖像對(duì)。

  • 最后,使用Qwen2.5-VL 3B為每對(duì)圖像生成指令,描述如何將源圖像變換為目標(biāo)圖像。

實(shí)驗(yàn)

圖像理解與生成

如表4所示,這個(gè)模型家族在理解和生成任務(wù)上都展示了強(qiáng)大的能力。

得益于允許利用任意SOTA凍結(jié)MLLM的靈活訓(xùn)練方法,所有不同規(guī)模的模型在所有理解基準(zhǔn)上都有著相當(dāng)不錯(cuò)的表現(xiàn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在圖像生成方面,MetaQuery在MJHQ-30K上實(shí)現(xiàn)了SOTA視覺(jué)質(zhì)量,并在GenEval和DPG-Bench上與SOTA提示對(duì)齊結(jié)果非常接近。

鑒于MetaQuery使用凍結(jié)MLLM,就可以自然地連接任意數(shù)量的擴(kuò)散模型。

由于基礎(chǔ)的Sana-1.6B模型已經(jīng)在美學(xué)數(shù)據(jù)上進(jìn)行了微調(diào),研究人員采用Stable Diffusion v1.5進(jìn)行COCO FID評(píng)估。

結(jié)果表明,在將其適配到強(qiáng)大的MLLM后,可以獲得改進(jìn)的視覺(jué)質(zhì)量。這也為所有基于Stable Diffusion v1.5的統(tǒng)一模型(包括MetaMorph和Emu)建立了新的SOTA COCO FID分?jǐn)?shù)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在提示詞對(duì)齊方面,MetaQuery在GenEval上也取得了有競(jìng)爭(zhēng)力的性能,擊敗了所有基于擴(kuò)散模型的方法,包括Transfusion和JanusFlow。

此外,研究人員還發(fā)現(xiàn)MetaQuery實(shí)現(xiàn)了比Janus-Pro好得多的世界知識(shí)推理能力。

圖像重建

如圖6所示,MetaQuery可以在凍結(jié)MLLM的情況下輕松微調(diào)以執(zhí)行圖像重建任務(wù)。

其中,微調(diào)后的MetaQuery-B所生成的質(zhì)量,與現(xiàn)有的最佳開(kāi)源模型Emu2基本相當(dāng)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖像編輯

如圖7所示,MetaQuery可以遷移其圖像重建能力來(lái)執(zhí)行圖像編輯。

方法是保持MLLM骨干凍結(jié),并在公開(kāi)可用的圖像編輯數(shù)據(jù)上僅對(duì)預(yù)訓(xùn)練的Base模型進(jìn)行1000步微調(diào)。

定性結(jié)果表明,MetaQuery在這些圖像編輯場(chǎng)景中表現(xiàn)有效。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

指令微調(diào)

在240萬(wàn)數(shù)據(jù)集上進(jìn)行指令微調(diào)后,MetaQuery可以實(shí)現(xiàn)令人印象深刻的零樣本學(xué)習(xí)主體驅(qū)動(dòng)生成性能,即使有多個(gè)高度定制化的主體也能生成連貫的結(jié)果(圖8第一行)。

使用各種監(jiān)督信號(hào),經(jīng)過(guò)指令微調(diào)的MetaQuery-B模型出人意料地解鎖了超越復(fù)制粘貼的新穎能力,如視覺(jué)關(guān)聯(lián)和標(biāo)志設(shè)計(jì)(圖8第二行)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

例如,在第一個(gè)案例中,模型識(shí)別出了輸入的保時(shí)捷911汽車(chē)圖像的具體型號(hào),然后正確地為該型號(hào)生成了一個(gè)新穎的正面視圖。

在第二個(gè)案例中,模型識(shí)別出洛克菲勒中心的輸入圖像,并構(gòu)想出從洛克菲勒中心頂部的紐約市景觀。

研究人員還遵循DreamBooth的方法,采用DINO、CLIP-I和CLIP-T分?jǐn)?shù)在DreamBench數(shù)據(jù)集上對(duì)模型進(jìn)行了定量評(píng)估。

如表5所示,MetaQuery-BInstruct模型達(dá)到了SOTA性能,優(yōu)于像Kosmos-G這樣為進(jìn)行主體驅(qū)動(dòng)生成而在構(gòu)建的替換任務(wù)上明確訓(xùn)練的現(xiàn)有模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

推理與知識(shí)增強(qiáng)生成

研究人員展示了可學(xué)習(xí)查詢可以有效利用凍結(jié)LLM的能力。這使得模型能夠更好地理解和遵循復(fù)雜提示詞,包括那些需要世界知識(shí)和推理的提示詞。

如圖9所示,對(duì)于左側(cè)的知識(shí)增強(qiáng)生成案例,MetaQuery-L可以利用來(lái)自凍結(jié)MLLM的世界知識(shí)并通過(guò)輸入問(wèn)題進(jìn)行推理以生成正確答案。

對(duì)于來(lái)自CommonsenseT2I的右側(cè)常識(shí)知識(shí)案例,LLM提供了更好的常識(shí)知識(shí),并使MetaQuery能夠生成與事實(shí)一致的圖像。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

為了定量評(píng)估MetaQuery的世界知識(shí)推理能力,研究人員采用了WISE基準(zhǔn),該基準(zhǔn)包含與圖9所示的知識(shí)增強(qiáng)生成示例類(lèi)似的測(cè)試案例。

如表6所示,MetaQuery達(dá)到了SOTA性能,顯著優(yōu)于所有其他統(tǒng)一模型。

值得注意的是,在這項(xiàng)工作之前,現(xiàn)有的統(tǒng)一模型難以有效利用強(qiáng)大的MLLM進(jìn)行推理和知識(shí)增強(qiáng)生成,導(dǎo)致其性能劣于文本到圖像模型。

MetaQuery是第一個(gè)成功將凍結(jié)MLLM的先進(jìn)能力遷移到圖像生成,并超越SOTA文本到圖像模型性能的統(tǒng)一模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

研究人員還在表7中對(duì)CommonsenseT2I基準(zhǔn)上的MetaQuery的常識(shí)推理能力進(jìn)行了定量評(píng)估。

為簡(jiǎn)單起見(jiàn),他們遵循其原始實(shí)現(xiàn),使用CLIP作為評(píng)估器。結(jié)果顯示,MetaQuery顯著提高了基礎(chǔ)Sana模型的性能,達(dá)到了SOTA性能。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

如表8所示,研究人員測(cè)試了不同LLM骨干對(duì)MetaQuery的影響,包括預(yù)訓(xùn)練LLM(Qwen2.5-3B)、指令微調(diào)LLM(Qwen2.5-3B-Instruct)和指令微調(diào)MLLM(Qwen2.5-VL-3B-Instruct)。

實(shí)驗(yàn)結(jié)果表明,指令微調(diào)可以實(shí)現(xiàn)更好的(多模態(tài))理解能力。但當(dāng)用于提供多模態(tài)生成條件時(shí),這些改進(jìn)與圖像生成性能是正交的。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

最后一層嵌入方法本質(zhì)上是將僅解碼器的LLM視為文本編碼器,這固有地限制了其上下文學(xué)習(xí)能力。

相比之下,MetaQuery與LLM原生集成,可以自然地利用上下文學(xué)習(xí)能力,使模型能夠通過(guò)問(wèn)題進(jìn)行推理并生成適當(dāng)?shù)膱D像。

如表9所示,MetaQuery在WiScore和CommonsenseT2I基準(zhǔn)上都顯著優(yōu)于最后一層嵌入方法。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

結(jié)論

MetaQueries,一個(gè)可以鏈接MLLM和DiT的簡(jiǎn)單接口,即使在MLLM被凍結(jié)時(shí)依然有效。

這種方法非常簡(jiǎn)單,但很好地實(shí)現(xiàn)了最先進(jìn)的能力和SOTA級(jí)別的生成能力。

通過(guò)實(shí)現(xiàn)模態(tài)之間的轉(zhuǎn)換,MetaQueries成功地將MLLM的知識(shí)和推理能力引導(dǎo)至多模態(tài)圖像生成中。

這個(gè)方法很有效,但想要彌合與領(lǐng)先的專有系統(tǒng)之間剩余的差距可能仍然需要進(jìn)一步的數(shù)據(jù)擴(kuò)展。

最終,MetaQueries能為未來(lái)的統(tǒng)一多模態(tài)模型開(kāi)發(fā)提供一個(gè)強(qiáng)大、易于獲取的基線。

作者介紹

Xichen Pan

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Xichen Pan是紐約大學(xué)庫(kù)朗特學(xué)院計(jì)算機(jī)科學(xué)系的二年級(jí)博士生,由謝賽寧教授指導(dǎo)。

曾在Meta GenAI Emu團(tuán)隊(duì),微軟亞洲研究院,阿里巴巴集團(tuán),以及地平線Horizon Robotics等實(shí)習(xí)。

在上海交通大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,并獲得了最佳論文獎(jiǎng)。

Ji Hou (侯驥)

打開(kāi)網(wǎng)易新聞 查看精彩圖片

侯驥是Meta GenAI的一名研究科學(xué)家,致力于基礎(chǔ)模型。

在此之前侯驥是Meta Reality Labs中的XR Tech的一名研究科學(xué)家,專注于3D場(chǎng)景理解。

在加入Meta之前,侯驥在TUM 視覺(jué)計(jì)算組攻讀博士學(xué)位,在那里從事計(jì)算機(jī)視覺(jué)和3D場(chǎng)景理解的研究。在博士期間,曾經(jīng)在FAIR實(shí)習(xí)。

侯驥對(duì)圖像/視頻/3D生成模型的研究和應(yīng)用感興趣,以及3D計(jì)算機(jī)視覺(jué),例如3D重建、VR/AR、機(jī)器人和自動(dòng)駕駛等。

Saining Xie(謝賽寧

打開(kāi)網(wǎng)易新聞 查看精彩圖片

謝賽寧是紐約大學(xué)庫(kù)朗計(jì)算機(jī)科學(xué)系的助理教授,同時(shí)也是CILVR研究組的成員。此外,還隸屬于紐約大學(xué)數(shù)據(jù)科學(xué)中心。

曾是Facebook AI Research(FAIR)門(mén)洛帕克研究所的研究科學(xué)家。在加州大學(xué)圣地亞哥分校計(jì)算機(jī)科學(xué)與工程系獲得了博士和碩士學(xué)位,導(dǎo)師是Zhuowen Tu。

攻讀博士期間,曾在NEC實(shí)驗(yàn)室、Adobe、Facebook、Google和DeepMind實(shí)習(xí)。在上海交通大學(xué)獲得了本科學(xué)位。主要研究方向是計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)。

參考資料:

https://xichenpan.com/metaquery/

https://arxiv.org/abs/2504.06256