OmniSearch團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
多模態(tài)檢索增強(qiáng)生成(mRAG)也有o1思考推理那味兒了!
阿里通義實(shí)驗(yàn)室新研究推出自適應(yīng)規(guī)劃的多模態(tài)檢索智能體。
名叫OmniSearch,它能模擬人類解決問(wèn)題的思維方式,將復(fù)雜問(wèn)題逐步拆解進(jìn)行智能檢索規(guī)劃。
直接看效果:
隨便上傳一張圖,詢問(wèn)任何問(wèn)題,OmniSearch都會(huì)進(jìn)行一段“思考過(guò)程”,不僅會(huì)將復(fù)雜問(wèn)題拆解檢索,而且會(huì)根據(jù)當(dāng)前檢索結(jié)果和問(wèn)題情境動(dòng)態(tài)調(diào)整下一步檢索策略。
相比傳統(tǒng)mRAG受制于其靜態(tài)的檢索策略,這種設(shè)計(jì)不僅提高了檢索效率,也顯著增強(qiáng)了模型生成內(nèi)容的準(zhǔn)確性。
為評(píng)估OmniSearch,研究團(tuán)隊(duì)構(gòu)建了全新Dyn-VQA數(shù)據(jù)集。
在一系列基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)中,OmniSearch展現(xiàn)了顯著的性能優(yōu)勢(shì)。特別是在處理需要多步推理、多模態(tài)知識(shí)和快速變化答案的問(wèn)題時(shí),OmniSearch相較于現(xiàn)有的mRAG方法表現(xiàn)更為優(yōu)異。
目前OmniSearch在魔搭社區(qū)還有demo可玩。
動(dòng)態(tài)檢索規(guī)劃框架,打破傳統(tǒng)mRAG局限
傳統(tǒng)mRAG方法遵循固定的檢索流程,典型的步驟如下:
- 輸入轉(zhuǎn)化:接收多模態(tài)輸入(例如圖像+文本問(wèn)題),將圖像轉(zhuǎn)化為描述性文本(例如通過(guò)image caption模型)。
- 單一模態(tài)檢索:將問(wèn)題或描述性文本作為檢索查詢,向知識(shí)庫(kù)發(fā)送單一模態(tài)檢索請(qǐng)求(通常是文本檢索)。
- 固定生成流程:將檢索到的信息與原始問(wèn)題結(jié)合,交由MLLM生成答案。
OmniSearch旨在解決傳統(tǒng)mRAG方法的以下痛點(diǎn):
- 靜態(tài)檢索策略的局限:傳統(tǒng)方法采用固定的兩步檢索流程,無(wú)法根據(jù)問(wèn)題和檢索內(nèi)容動(dòng)態(tài)調(diào)整檢索路徑,導(dǎo)致信息獲取效率低下。
- 檢索查詢過(guò)載:?jiǎn)我粰z索查詢往往包含了多個(gè)查詢意圖,反而會(huì)引入大量無(wú)關(guān)信息,干擾模型的推理過(guò)程。
為克服上述局限,OmniSearch引入了一種動(dòng)態(tài)檢索規(guī)劃框架。

OmniSearch的核心架構(gòu)包括:
- 規(guī)劃智能體(Planning Agent):負(fù)責(zé)對(duì)原始問(wèn)題進(jìn)行逐步拆解,根據(jù)每個(gè)檢索步驟的反饋決定下一步的子問(wèn)題及檢索策略。
- 檢索器(Retriever):執(zhí)行實(shí)際的檢索任務(wù),支持圖像檢索、文本檢索以及跨模態(tài)檢索。
- 子問(wèn)題求解器(Sub-question Solver):對(duì)檢索到的信息進(jìn)行總結(jié)和解答,具備高度的可擴(kuò)展性,可以與不同大小的多模態(tài)大語(yǔ)言模型集成。
- 迭代推理與檢索(Iterative Reasoning and Retrieval):通過(guò)遞歸式的檢索與推理流程,逐步接近問(wèn)題的最終答案。
- 多模態(tài)特征的交互:有效處理文本、圖像等多模態(tài)信息,靈活調(diào)整檢索策略。
- 反饋循環(huán)機(jī)制(Feedback Loop):在每一步檢索和推理后,反思當(dāng)前的檢索結(jié)果并決定下一步行動(dòng),以提高檢索的精確度和有效性。

構(gòu)建新數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估
為了更好地評(píng)估OmniSearch和其它mRAG方法的性能,研究團(tuán)隊(duì)構(gòu)建了全新的Dyn-VQA數(shù)據(jù)集。Dyn-VQA包含1452個(gè)動(dòng)態(tài)問(wèn)題,涵蓋了以下三種類型:
- 答案快速變化的問(wèn)題:這類問(wèn)題的背景知識(shí)不斷更新,需要模型具備動(dòng)態(tài)的再檢索能力。例如,詢問(wèn)某位明星的最新電影票房,答案會(huì)隨著時(shí)間的推移而發(fā)生變化。
- 多模態(tài)知識(shí)需求的問(wèn)題:?jiǎn)栴}需要同時(shí)從多模態(tài)信息(如圖像、文本等)中獲取知識(shí)。例如,識(shí)別一張圖片中的球員,并回答他的球隊(duì)圖標(biāo)是什么。
- 多跳問(wèn)題:?jiǎn)栴}需要多個(gè)推理步驟,要求模型在檢索后進(jìn)行多步推理。
這些類型的問(wèn)題相比傳統(tǒng)的VQA數(shù)據(jù)集需要更復(fù)雜的檢索流程,更考驗(yàn)多模態(tài)檢索方法對(duì)復(fù)雜檢索的規(guī)劃能力。

在Dyn-VQA數(shù)據(jù)集上的表現(xiàn)
- 答案更新頻率:對(duì)于答案快速變化的問(wèn)題,OmniSearch的表現(xiàn)顯著優(yōu)于GPT-4V結(jié)合啟發(fā)式mRAG方法,準(zhǔn)確率提升了近88%。
- 多模態(tài)知識(shí)需求:OmniSearch能夠有效地結(jié)合圖像和文本進(jìn)行檢索,其在需要額外視覺(jué)知識(shí)的復(fù)雜問(wèn)題上的表現(xiàn)遠(yuǎn)超現(xiàn)有模型,準(zhǔn)確率提高了35%以上。
- 多跳推理問(wèn)題:OmniSearch通過(guò)多次檢索和動(dòng)態(tài)規(guī)劃,能夠精確解決需要多步推理的問(wèn)題,實(shí)驗(yàn)結(jié)果表明其在這類問(wèn)題上的表現(xiàn)優(yōu)于當(dāng)前最先進(jìn)的多模態(tài)模型,準(zhǔn)確率提升了約35%。

在其它數(shù)據(jù)集上的表現(xiàn)
接近人類級(jí)別表現(xiàn):
OmniSearch在大多數(shù)VQA任務(wù)上達(dá)到了接近人類水平的表現(xiàn)。例如,在VQAv2和A-OKVQA數(shù)據(jù)集中,OmniSearch的準(zhǔn)確率分別達(dá)到了70.34和84.12,顯著超越了傳統(tǒng)mRAG方法。
復(fù)雜問(wèn)題處理能力:
在更具挑戰(zhàn)性的Dyn-VQA數(shù)據(jù)集上,OmniSearch通過(guò)多步檢索策略顯著提升了模型的表現(xiàn),達(dá)到了50.03的F1-Recall評(píng)分,相比基于GPT-4V的傳統(tǒng)兩步檢索方法提升了近14分。


模塊化能力與可擴(kuò)展性
OmniSearch可以靈活集成不同規(guī)模和類型的多模態(tài)大語(yǔ)言模型(MLLM)作為子問(wèn)題求解器。
無(wú)論是開(kāi)源模型(如Qwen-VL-Chat)還是閉源模型(如GPT-4V),OmniSearch都能通過(guò)動(dòng)態(tài)規(guī)劃與這些模型協(xié)作完成復(fù)雜問(wèn)題的解決。
它的模塊化設(shè)計(jì)允許根據(jù)任務(wù)需求選擇最合適的模型,甚至在不同階段調(diào)用不同大小的MLLM,以在性能和計(jì)算成本之間實(shí)現(xiàn)靈活平衡。
下面是OmniSearch和不同模型配合的實(shí)驗(yàn)結(jié)果:

Paper:https://arxiv.org/abs/2411.02937
Github:https://github.com/Alibaba-NLP/OmniSearch
ModelScope Demo: https://modelscope.cn/studios/iic/OmniSearch/summary?header=default&fullWidth=false
熱門跟貼