DeepNote團(tuán)隊 投稿
量子位 | 公眾號 QbitAI

在當(dāng)前大語言模型(LLMs)廣泛應(yīng)用于問答、對話等任務(wù)的背景下,如何更有效地結(jié)合外部知識、提升模型對復(fù)雜問題的理解與解答能力,成為 RAG(Retrieval-Augmented Generation)方向的核心挑戰(zhàn)。

來自清華大學(xué)、中國科學(xué)院大學(xué)、華南理工大學(xué)、東北大學(xué)、九星(AI9Stars)的聯(lián)合研究團(tuán)隊提出了一項全新的適應(yīng)式RAG方法——DeepNote。

它首次引入“筆記(Note)”作為知識載體,實現(xiàn)更深入、更穩(wěn)定的知識探索與整合,在所有任務(wù)上均優(yōu)于主流RAG方法,相較于基礎(chǔ)RAG性能提升高達(dá)+20.1%。即使在使用中小參數(shù)量模型時,依然展現(xiàn)出強(qiáng)大的能力與泛化性。

打開網(wǎng)易新聞 查看精彩圖片

研究動機(jī):RAG 為何仍力不從心?

RAG技術(shù)通過引入外部知識(如 Wikipedia)來緩解大模型的幻覺與事實錯誤問題。然而,Vanilla RAG方法只支持一次性檢索。

想象一個問題需要跨越多個實體或事實推理,顯然“一問一檢索一答”的 Vanilla RAG 已遠(yuǎn)遠(yuǎn)不夠。這種知識不足現(xiàn)象特別是在具有復(fù)雜的知識需求的multi-hop QA、long-form QA 等任務(wù)中尤為嚴(yán)重。

為了應(yīng)對這些復(fù)雜問答場景,一些研究提出多輪檢索RAG。然而,多輪檢索RAG往往不假思索地執(zhí)行多次檢索,易引入大量無關(guān)或噪聲段落,導(dǎo)致檢索結(jié)果冗雜,從而降低最終回答的質(zhì)量。

為了進(jìn)一步構(gòu)建有效且靈活的RAG系統(tǒng),一些近期的工作提出自適應(yīng)RAG,它引入動態(tài)決策機(jī)制,允許模型根據(jù)反饋判斷是否繼續(xù)檢索。但自適應(yīng)RAG方法仍存在以下兩個核心問題:

  • 檢索-生成耦合過緊:
  • 每次檢索后立即生成答案,導(dǎo)致模型只能依據(jù)“當(dāng)前輪”的知識作答,無法真正整合前后信息;
  • 檢索策略決策不足:
  • 大模型自行判斷“是否繼續(xù)檢索”容易偏離真正的知識需求,漏掉關(guān)鍵信息。

這些問題最終都導(dǎo)致一個核心困境:缺乏“信息生長”的能力——模型既無法感知自己是否“學(xué)到了新東西”,也無法真正“記住”與“利用”之前獲取的信息。

解決方案:DeepNote

為解決上述難題,團(tuán)隊提出了DeepNote,一種以“筆記”為中心、以“知識生長”為目標(biāo)的深度檢索增強(qiáng)生成框架。其關(guān)鍵特性是:用“記下的知識”引導(dǎo)檢索,用“最優(yōu)筆記”生成答案。

打開網(wǎng)易新聞 查看精彩圖片

DeepNote主要包含三個階段:

筆記初始化(Note Initialization)

系統(tǒng)基于初始問題和初次檢索內(nèi)容構(gòu)建出一份筆記,用于啟動整個知識積累過程。該筆記是 LLM 自主整理的結(jié)構(gòu)化知識表示,作為后續(xù)所有檢索與判斷的依據(jù)。

基于筆記的適應(yīng)式檢索(Note-Centric Adaptive Retrieval)

系統(tǒng)使用當(dāng)前“最佳筆記”生成下一輪檢索查詢,并評估新獲取內(nèi)容是否帶來了真正的知識增益。只有當(dāng)模型判斷新知識“有價值”時,才會更新筆記并繼續(xù)下一輪;否則終止檢索。這一機(jī)制確保每一輪檢索都有明確目標(biāo)、每一份信息都在“生長”。

基于最佳筆記的答案生成(Note-Informed Answer Generation)

最終,系統(tǒng)使用已積累的“最佳筆記”生成回答,確保答案來源清晰、內(nèi)容完整、邏輯連貫。
這一設(shè)計模擬了人類解決復(fù)雜問題時的策略:邊查邊記、反復(fù)比對、直至知識充分。

DeepNote與主流方法對比

為了更直觀地展現(xiàn)DeepNote的特點(diǎn),團(tuán)隊整理了與現(xiàn)有代表性方法的能力對比表:

打開網(wǎng)易新聞 查看精彩圖片

  • 多次檢索:是否支持多次檢索。
  • 自適應(yīng)檢索:是否能根據(jù)當(dāng)前信息動態(tài)地決定是否需要執(zhí)行進(jìn)一步的檢索動作以及檢索什么。
  • 模型訓(xùn)練:是否對不同階段進(jìn)行了針對性訓(xùn)練或偏好優(yōu)化。
  • 一次性知識總結(jié):是否在檢索后執(zhí)行一次性檢索知識總結(jié)。
  • 迭代知識總結(jié):是否支持在多輪檢索中多次更新、積累、總結(jié)知識。

可以看到,DeepNote是目前唯一在自適應(yīng)檢索控制、自適應(yīng)知識積累與更新、模型優(yōu)化三大核心維度上同時實現(xiàn)系統(tǒng)性突破的方法。這一框架不僅填補(bǔ)了自適應(yīng)檢索與知識積累之間的空白,更在具有復(fù)雜知識需求的任務(wù)中展現(xiàn)出前所未有的探索深度和廣度,標(biāo)志著自適應(yīng)RAG技術(shù)邁入了一個新的階段

實驗結(jié)果:顯著超越現(xiàn)有方法

在五個具有代表性的QA數(shù)據(jù)集上進(jìn)行實證評估,涵蓋:

  • 多跳問答(復(fù)雜):HotpotQA, 2WikiMQA, MusiQue
  • 長形式問答 (復(fù)雜):ASQA
  • 短形式問答 (簡單):StrategyQA

結(jié)果顯示,DeepNote在所有任務(wù)上均優(yōu)于主流RAG方法,相較于基礎(chǔ) RAG,性能提升高達(dá)+20.1%。即使在使用中小參數(shù)量模型時,依然展現(xiàn)出強(qiáng)大的能力與泛化性。

打開網(wǎng)易新聞 查看精彩圖片

同時團(tuán)隊還構(gòu)建了一個高質(zhì)量訓(xùn)練數(shù)據(jù)集DNAlign,并結(jié)合DPO(Direct Preference Optimization)對模型進(jìn)行精細(xì)優(yōu)化,進(jìn)一步提升了DeepNote在多任務(wù)流程下的指令遵循能力與表現(xiàn)。

核心結(jié)論與意義

DeepNote核心優(yōu)勢分析如下

真正實現(xiàn)“信息生長”:

每輪檢索不是獨(dú)立的“抽樣”,而是建立在已有知識基礎(chǔ)上的持續(xù)拓展;

信息密度顯著提升:

相比傳統(tǒng)RAG,DeepNote的參考內(nèi)容更緊湊、相關(guān)性更高;

打開網(wǎng)易新聞 查看精彩圖片

Reference”指最終用于生成回答的檢索內(nèi)容或筆記;其中,與回答問題直接相關(guān)的片段被標(biāo)注為“Evidence”;而“Knowledge Density”則衡量Evidence在Reference中所占比例,用以評估知識的精煉程度。

在知識密度與性能分析中,團(tuán)隊系統(tǒng)考察了不同RAG方法對知識密度和質(zhì)量的影響。實驗結(jié)果表明,Vanilla RAG檢索文檔篇幅冗長但其知識密度較低,存在大量噪聲信息;而初始筆記雖然能夠通過單次總結(jié)有效提升知識密度,但其性能提升主要來自于檢索內(nèi)容總體長度的縮減,且由于知識總量下降,可能會出現(xiàn)性能下降現(xiàn)象。相比之下,DeepNote在保持高知識密度的同時,顯著提升了整體性能,表明基于筆記的自適應(yīng)檢索機(jī)制能夠在降低噪聲干擾的同時,持續(xù)積累更加豐富、精煉且高相關(guān)度的知識,為最終生成提供了更堅實的信息支撐。

支持自適應(yīng)停止與深度控制:

用戶可設(shè)定失敗閾值和最大步數(shù),自由權(quán)衡探索深度與成本;

打開網(wǎng)易新聞 查看精彩圖片

高通用性:

可搭配多種開源或閉源模型及檢索器,適用于多種實際任務(wù)場景。

  • DeepNote將“記憶式推理”機(jī)制引入RAG系統(tǒng),打破了傳統(tǒng)RAG“檢索-生成”一步到位的瓶頸,使模型在復(fù)雜任務(wù)中具備了更接近人類的信息整合與推理能力。

該方法不僅適用于學(xué)術(shù)研究中對復(fù)雜信息的深入問答,還可用于法律、醫(yī)學(xué)、教育等對準(zhǔn)確性與知識整合要求極高的真實場景,具備廣泛的落地潛力。

本項目由清華大學(xué)自然語言處理實驗室(THUNLP)、中國科學(xué)院大學(xué)信息工程研究所、華南理工大學(xué)、東北大學(xué)等單位共同完成,歡迎感興趣的研究者和開發(fā)者前來交流!

論文地址:https://arxiv.org/abs/2410.08821
開源項目: https://github.com/thunlp/DeepNote