
在信息檢索系統(tǒng)中,搜索引擎的能力只是影響結果的一個方面,真正的瓶頸往往在于:用戶的原始 query 本身不夠好。
尤其在專業(yè)搜索場景(如文獻、數據庫查詢)中,用戶往往無法用精確、完整的表達描述他們的需求。
那么問題來了:能不能教大模型優(yōu)化原始 query 的表達方式,從而讓已有檢索系統(tǒng)的能力被最大化激發(fā)?
來自 UIUC 的 Jiawei Han 和 Jimeng Sun 團隊的一項最新工作DeepRetrieval就是針對這個問題提出了系統(tǒng)性解法,只需3B 的 LLM即可實現 50 個點以上的提升。

- 論文標題:DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning
- 論文地址:https://arxiv.org/pdf/2503.00223
- 開源代碼:https://github.com/pat-jj/DeepRetrieval
- 開源模型:https://huggingface.co/DeepRetrieval
一句話概括:DeepRetrieval 是一個基于強化學習(RL)的 query 優(yōu)化系統(tǒng),訓練 LLM 在不同檢索任務中優(yōu)化原始查詢,以最大化真實系統(tǒng)的檢索效果。
它不是訓練一個新的 retriever,也不是讓模型直接回答問題,而是:
在不改變現有搜索系統(tǒng)的前提下,通過優(yōu)化原始 query,讓「提問方式」變得更聰明,從而獲取更好的結果。
更多有意義的討論請讀原文正文和附錄的 Discussion 部分。

方法細節(jié)

方法要點
- 輸入:原始查詢 q
- 輸出:改寫后的查詢 q′(自然語言、布爾表達式或 SQL)
- 環(huán)境反饋:使用 q′ 去檢索系統(tǒng)中查詢 → 返回結果 → 與 groundtruth 對比,計算 reward,reward 為 task-specific 檢索表現(如 Recall@K、NDCG@K、SQL accuracy)使用 PPO 進行訓練,并加入格式獎勵(format correctness)與 KL-regularization 保證訓練穩(wěn)定,優(yōu)化目標如下:

其中,π_ref 是參考策略(reference policy),通常指的是在強化學習開始之前的初始模型。β 是一個合適的 KL 懲罰系數,用于控制正則化的強度。KL 散度項的作用是懲罰當前策略與參考策略之間的過大偏離,從而在強化學習訓練過程中保證策略更新的穩(wěn)定性。
實驗結果
真實搜索引擎的文獻搜索

首先在真實的搜索引擎上進行實驗,文中用到了專業(yè)搜索引擎 PubMed 和 ClinicalTrials.gov。無需改動搜索引擎或其它任何檢索器,僅通過端到端地優(yōu)化 query 表達,DeepRetrieval 就可以讓結果獲得 10 倍提升,遠超各個商業(yè)大模型和之前的 SOTA 方法 LEADS(蒸餾 + SFT 方法)。
Evidence-Seeking 檢索:通用搜索引擎的革新潛力
DeepRetrieval 在 Evidence-Seeking 檢索任務上的優(yōu)異表現令人矚目。如表 1 所示,結合簡單 BM25,這個僅有 3B 參數的模型在 SQuAD、TriviaQA 和 NQ 數據集上超越了 GPT-4o 和 Claude-3.5 等大型商業(yè)模型。
Evidence-Seeking 任務的核心是找到支持特定事實性問題答案的確切文檔證據,在通用搜索引擎環(huán)境中,這一能力尤為關鍵。作者團隊指出,將 DeepRetrieval 應用到 Google、Bing 等通用搜索引擎的 Evidence-Seeking 場景將帶來顯著優(yōu)勢:
- 精準定位事實文檔:通用搜索引擎包含海量信息,用戶難以構建能精確定位證據段落的查詢。DeepRetrieval 可將簡單問題轉化為包含關鍵術語、同義詞和限定符的復雜查詢,顯著提高找到權威證據的概率。
- 克服知識時效性限制:模型能夠將「2024 年奧運會金牌榜前三名」等超出 LLM 知識截止日期的問題轉化為精確搜索表達,使檢索系統(tǒng)能夠找到最新事實證據。
- 多源驗證能力:通過優(yōu)化查詢幫助搜索引擎找到多個獨立來源的事實證據,從而交叉驗證信息準確性,這是純 LLM 問答無法實現的關鍵優(yōu)勢。
作者團隊表示會將這部分的延伸作為 DeepRetrieval未來主要的探索方向之一
Classic IR(Sparse / Dense)

在 BM25 和 dense retriever 下,DeepRetrieval 提供了平均 5~10 點 NDCG 提升,并且:BM25 + DeepRetrieval 和多數 dense baseline 水平相當。
結合極快的檢索速度(BM25 vs dense:352s vs 12,232s),展示了一個現實可部署、性能不俗的高效方案。
SQL 檢索任務
在 SQL 檢索任務中,DeepRetrieval 擺脫了對 groundtruth SQL 的依賴,直接利用生成 SQL 的執(zhí)行成功率優(yōu)化模型,通過生成更精準的 SQL 語句,使得模型在 Spider、BIRD 等數據集上的執(zhí)行正確率均超過對比模型(包括 GPT-4o 和基于 SFT 的大模型)。

探索勝于模仿:RL 為何超越 SFT
DeepRetrieval 的實驗揭示了強化學習(RL)在搜索優(yōu)化上相比監(jiān)督微調(SFT)的獨特優(yōu)勢。實驗數據令人信服:在文獻搜索上,RL 方法的 DeepRetrieval(65.07%)超過 SFT 方法 LEADS(24.68%)近三倍;在 SQL 任務上,從零開始的 RL 訓練(無需任何 gold SQL 語句的監(jiān)督)也優(yōu)于使用 GPT-4o 蒸餾數據的 SFT 模型。
這種顯著差異源于兩種方法的本質區(qū)別:SFT 是「模仿學習」,試圖復制參考查詢,而 RL 是「直接優(yōu)化」,通過環(huán)境反饋學習最優(yōu)查詢策略。SFT 方法的局限在于參考查詢本身可能不是最優(yōu)的,即使是人類專家或大模型也難以直觀設計出最適合特定搜索引擎的查詢表達。
論文中的案例分析進一步證實了這一點。例如,在 PubMed 搜索中,DeepRetrieval 生成的查詢如「((DDAVP) AND (Perioperative Procedures OR Blood Transfusion OR Desmopressin OR Anticoagulant)) AND (Randomized Controlled Trial)」融合了醫(yī)學領域的專業(yè)術語和 PubMed 搜索引擎偏好的布爾結構,這種組合很難通過簡單模仿預定義的查詢模板獲得。
相反,RL 允許模型通過嘗試與錯誤來探索查詢空間,發(fā)現人類甚至未考慮的有效模式,并直接針對最終目標(如 Recall 或執(zhí)行準確率)進行優(yōu)化。這使 DeepRetrieval 能夠生成高度適合特定搜索引擎特性的查詢,適應不同檢索環(huán)境的獨特需求。
這一發(fā)現具有重要啟示:在追求最佳檢索性能時,讓模型通過反饋學習如何與檢索系統(tǒng)「對話」,比簡單模仿既定模式更為有效,這也解釋了為何參數量較小的 DeepRetrieval 能在多項任務上超越擁有更多參數的商業(yè)模型。
模型 Think&Query 長度分析

通過分析 DeepRetrieval 在訓練過程中模型思考鏈和查詢長度的變化,可以發(fā)現以下關鍵洞見
思考鏈長度演變
與「aha moment」相反,DeepRetrieval 的思考鏈長度隨訓練呈下降趨勢,而非增長。這與 DeepSeek-R1 報告的「aha moment」現象形成鮮明對比,后者的思考鏈會隨訓練進展變得更長。圖 4(a) 清晰地展示了 Qwen 模型思考鏈從初始約 150 tokens 逐漸降至穩(wěn)定的 50 tokens 左右,而 Llama 模型的思考鏈更短,甚至降至接近 25 tokens。
查詢長度特征
實驗揭示了思考過程對查詢長度的顯著影響。無思考過程的模型容易陷入次優(yōu)解,如圖 4(b) 所示,Qwen 無思考版本生成極長查詢(500-600 tokens),表現出過度擴展的傾向。相比之下,有思考過程的模型保持更為適中的查詢長度,Qwen 約 150 tokens,Llama 約 100 tokens。有趣的是,不同模型采用不同長度策略,但能達到相似性能,表明查詢生成存在多樣有效路徑。
性能與思考過程關系
思考過程對檢索性能有決定性影響。圖 4(c) 表明,具備思考能力的模型性能顯著提升,有思考的模型 Recall@3K 能達到 65%,而無思考模型僅 50% 左右。此外,訓練效率也明顯提高,有思考的模型更快達到高性能并保持穩(wěn)定。論文附錄 D.1 的分析表明,思考過程幫助模型避免簡單地通過增加查詢長度和重復術語來提升性能,而是引導模型學習更有效的語義組織策略。
關鍵結論
DeepRetrieval 展示了思考過程在信息檢索中扮演「探索促進器」的關鍵角色。與數學或編程問題不同,檢索任務不需要像「aha moment」那樣的突然頓悟現象。相反,檢索優(yōu)化遵循「先詳細思考,后逐漸精簡」的模式,模型在內化有效策略后,不再需要冗長思考。這表明檢索任務中思考鏈的主要功能是探索,一旦策略穩(wěn)定便可簡化。
這種分析表明,適當的思考過程設計對于構建高效的檢索優(yōu)化系統(tǒng)至關重要,能夠在不增加模型參數的情況下顯著提升性能,為未來的 LLM 應用于搜索任務提供了重要設計思路。
結論
DeepRetrieval 的貢獻在于揭示了一個常被忽視但至關重要的事實:檢索效果的上限不僅在于檢索器本身,更在于如何「提問」。
通過強化學習教 LLM 改寫原始查詢,DeepRetrieval 不僅擺脫了對人工標注數據和大模型蒸餾的依賴,還在多個任務上證明了改寫 query 的巨大潛力。這項工作為搜索與信息檢索領域帶來了新的思考:未來的檢索優(yōu)化,不僅是提升引擎算法,更是如何讓用戶「問得更好」,從而激發(fā)出檢索系統(tǒng)的全部潛力。
熱門跟貼