
上海交通大學(xué)與 SII 聯(lián)合發(fā)布了 DeepResearcher,代碼訓(xùn)練框架完全開源。這是首個(gè)在真實(shí)網(wǎng)絡(luò)環(huán)境中通過強(qiáng)化學(xué)習(xí)訓(xùn)練的 AI 研究模型。
隨著大型語言模型(LLMs)推理能力的飛速發(fā)展,OpenAI、Google 和 XAI 等科技巨頭紛紛推出了備受歡迎的 Deep Research 產(chǎn)品。這些工具能幫助用戶整合海量網(wǎng)絡(luò)信息,解決復(fù)雜問題,大大提升研究效率。
但現(xiàn)有系統(tǒng)存在兩大痛點(diǎn):一方面,商業(yè)產(chǎn)品如 OpenAI 的 Deep Research 完全是 "黑盒",其技術(shù)細(xì)節(jié)不對(duì)外公開;另一方面,開源項(xiàng)目往往依賴人工設(shè)計(jì)的工作流程,導(dǎo)致行為僵化、泛化能力差,在復(fù)雜研究場(chǎng)景中表現(xiàn)脆弱。
DeepResearcher 通過強(qiáng)化學(xué)習(xí)擴(kuò)展(RL scaling)在真實(shí)網(wǎng)絡(luò)環(huán)境中訓(xùn)練,自發(fā)形成了令人驚嘆的研究能力。以圖中所示的例子為證:在回答問題時(shí),DeepResearcher 不只是簡單搜索信息,而是展現(xiàn)出人類才有的復(fù)雜行為模式 —— 自主規(guī)劃研究步驟、動(dòng)態(tài)調(diào)整搜索策略、交叉驗(yàn)證不同來源的信息。
特別值得注意的是,當(dāng)面對(duì) "誰是電影先驅(qū)" 這類開放性問題時(shí),DeepResearcher 不會(huì)盲目接受首次搜索結(jié)果,而是主動(dòng)開展第二輪更精確的搜索以驗(yàn)證信息準(zhǔn)確性,確保最終答案的可靠性。這種自發(fā)形成的交叉驗(yàn)證行為,是 AI 真正理解 "研究" 本質(zhì)的體現(xiàn)!

雖然近期研究嘗試將強(qiáng)化學(xué)習(xí)與信息檢索結(jié)合,但它們大多基于本地知識(shí)庫模擬搜索,而非在真實(shí)網(wǎng)絡(luò)環(huán)境中訓(xùn)練。這就像在 "模擬水池" 里學(xué)游泳,而非真正的 "大海" 中歷練。
而 DeepResearcher 嘗試解決這個(gè)問題,它直接與實(shí)時(shí)搜索引擎互動(dòng),在真實(shí)互聯(lián)網(wǎng)的復(fù)雜環(huán)境中學(xué)習(xí)研究技能。就像人類研究者一樣,它能自主規(guī)劃研究路徑、交叉驗(yàn)證信息、動(dòng)態(tài)調(diào)整策略,甚至在信息不足時(shí)坦誠承認(rèn)限制。
這一開創(chuàng)性工作不僅填補(bǔ)了開源 Deep Research 領(lǐng)域的關(guān)鍵空白,也為理解如何培養(yǎng) AI 的真實(shí)研究能力提供了全新視角。

- 論文標(biāo)題:DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
- 論文地址:https://github.com/GAIR-NLP/DeepResearcher/blob/main/resources/DeepResearcher.pdf
- 代碼地址:https://github.com/GAIR-NLP/DeepResearcher
- 模型地址:https://huggingface.co/GAIR/DeepResearcher-7b
結(jié)果總結(jié)
- DeepResearcher 在多個(gè)問答數(shù)據(jù)集上超過所有基線,與基于提示工程的智能體相比,DeepResearcher 在研究任務(wù)完成度方面最高可提升 28.9 分。相較于基于 RAG 的強(qiáng)化學(xué)習(xí)(RL)智能體,DeepResearcher 的提升幅度最高可達(dá) 7.2 分。這在知識(shí)范圍超出維基百科的 Bamboogle 測(cè)試集上尤為明顯。
- 真實(shí)搜索環(huán)境的直接交互不僅僅是一個(gè)實(shí)現(xiàn)細(xì)節(jié),而是構(gòu)建能夠在真實(shí)世界應(yīng)用中高效執(zhí)行研究任務(wù)的自主系統(tǒng)的關(guān)鍵組成部分。
- 再利用真實(shí)環(huán)境進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練后,模型展示出規(guī)劃、反思、交叉驗(yàn)證等行為,并能保持誠實(shí)回答。

一、為什么要在真實(shí)環(huán)境做端到端 RL scaling
在開發(fā)真正有效的深度研究代理時(shí),訓(xùn)練環(huán)境的選擇至關(guān)重要。與傳統(tǒng)的基于本地 RAG 的 RL 訓(xùn)練相比,在真實(shí)網(wǎng)絡(luò)環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練具有本質(zhì)上的優(yōu)勢(shì),這些優(yōu)勢(shì)是任何模擬環(huán)境都無法替代的。
真實(shí)網(wǎng)絡(luò)環(huán)境具有高度的不確定性和復(fù)雜性
網(wǎng)絡(luò)上的信息并非靜態(tài)固定的知識(shí)庫,而是動(dòng)態(tài)變化的、多樣化的、有時(shí)甚至是相互矛盾的內(nèi)容集合。在這樣的環(huán)境中訓(xùn)練,模型必須學(xué)會(huì)應(yīng)對(duì)真實(shí)世界的挑戰(zhàn):評(píng)估信息的可靠性、處理不完整或過時(shí)的數(shù)據(jù)、從噪聲中提取有價(jià)值的信號(hào),以及整合來自不同領(lǐng)域的知識(shí)。相比之下,本地 RAG 環(huán)境過于 "干凈" 和可控,它假設(shè)所有必要信息都已存在于固定知識(shí)庫中,這一假設(shè)在真實(shí)的深度研究場(chǎng)景中幾乎不成立。
真實(shí)環(huán)境還要求模型發(fā)展復(fù)雜的信息整合能力。模型需要學(xué)習(xí)從多個(gè)來源收集信息,并通過批判性思維將這些信息合成為連貫的答案。它必須權(quán)衡不同信息源的可靠性,識(shí)別并解決矛盾的觀點(diǎn),并以人類可理解的方式呈現(xiàn)結(jié)果。這種復(fù)雜的信息處理能力只能在面對(duì)真實(shí)信息源的多樣性和不可預(yù)測(cè)性時(shí)才能真正發(fā)展起來。
RL Scaling 是泛化能力的保障
RL Scaling 訓(xùn)練是確保模型泛化能力的關(guān)鍵機(jī)制。通過在海量真實(shí)網(wǎng)絡(luò)查詢中不斷試錯(cuò)和優(yōu)化,模型能夠逐步建立起對(duì)搜索策略的深刻理解,而非簡單記憶特定查詢 - 響應(yīng)對(duì)。這種理解體現(xiàn)在多個(gè)層面:
- 模型學(xué)會(huì)了如何根據(jù)問題性質(zhì)構(gòu)建有效的搜索查詢
- 它能夠識(shí)別哪些搜索結(jié)果值得深入探索,哪些可以忽略
- 在初始搜索失敗時(shí),它能夠調(diào)整策略,嘗試不同的關(guān)鍵詞或搜索角度
- 面對(duì)復(fù)雜問題,它能夠分解為多個(gè)子問題并逐一解決
這些能力使得 DeepResearcher 能夠處理訓(xùn)練中從未見過的問題類型,表現(xiàn)出真正的泛化能力,而非僅依賴于參數(shù)化記憶。
端到端訓(xùn)練讓模型擺脫工作流的桎梏
傳統(tǒng)的提示工程方法通常預(yù)設(shè)了固定的工作流程:先做 A,再做 B,最后做 C。這種方法在處理標(biāo)準(zhǔn)問題時(shí)可能有效,但面對(duì)復(fù)雜多變的研究任務(wù)時(shí)往往顯得僵化。通過端到端的 RL 訓(xùn)練,DeepResearcher 能夠:
- 自主發(fā)現(xiàn)最優(yōu)的研究路徑,而非遵循預(yù)定義的工作流。
- 根據(jù)問題的實(shí)際需求靈活調(diào)整搜索深度和廣度。
- 在搜索過程中根據(jù)新發(fā)現(xiàn)的信息動(dòng)態(tài)調(diào)整研究方向。
- 發(fā)展出人類設(shè)計(jì)者可能未曾預(yù)料到的創(chuàng)新性問題解決策略。
這種自主性使 DeepResearcher 能夠應(yīng)對(duì)各種研究場(chǎng)景,包括那些需要高度創(chuàng)造性和適應(yīng)性的復(fù)雜問題。模型不再被限制在設(shè)計(jì)者的思維框架內(nèi),而是能夠探索更廣闊的解決方案空間。
通過在真實(shí)網(wǎng)絡(luò)環(huán)境中進(jìn)行 RL Scaling 和端到端訓(xùn)練,DeepResearcher 打破了傳統(tǒng)研究代理的限制,為 AI 輔助研究開辟了新的可能性。
二、如何解決真實(shí)環(huán)境 RL Scaling 的工程挑戰(zhàn)
在真實(shí)網(wǎng)絡(luò)環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)面臨許多本地 RAG 環(huán)境中不存在的技術(shù)挑戰(zhàn)。研究團(tuán)隊(duì)通過創(chuàng)新方法解決了這些問題,確保系統(tǒng)能夠在開放網(wǎng)絡(luò)環(huán)境中穩(wěn)定高效地運(yùn)行。
處理大量并發(fā)請(qǐng)求
強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,特別是使用 GRPO 算法時(shí),系統(tǒng)需要為每個(gè)問題并行生成多個(gè)獨(dú)立軌跡(在實(shí)現(xiàn)中是 16 個(gè)),這產(chǎn)生了海量并發(fā)請(qǐng)求。單一服務(wù)器會(huì)被網(wǎng)站反爬措施限流,且這些請(qǐng)求需要實(shí)時(shí)處理以保證訓(xùn)練效率。為此,研究團(tuán)隊(duì)設(shè)計(jì)了分布式 CPU 服務(wù)器集群架構(gòu),實(shí)現(xiàn)了高效的任務(wù)分配機(jī)制,并建立了請(qǐng)求隊(duì)列和負(fù)載均衡系統(tǒng),保證每臺(tái)服務(wù)器所需要處理的任務(wù)量接近。
應(yīng)對(duì)網(wǎng)絡(luò)爬取與 API 限制
真實(shí)網(wǎng)絡(luò)環(huán)境中,網(wǎng)站反爬措施、API 限制和網(wǎng)絡(luò)延遲是不可避免的挑戰(zhàn)。網(wǎng)站可能在檢測(cè)到大量請(qǐng)求時(shí)返回?zé)o關(guān)內(nèi)容或拒絕響應(yīng),而搜索引擎 API 通常有嚴(yán)格的頻率限制和使用成本。為解決這些問題,研究團(tuán)隊(duì)實(shí)現(xiàn)了智能重試機(jī)制,能在遇到臨時(shí)故障時(shí)自動(dòng)調(diào)整策略;構(gòu)建了高效的緩存命中系統(tǒng),相同查詢?cè)谝欢〞r(shí)間內(nèi)(如 7 天)直接從緩存獲取結(jié)果;同時(shí)開發(fā)了請(qǐng)求分散策略,動(dòng)態(tài)監(jiān)控 API 使用情況并調(diào)整請(qǐng)求節(jié)奏,避免觸發(fā)限制的同時(shí)控制成本。
多代理框架優(yōu)化信息提取
網(wǎng)頁內(nèi)容通常結(jié)構(gòu)復(fù)雜且冗長,與查詢相關(guān)的信息可能只占很小一部分。為高效提取有價(jià)值信息,研究團(tuán)隊(duì)設(shè)計(jì)了多代理協(xié)作框架,讓專門的閱讀代理負(fù)責(zé)內(nèi)容提取工作。系統(tǒng)將長網(wǎng)頁分割成可管理的小段,閱讀代理從頁面開始部分順序處理,基于當(dāng)前查詢和已收集信息動(dòng)態(tài)決定是否繼續(xù)讀取。如果前幾部分主要包含無關(guān)內(nèi)容,系統(tǒng)會(huì)判斷整個(gè)網(wǎng)頁可能不值得深入,從而跳過后續(xù)內(nèi)容。這種漸進(jìn)式處理方法不僅提高了計(jì)算效率,還能更準(zhǔn)確地識(shí)別和提取相關(guān)信息。
三、DeepResearcher 訓(xùn)練架構(gòu)

DeepResearcher 的深度研究軌跡
在 DeepResearcher 的推理軌跡中,智能體會(huì)根據(jù)用戶問題和觀測(cè)結(jié)果進(jìn)行迭代推理與工具選擇,在動(dòng)態(tài)的真實(shí)世界環(huán)境中通過網(wǎng)頁搜索解決問題。
- 推理(Reasoning):DeepResearcher 在執(zhí)行具體動(dòng)作之前必須先進(jìn)行推理。每次推理過程都被封裝在
- 標(biāo)簽內(nèi),遵循 DeepSeek-R1 的設(shè)定。
- 網(wǎng)頁搜索工具(Web Search Tool):DeepResearcher 通過生成JSON 格式的請(qǐng)求來調(diào)用網(wǎng)頁搜索工具。搜索結(jié)果以結(jié)構(gòu)化格式返回,每條結(jié)果包含標(biāo)題(title)、URL 和摘要(snippet)。當(dāng)前實(shí)現(xiàn)使用固定的top-k(如 10)作為搜索結(jié)果的檢索參數(shù)。未來工作可以探索基于 LLM 的動(dòng)態(tài)參數(shù)優(yōu)化 以提升搜索效率。
- 網(wǎng)頁瀏覽智能體(Web Browsing Agent):網(wǎng)頁瀏覽智能體為 DeepResearcher 系統(tǒng)提供可靠、與問題相關(guān)、且可增量更新的信息。具體而言,它對(duì)每個(gè)查詢維護(hù)一個(gè)短期記憶庫。當(dāng)收到網(wǎng)頁瀏覽請(qǐng)求時(shí),智能體首先處理 URL 的第一頁內(nèi)容,然后基于查詢、歷史記憶和新獲取的網(wǎng)頁內(nèi)容執(zhí)行兩種操作:
- 1. 判斷是否需要繼續(xù)讀取下一個(gè) URL / 頁面片段,或者停止瀏覽。
- 2. 將相關(guān)信息追加到短期記憶庫。
- 當(dāng)智能體決定停止瀏覽時(shí),它會(huì)整理短期記憶庫中的新增信息并將其返回給 DeepResearcher 系統(tǒng)。
- 回答生成(Answering):當(dāng)模型判斷已獲取足夠信息后,它會(huì)生成最終答案,并將其封裝在 標(biāo)簽內(nèi)返回給用戶。
訓(xùn)練方法
該項(xiàng)目采用強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)訓(xùn)練智能體。本節(jié)概述了具體如何利用 RL 框架進(jìn)行訓(xùn)練,以及在其中使用的具體算法和工具。
GRPO 算法
在本研究中,研究團(tuán)隊(duì)采用群體相對(duì)策略優(yōu)化(Group Relative Policy Optimization, GRPO)算法。GRPO 通過利用參考策略以及由現(xiàn)有策略,生成的一組 rollout 來優(yōu)化當(dāng)前策略。具體而言,給定 G 個(gè) rollout:

其中,每個(gè)輸入 x 服從經(jīng)驗(yàn)分布 D(即 x~D),GRPO 使用這些軌跡來估計(jì)基準(zhǔn)(baseline),而無需單獨(dú)訓(xùn)練一個(gè)評(píng)論模型(critic)。隨后,通過最大化以下目標(biāo)函數(shù)來優(yōu)化當(dāng)前策略:
觀查掩碼(Masking Observations)
工具的輸出是一個(gè)觀察結(jié)果,而不是期望模型產(chǎn)生的輸出。因此研究團(tuán)隊(duì)還使用掩碼來防止工具的輸出參與訓(xùn)練,只允許模型的響應(yīng)對(duì)訓(xùn)練過程做出貢獻(xiàn)。
獎(jiǎng)勵(lì)函數(shù)
使用F1 分?jǐn)?shù)作為獎(jiǎng)勵(lì)函數(shù),并對(duì)格式錯(cuò)誤的回復(fù)處以懲罰。

- 格式懲罰(Format Penalty):如果答案格式不正確(例如缺少標(biāo)簽或存在結(jié)構(gòu)性錯(cuò)誤),智能體將受到-1的懲罰。
- F1 獎(jiǎng)勵(lì)(F1 Reward):如果答案格式正確,獎(jiǎng)勵(lì)將基于詞級(jí)別 F1 分?jǐn)?shù),該指標(biāo)用于衡量生成答案相對(duì)于參考答案的準(zhǔn)確性。F1 分?jǐn)?shù)越高,獎(jiǎng)勵(lì)越高。
四、 實(shí)驗(yàn)結(jié)果解讀
實(shí)驗(yàn)結(jié)果充分證明了 DeepResearcher 的強(qiáng)大性能和泛化能力,同時(shí)明確顯示了在真實(shí)環(huán)境中訓(xùn)練的關(guān)鍵優(yōu)勢(shì)。
卓越的性能與強(qiáng)大的泛化能力

DeepResearcher 在各類評(píng)估基準(zhǔn)上均表現(xiàn)出色。在訓(xùn)練領(lǐng)域內(nèi)的測(cè)試中(包括 NQ、TriviaQA、HotpotQA 和 2Wiki 數(shù)據(jù)集),系統(tǒng)比提示工程 Agent 提高了 28.9 點(diǎn)的性能,比基于 RAG 的 RL Agent 提高了高達(dá) 7.2 點(diǎn)。這一結(jié)果特別顯著,因?yàn)樗砻骷词乖诟叨雀偁幍幕鶞?zhǔn)測(cè)試中,真實(shí)環(huán)境訓(xùn)練仍能帶來明顯的性能提升。

更令人印象深刻的是系統(tǒng)在領(lǐng)域外(OOD)數(shù)據(jù)集上的表現(xiàn)。在MuSiQue、Bamboogle 和 PopQA這三個(gè)與訓(xùn)練數(shù)據(jù)差異較大的測(cè)試集上,DeepResearcher 一致超越所有其他基線方法。這種跨領(lǐng)域的泛化能力證明系統(tǒng)不只是記住了特定分布的問答模式,而是真正學(xué)習(xí)了通用的研究技能。模型能夠?qū)⒃谝环N問題類型上學(xué)到的推理和搜索策略遷移到全新的問題領(lǐng)域,這對(duì)于實(shí)際應(yīng)用至關(guān)重要。
真實(shí)環(huán)境訓(xùn)練的決定性優(yōu)勢(shì)
研究團(tuán)隊(duì)的實(shí)驗(yàn)設(shè)計(jì)特別突顯了真實(shí)環(huán)境訓(xùn)練相對(duì)于模擬環(huán)境的優(yōu)勢(shì)。尤其是在 Bamboogle 測(cè)試集上,這個(gè)基準(zhǔn)特意包含了需要超出維基百科知識(shí)范圍的問題。在這一挑戰(zhàn)上,DeepResearcher 顯著優(yōu)于所有僅使用本地 RAG 的方法。
最具說服力的是其中的對(duì)比實(shí)驗(yàn):即使允許 R1-Searcher(一個(gè)在本地 RAG 上訓(xùn)練的系統(tǒng))在推理階段訪問真實(shí)網(wǎng)絡(luò)搜索,它的性能仍然遠(yuǎn)低于 DeepResearcher。這一結(jié)果清晰地表明,僅僅在推理階段使用真實(shí)搜索是不夠的,真正的關(guān)鍵在于訓(xùn)練過程中直接與真實(shí)環(huán)境互動(dòng)。
五、RL scaling 后的涌現(xiàn)行為
此外,研究團(tuán)隊(duì)的定性分析揭示了 DeepResearcher 通過端到端的 RL scaling,DeepResearcher 展現(xiàn)出多種非預(yù)期的認(rèn)知能力,這些能力是自然涌現(xiàn)的,而非人工編程設(shè)計(jì)的結(jié)果。在問題求解過程中,DeepResearcher 展現(xiàn)出了初步規(guī)劃、跨來源交叉驗(yàn)證答案、通過反思調(diào)整研究方向,以及在無法找到確切答案時(shí)保持誠實(shí)等能力。這些能力構(gòu)成了深度研究智能體的重要特征,并反映了人類研究者所重視的核心技能。
1. 規(guī)劃能力
DeepResearcher 能夠在開始搜索前先制定初步計(jì)劃,確定關(guān)鍵子問題和搜索策略,類似人類研究者的工作方法。
2. 交叉驗(yàn)證行為
系統(tǒng)會(huì)自動(dòng)從多個(gè)來源獲取信息并進(jìn)行交叉驗(yàn)證,在遇到矛盾信息時(shí),會(huì)基于可靠性和一致性進(jìn)行判斷,大大提高了答案準(zhǔn)確性。
3. 反思和調(diào)整研究策略
當(dāng)發(fā)現(xiàn)當(dāng)前搜索路徑無效時(shí),DeepResearcher 能夠反思已獲取的信息,重新調(diào)整搜索方向。這種自適應(yīng)行為使其能夠克服初始搜索策略的局限性。
4. 誠實(shí)與透明
當(dāng)無法找到確切答案時(shí),系統(tǒng)會(huì)坦誠表明限制,而不是編造信息。這種誠實(shí)行為對(duì)于研究代理至關(guān)重要。


訓(xùn)練演化趨勢(shì)
實(shí)驗(yàn)還發(fā)現(xiàn)了幾個(gè)有趣的訓(xùn)練動(dòng)態(tài):
- 性能隨強(qiáng)化學(xué)習(xí)逐步提升,F(xiàn)1 分?jǐn)?shù)從 0.375 穩(wěn)步增長到約 0.55。模型在強(qiáng)化學(xué)習(xí)過程中性能不斷提高,表現(xiàn)出穩(wěn)步優(yōu)化的趨勢(shì)。
- 隨著訓(xùn)練進(jìn)展,模型處理困難問題時(shí)會(huì)使用更多推理步驟和工具調(diào)用,隨著訓(xùn)練的進(jìn)行,不同難度水平下的工具調(diào)用次數(shù)也在增加。其中,4-hop(四跳問題)在 34 輪訓(xùn)練后仍保持增長趨勢(shì),這表明模型在處理更復(fù)雜問題時(shí),仍在學(xué)習(xí)如何檢索更多信息以提高推理能力。
- 所有推理步數(shù)設(shè)定下,響應(yīng)長度均呈持續(xù)增長趨勢(shì),表明模型在訓(xùn)練過程中不斷擴(kuò)展其推理過程。隨著推理復(fù)雜度的提高,模型能夠適應(yīng)性的生成越來越詳細(xì)的響應(yīng),包括雙重檢查、細(xì)化和規(guī)劃等高級(jí)推理行為。

六、總結(jié)與意義
DeepResearcher 代表了 AI 輔助研究的重大突破,首次在真實(shí)網(wǎng)絡(luò)環(huán)境中成功實(shí)現(xiàn)大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。該研究的意義主要體現(xiàn)在以下幾個(gè)方面:
學(xué)術(shù)貢獻(xiàn)
- 提出了 DeepResearcher,一種突破性的強(qiáng)化學(xué)習(xí)擴(kuò)展方法,使大型語言模型(LLMs)能夠在真實(shí)世界的網(wǎng)頁搜索環(huán)境中高效運(yùn)行。與依賴靜態(tài)知識(shí)庫或受控檢索環(huán)境的現(xiàn)有方法不同,DeepResearcher 訓(xùn)練智能體直接與實(shí)時(shí)搜索引擎交互,使其能夠應(yīng)對(duì)開放網(wǎng)絡(luò)中固有的復(fù)雜性和動(dòng)態(tài)變化(如 API 限制、網(wǎng)頁解析、反爬機(jī)制)。這種直接接觸動(dòng)態(tài)搜索環(huán)境,使 DeepResearcher 在任務(wù)完成度和研究能力方面,相較于基于提示工程(prompt-engineered)和基于 RAG 的強(qiáng)化學(xué)習(xí)方法均實(shí)現(xiàn)了顯著提升。并開展了廣泛實(shí)驗(yàn),證明了真實(shí)環(huán)境訓(xùn)練的顯著優(yōu)勢(shì)。
- 提出了專為真實(shí)網(wǎng)絡(luò)環(huán)境設(shè)計(jì)的 RL 框架,實(shí)現(xiàn)迭代推理、搜索,及多源信息整合。通過采用端到端訓(xùn)練框架,DeepResearcher 突破了人工設(shè)計(jì)的固定流程,使智能體能夠自主學(xué)習(xí)問題求解策略。這種方法不僅克服了真實(shí)世界網(wǎng)頁搜索中的獨(dú)特挑戰(zhàn),如網(wǎng)絡(luò)延遲和反爬蟲機(jī)制,還構(gòu)建了一種穩(wěn)健的多智能體架構(gòu),提升了智能體從網(wǎng)頁中收集多樣化信息的能力。最終,該系統(tǒng)展現(xiàn)出多種高級(jí)認(rèn)知行為,包括規(guī)劃(planning)、交叉驗(yàn)證(cross-validation)、反思(reflection)和誠實(shí)性(honesty),這些能力對(duì)于自主研究智能體至關(guān)重要。
- 觀察并分析了系統(tǒng)的涌現(xiàn)行為,為未來研究提供了寶貴見解。DeepResearcher 的成功標(biāo)志著LLM智能體發(fā)展中的重要里程碑。這一方法為構(gòu)建更具適應(yīng)性、智能性的系統(tǒng)提供了前景廣闊的路徑,使其能夠解決復(fù)雜的開放域問題,并應(yīng)用于現(xiàn)實(shí)世界的各類任務(wù)。
實(shí)際意義
- 為構(gòu)建真正可靠、靈活的深度研究系統(tǒng)提供了新范式。
- 減少了對(duì)人工設(shè)計(jì)固定工作流的依賴,使系統(tǒng)更具自主性、適應(yīng)性和探索行為。
- 展示了在復(fù)雜、開放環(huán)境中強(qiáng)化學(xué)習(xí)的潛力,證明在真實(shí)環(huán)境中擴(kuò)展強(qiáng)化學(xué)習(xí)可以大幅提升研究性能。
熱門跟貼