始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長(zhǎng)。wisemodel社區(qū)上線,最新上線4090資源不限量,價(jià)格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。
現(xiàn)有的大型推理模型(LRMs)已經(jīng)展示了強(qiáng)化學(xué)習(xí)(RL)在增強(qiáng)大型語(yǔ)言模型(LLMs)復(fù)雜推理能力方面的潛力。雖然它們?cè)跀?shù)學(xué)和編程等具有挑戰(zhàn)性的任務(wù)上表現(xiàn)出色,但它們通常依賴于內(nèi)部知識(shí)來(lái)解決問(wèn)題,這在處理時(shí)效性強(qiáng)或知識(shí)密集型問(wèn)題時(shí)可能顯得不足,從而導(dǎo)致不準(zhǔn)確性和幻覺(jué)現(xiàn)象。
為了解決這一問(wèn)題,研究團(tuán)隊(duì)提出了R1-Searcher,這是一種新穎的基于結(jié)果的兩階段強(qiáng)化學(xué)習(xí)方法,旨在增強(qiáng)LLMs的搜索能力。該方法允許LLMs在推理過(guò)程中自主調(diào)用外部搜索系統(tǒng)以獲取額外知識(shí)。它的框架完全依賴于強(qiáng)化學(xué)習(xí),無(wú)需過(guò)程獎(jiǎng)勵(lì)或冷啟動(dòng)時(shí)的蒸餾?,F(xiàn)已上線始智AI-wisemodel開源社區(qū),歡迎體驗(yàn)。

模型地址
https://wisemodel.cn/models/CuteXxSong/Llama-3.1-8B-instruct-RAG-RL
https://wisemodel.cn/models/CuteXxSong/Qwen-2.5-7B-base-RAG-RL
01.
模型概述
大型推理模型(LRMs),例如OpenAI-o1、DeepSeek-R1和Kimi-k1.5,已經(jīng)展示了強(qiáng)化學(xué)習(xí)(RL)在增強(qiáng)大型語(yǔ)言模型(LLMs)推理能力方面的顯著影響。
然而,由于這些模型主要依賴內(nèi)部知識(shí),它們?cè)谔幚黹_放式任務(wù)時(shí)可能會(huì)遇到困難,尤其是在涉及知識(shí)密集型問(wèn)題、本地?cái)?shù)據(jù)庫(kù)中的私有信息以及時(shí)效性問(wèn)題時(shí)。
這種依賴可能導(dǎo)致不準(zhǔn)確性和幻覺(jué)現(xiàn)象。因此,使LLMs在推理過(guò)程中能夠訪問(wèn)外部信息以實(shí)現(xiàn)更審慎的推理是至關(guān)重要的。
文章介紹了R1-Searcher,這是一種新穎的框架,旨在通過(guò)強(qiáng)化學(xué)習(xí)(RL)增強(qiáng)LLMs的RAG能力。核心動(dòng)機(jī)是通過(guò)模型探索外部檢索環(huán)境,激勵(lì)LLMs的檢索能力。
為此,研究團(tuán)隊(duì)設(shè)計(jì)了一種基于結(jié)果獎(jiǎng)勵(lì)的兩階段RL方法,使模型能夠通過(guò)定制的獎(jiǎng)勵(lì)設(shè)計(jì),在推理過(guò)程中自由探索如何調(diào)用外部檢索系統(tǒng)以獲取相關(guān)知識(shí)。
研究團(tuán)隊(duì)的方法完全依賴于基于結(jié)果獎(jiǎng)勵(lì)的RL,允許模型通過(guò)探索和學(xué)習(xí)自主學(xué)習(xí),無(wú)需任何蒸餾或通過(guò)SFT進(jìn)行冷啟動(dòng)。為了支持LLMs與外部檢索環(huán)境在訓(xùn)練過(guò)程中的探索,研究團(tuán)隊(duì)進(jìn)一步提出了一種基于Reinforce++的改進(jìn)RL訓(xùn)練方法,該方法結(jié)合了 RAG-based Rollout 和 Retrieval Mask-Based Loss Calculation兩種改進(jìn)以適應(yīng)檢索增強(qiáng)生成的場(chǎng)景。

02.
方法簡(jiǎn)介
團(tuán)隊(duì)使用兩階段結(jié)果監(jiān)督強(qiáng)化學(xué)習(xí),整體基于Reinforce++算法。在第一階段,模型被訓(xùn)練以有效利用外部檢索系統(tǒng),在第二階段,模型被訓(xùn)練在推理過(guò)程中整合檢索,以準(zhǔn)確解答問(wèn)題。研究團(tuán)隊(duì)通過(guò)獎(jiǎng)勵(lì)設(shè)計(jì)實(shí)現(xiàn)兩階段訓(xùn)練:
第一階段,reward由retrieval-reward和format-reward組成,如果模型在推理過(guò)程中進(jìn)行了檢索,就會(huì)得到retrieval-reward,旨在讓模型學(xué)會(huì)調(diào)用工具的格式;
第二階段,retrieval-reward被替換為answer-reward,讓模型更自由地進(jìn)行探索,answer-reward是標(biāo)準(zhǔn)答案和預(yù)測(cè)答案的F1-Score,旨在讓模型學(xué)會(huì)正確調(diào)用工具解決問(wèn)題。
另外,研究團(tuán)隊(duì)對(duì)Reinforce++算法進(jìn)行了修改以適應(yīng)檢索增強(qiáng)生成場(chǎng)景。研究團(tuán)隊(duì)的目標(biāo)是讓模型在面對(duì)不確定性時(shí)能夠自主獲取外部知識(shí),從而有效整合推理和檢索。
為了無(wú)縫整合檢索到的文檔并確保模型優(yōu)化的合理性,研究團(tuán)隊(duì)對(duì)原始算法進(jìn)行了兩項(xiàng)改進(jìn):RAG-based Rollout和Retrieval Mask-based Loss Calculation。
RAG-based Rollout:研究團(tuán)隊(duì)使用標(biāo)簽...來(lái)引導(dǎo)模型在生成過(guò)程中調(diào)用外部檢索系統(tǒng)。捕捉到模型需要進(jìn)行檢索時(shí),推理暫停并進(jìn)行檢索。檢索到的文檔被封裝在...標(biāo)簽中,并整合到模型的推理過(guò)程中。這種方法確保檢索無(wú)縫融入推理過(guò)程,使模型能夠基于檢索到的文檔繼續(xù)推理,而不被打斷。
Retrieval Mask-based Loss Calculation:當(dāng)模型執(zhí)行檢索時(shí),檢索到的文檔作為環(huán)境觀察的一部分被整合到推理過(guò)程中。然而,模型并不需要自主生成這些文檔。為了減少環(huán)境的影響,研究團(tuán)隊(duì)將...指定為特殊標(biāo)記,并在訓(xùn)練中對(duì)其進(jìn)行掩碼處理。這可以防止這些外部標(biāo)記影響損失計(jì)算,確保檢索到的文檔不會(huì)干擾模型的內(nèi)在推理和生成過(guò)程。

03.
實(shí)驗(yàn)結(jié)果
團(tuán)隊(duì)獨(dú)特的R1-Searcher方法,在多跳問(wèn)答任務(wù)領(lǐng)域展現(xiàn)出非凡實(shí)力,具有多方面突出特點(diǎn)。
多跳問(wèn)答性能飛躍:相比于最好的基線ReARTeR,R1-Searcher使用相同的LLaMA-3.1-8B-Instruct作為backbone,實(shí)現(xiàn)了顯著的性能提升:在HotpotQA上提升了48.2%,在2WikiMultiHopQA上提升了21.7%,在Bamboogle上提升了4.0%(LLM-as-Judge)。這表明團(tuán)隊(duì)的方法可以有效地促進(jìn)模型在推理過(guò)程中進(jìn)行準(zhǔn)確的檢索調(diào)用。
RL學(xué)習(xí)全新路徑:從基礎(chǔ)LLM開始進(jìn)行RL學(xué)習(xí),無(wú)需冷啟動(dòng),研究團(tuán)隊(duì)從頭開始使用強(qiáng)大的基礎(chǔ)模型(如Qwen-2.5-7B-Base)進(jìn)行RL學(xué)習(xí)。
令人驚訝的是,團(tuán)隊(duì)能夠取得更好的結(jié)果,并在大多數(shù)領(lǐng)域內(nèi)和領(lǐng)域外的數(shù)據(jù)集上獲得最佳性能,甚至超過(guò)了閉源的LLM,如GPT-4o-mini。這些結(jié)果展示了研究團(tuán)隊(duì)的兩階段RL方法在指導(dǎo)LLMs學(xué)習(xí)過(guò)程中的有效性。
泛化能力出色保持:研究團(tuán)隊(duì)僅使用HotpotQA和2WikiMultiHopQA訓(xùn)練集中的8148個(gè)樣本進(jìn)行RL訓(xùn)練。該模型不僅在這些領(lǐng)域內(nèi)數(shù)據(jù)集上表現(xiàn)出色,還在領(lǐng)域外數(shù)據(jù)集(如Musique和Bamboogle)上展示了強(qiáng)大的泛化能力。
這表明模型通過(guò)在RL訓(xùn)練期間的探索,有效地學(xué)習(xí)了檢索并將其與推理相結(jié)合,從而在需要檢索的新測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)穩(wěn)健的性能。

另外,為了評(píng)估模型對(duì)于聯(lián)網(wǎng)搜索泛化能力,研究團(tuán)隊(duì)在最新提出的Bamboogle任務(wù)上進(jìn)行聯(lián)網(wǎng)搜索的測(cè)試,這種設(shè)定在RL訓(xùn)練期間并未遇到。
如下圖所示,研究團(tuán)隊(duì)的模型相較于使用相同Qwen-2.5-7B-Base作為backbone的本地檢索系統(tǒng),性能提升了18.2%。
此外,與使用相同在線搜索但骨干模型更大的32B的Search-o1相比,研究團(tuán)隊(duì)的模型性能提升了11.4%。這表明該模型能夠適應(yīng)在線搜索場(chǎng)景,并且R1-Searcher使模型能夠在推理過(guò)程中檢索信息,而不僅僅是記憶響應(yīng)格式。

04.
更多討論
針對(duì)以下問(wèn)題進(jìn)行了更詳細(xì)的實(shí)驗(yàn)和分析,完整的分析請(qǐng)看原論文:
GRPO和Reinforce++算法的比較
結(jié)論:GRPO的生成solution更長(zhǎng)和檢索頻率更高。GRPO在領(lǐng)域外測(cè)試數(shù)據(jù)集(如Bamboogle)上也展現(xiàn)出更好的性能;而Reinforce++在領(lǐng)域內(nèi)測(cè)試集(如HotpotQA和2Wiki)上表現(xiàn)更優(yōu)。
RL和SFT的比較
結(jié)論:RL在領(lǐng)域內(nèi)和領(lǐng)域外的測(cè)試集上均優(yōu)于SFT。SFT能夠幫助模型生成檢索查詢,但這些查詢的時(shí)機(jī)和相關(guān)性不如通過(guò)RL訓(xùn)練生成的查詢。
Reward的設(shè)計(jì)對(duì)訓(xùn)練的影響
結(jié)論:基于F1的答案獎(jiǎng)勵(lì)能夠產(chǎn)生更長(zhǎng)的回答長(zhǎng)度和更優(yōu)的最終結(jié)果;基于EM的獎(jiǎng)勵(lì)在訓(xùn)練過(guò)程中導(dǎo)致回答長(zhǎng)度較短,并且在測(cè)試時(shí)表現(xiàn)不如基于CEM或F1的獎(jiǎng)勵(lì);基于CEM的獎(jiǎng)勵(lì)會(huì)生成帶有不必要信息的偏長(zhǎng)的answer。
數(shù)據(jù)難度分布和數(shù)據(jù)多樣性對(duì)訓(xùn)練的影響
結(jié)論:使用混合數(shù)據(jù)集訓(xùn)練的模型在檢索次數(shù)和生成回答長(zhǎng)度上都有所增加,并且在測(cè)試集上取得了更高的分?jǐn)?shù);訓(xùn)練數(shù)據(jù)中混入較高難度的數(shù)據(jù)可以在領(lǐng)域內(nèi)和領(lǐng)域外的測(cè)試集上均取得更好的效果。

05.
案例展示

編輯丨趙雅鑫
----- END -----
wisemodel相關(guān):
系統(tǒng)升級(jí):
大賽報(bào)名:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動(dòng)查看
熱門跟貼