打開網(wǎng)易新聞 查看精彩圖片

王鴻儒目前就讀于香港中文大學(xué)博士四年級 (預(yù)計今年7月畢業(yè)),導(dǎo)師為黃錦輝教授,研究方向主要包括對話系統(tǒng),工具學(xué)習(xí)以及大語言模型智能體等,英國愛丁堡大學(xué)和美國伊利諾伊大學(xué)香檳分校(UIUC)訪問學(xué)者,在國際頂級會議如NeurIPS, ACL, EMNLP等發(fā)表30余篇相關(guān)論文,其中包括10多篇一作或共一論文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌學(xué)術(shù)引用超600次,NeurIPS Area Chair以及多個國際頂級會議審稿人,NICE社區(qū)初創(chuàng)成員,曾獲得國際博士生論壇最佳論文獎,ACL 2024@SIGHAN 最佳論文獎,WWW2024 Online Safety Prize Challenge冠軍等多項榮譽。

Agent 即一系列自動化幫助人類完成具體任務(wù)的智能體或者智能助手,可以自主進行推理,與環(huán)境進行交互并獲取環(huán)境以及人類反饋,從而最終完成給定的任務(wù),比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。

強化學(xué)習(xí)(Reinforcement Learning)被認為是當(dāng)下最具想象力、最適合用于 Agent 自主學(xué)習(xí)的算法。其通過定義好一個獎勵函數(shù),讓模型在解決任務(wù)的過程中不斷獲取反饋(即不同的獎勵信號),然后不斷地探索試錯,找到一個能夠最大化獲取獎勵的策略或者行為模式。

打開網(wǎng)易新聞 查看精彩圖片

圖 1Agent 的兩種重要的行為模式

為了實現(xiàn) OpenAI 推出的 o3 這樣的表現(xiàn),我們就必須先要了解 Agent 最重要的行為模式。Agent 最重要的兩種行為主要分為推理((i.e.,Reasoning)和行動((i.e.,Acting)兩種,前者專注模型本身的推理行為,比如反思、分解等各種深度思考技巧;后者專注模型與環(huán)境的交互,比如模型需要調(diào)用不同的工具、API 以及其他模型來獲取必要的中間結(jié)果。

Open-o1、DeepSeek-R1 以及 QwQ 等大推理模型通過設(shè)計一些基于規(guī)則的獎勵函數(shù),僅僅從最終答案的正確與否就可以通過 RL 激發(fā)出來大模型強大的 Reasoning 模式,比如 System 2 thinking,從而在代碼、數(shù)學(xué)等任務(wù)上取得了驚人的效果。

近期一系列工作試圖在 Agent 的 Acting 模式復(fù)刻大推理模型的成功,比如 Search-R1、ToRL、ReTool 等等,但是幾乎所有的工作依舊沿用之前的大推理模型時代的獎勵函數(shù),即根據(jù)最后答案的正確與否來給予 Agent 不同的獎勵信號。

這樣會帶來很多過度優(yōu)化問題,就像 OpenAI 在其博客中指出的那樣,模型會出現(xiàn) Reasoning 和 Acting 行為模式的混亂。因為模型僅僅只關(guān)注最后的答案正確,其可能會在中間過程中不使用或者過度使用推理或者行動這兩種行為。

這里面存在一個認知卸載現(xiàn)象,比如模型就會過度的依賴外部的工具,從而不進行推理,這樣一方面模型之前預(yù)訓(xùn)練積累的能力就極大地浪費了,另外也會出現(xiàn)非常愚蠢的使用工具的情況,舉個例子就是我們俗稱的「遇事不思考,老是問老師或者直接抄答案」。

我們這里可以針對 Agent 的這兩種不同的行為:Reasoning 和 Acting,設(shè)想幾種不同的獎勵函數(shù),或者說我們期望模型表現(xiàn)出來一種什么樣的模式。

  1. Maximize Reasoning and Acting:即我們期望模型能夠使用越多的 reasoning 和 acting 來解決問題,會導(dǎo)致效率以及過度優(yōu)化問題。
  2. Minimize Reasoning and Acting:即我們期望模型能夠使用越少的 reasoning 和 acting 來解決問題,訓(xùn)練難度較大,可能會導(dǎo)致效果不佳。
  3. Maximize Acting and Minimize Reasoning:這會導(dǎo)致模型極大的浪費本身就很強的 reasoning 能力,反復(fù)的愚蠢的去和外部世界交互。
  4. Maximize Reasoning and Minimize Acting:即 OpenAI o3 目前表現(xiàn)出來的行為,o3 只會在超過自己能力之外的問題下才會去和外部世界交互,大部分的問題都使用自己的推理能力進行解決了。

這其中最有潛力或者最有可能的技術(shù)路線就是第 2 和第 4 個方向,而在這兩個方向里唯一的一個共同點就是要不斷要求模型去 Minimize Acting,那我們最新推出的 OTC: Optimal Tool Call via Reinforcement Learning(OTC-PO)其實就是朝著這個方向走出的根本性的一步。

打開網(wǎng)易新聞 查看精彩圖片

  • Arxiv: https://arxiv.org/pdf/2504.14870
  • Huggingface: https://huggingface.co/papers/2504.14870

本文的核心貢獻在于以下三點:

  1. 我們是第一個 i) 關(guān)注大模型工具使用行為優(yōu)化的 RL 算法;ii) 發(fā)現(xiàn)并量化認知卸載現(xiàn)象,且模型越大,認知卸載越嚴重,即模型過于依賴外部工具而不自己思考;iii) 提出工具生產(chǎn)力概念,兼顧收益與成本;
  2. 我們提出 OTC-PO,任何 RL 算法皆可使用,代碼修改僅幾行,簡單、通用、可擴展、可泛化,可以應(yīng)用到幾乎所有工具使用的場景,最大化保持準確率的同時讓你的訓(xùn)練又快又好,模型即聰明又高效。
  3. 我們的方法在不損失準確率的前提下,工具調(diào)用減少 73.1%,工具效率提升 229.4%,訓(xùn)練時間大幅縮小,且模型越大,效果越好。

具體來說,給定任意一個問題和任意一個模型,我們假設(shè)存在一個最優(yōu)的 Acting 次數(shù),即最少的工具調(diào)用次數(shù),來使得模型能夠去回答對這個問題。

需要注意的是這里面最少的工具調(diào)用次數(shù)是由模型和問題共同決定的,因為不同的模型有著不同的能力,不同的問題也有著不同的難度,這樣就是每一個問題和每一個模型其實都有著獨特的最小所需工具次數(shù),并且這個最少的工具調(diào)用次數(shù)可以為 0(即退化為傳統(tǒng)的 language-only reasoning)。

也正是因為這樣的性質(zhì),導(dǎo)致之前的 SFT 方案無法直接作用在這樣的場景里面,因為 SFT 基本都是使用一個數(shù)據(jù)集去擬合所有模型的行為。RL 就天然的提供了這樣的一個解決方案,使得不同的模型都可以在自己的交互過程中去學(xué)習(xí)到對應(yīng)的最佳的行為模式,而不僅僅是通過 SFT 去模仿一個次優(yōu)解。

那這個任務(wù)就可以被重新定義成如下這樣的形式,給定一個問題 q,一個模型 M 以及一堆工具 t0, t1, …, tn,我們喜歡模型 M 能夠即快又好的回答問題,其在第 k 步的推理過程可以被定義成:

打開網(wǎng)易新聞 查看精彩圖片

其中ri, tci, oi 分別代表模型的內(nèi)部推理過程,工具調(diào)用,以及環(huán)境反饋。需要注意的時候這樣的定義可以泛化到不使用任何工具調(diào)用的情況即tci和oi為空字符串。整體的任務(wù)就變成了我們需要要求模型不僅答對,還要以一種高效的方式答對,即

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

這里最核心的思路是根據(jù)模型在當(dāng)下這個交互行為中工具的調(diào)用次數(shù) m 以及最優(yōu)的工具調(diào)用次數(shù) n 去給予模型不同的獎勵函數(shù)。具體來說,在答對的情況下,我們希望模型在取得最優(yōu)工具調(diào)用的時候能夠獲取最大的獎勵,在使用了更多的工具調(diào)用的時候獎勵是相對小一點的;在答錯的情況下,我們希望模型不會獲取獎勵或者根據(jù)調(diào)用次數(shù)獲得的獎勵相對較小,從而最大程度的規(guī)避獎勵黑客現(xiàn)象(i.e., Reward Hacking)。具體來說,我們設(shè)計了如下的獎勵函數(shù):

打開網(wǎng)易新聞 查看精彩圖片

其中代表對于工具調(diào)用次數(shù)的獎勵,代表原來的根據(jù)答案的正確性的獎勵。這樣的獎勵函數(shù)有很多優(yōu)點:1)已經(jīng)有理論證明類似這樣的定義理論上對于準確性沒有任何損失;2)極大地避免獎勵黑客的現(xiàn)象,防止模型過度優(yōu)化;3)可以泛化到幾乎所有的 Agentic RL 的場景,比如對和進行擴充,考慮更多的獎勵信號。這里的設(shè)計只需要滿足之前說過的那些屬性即可,比如越少越好,或者越接近最優(yōu)工具調(diào)用越好,感興趣的可以參考原文,這里我們重點講講我們的一些發(fā)現(xiàn)。

主要結(jié)果

圖 2Search as Tools, and Code as Tool can be found in the paper.

模型越大,其認知卸載越嚴重。這里的認知卸載指的是模型傾向于把原來通過推理能得到的結(jié)果直接外包給外部工具,從而一方面造成工具濫用,一方面阻礙了模型自身推理能力的發(fā)展。從圖上看就是 Search-R1 在更大的模型上反而需要使用到更多的工具,工具生產(chǎn)力更低。

模型越大,我們的方法效果越好。我們在 7B 模型能夠取得最高 256.9% 的工具生產(chǎn)力的提升,并且我們的準確率基本沒有損失,我們相信當(dāng)模型大小繼續(xù)增大的時候,有可能我們能迎來效果與效率的雙重提升,具體原因我們稍后解釋。

此外我們發(fā)現(xiàn) GRPO 相較于 PPO 效果更好,這是因為 GRPO 由于天然具備針對同一樣本的多次采樣,對于該樣本的最優(yōu)工具調(diào)用行為有一個更加精準的估計。

打開網(wǎng)易新聞 查看精彩圖片

圖 3OTC-PO 訓(xùn)練效率分析

上圖展現(xiàn)了我們的訓(xùn)練效率分析。可以看出我們的方法不僅能夠以更少的工具調(diào)用和更短的響應(yīng)時間實現(xiàn)類似的結(jié)果,還能實現(xiàn)更快、更高效的訓(xùn)練優(yōu)化。這一點尤為重要,因為它顯著降低了訓(xùn)練過程中與實時工具交互相關(guān)的時間和成本,包括時間、計算資源以及可能潛在的工具調(diào)用費用。

打開網(wǎng)易新聞 查看精彩圖片

圖 4The Out-of-domain performance of OTC-PO and Search-R1 in TP.

打開網(wǎng)易新聞 查看精彩圖片

表 4The results of Out-of-Domain (OOD) evaluation of OTC against Search-R1 in EM and TC.

我們的方法不僅僅在 In-domain evaluation 上取得了不錯的效果,在 Out-of-domain 上仍然能夠帶來巨大的提升,甚至我們觀察到我們的準確率和效率都得到了提升,而不僅僅是工具的調(diào)用次數(shù)和工具生產(chǎn)力,比如這里 OTC-PPO 在 7B 模型上的表現(xiàn)就顯著優(yōu)于 Search-R1-PPO。

打開網(wǎng)易新聞 查看精彩圖片

最后分享一個 case study,更多分析和 case 可參考原文。這個 case study 代表了我們整篇論文最重要的一個發(fā)現(xiàn)即(Minimizing Acting = Maximizing Reasoning) = Smart Agent從案例中我們可以觀察到如果不對模型的交互行為做出任何的限制,模型非常容易出現(xiàn)認知卸載以及工具濫用的現(xiàn)象。僅僅只需要最小化工具調(diào)用,我們就可以發(fā)現(xiàn)模型不僅能學(xué)會更加聰明的使用工具(OTC-PPO),還會極大地激發(fā)自身的推理能力,從而去完成問題,即我們一開始所說的如何實現(xiàn) o3 的行為模式。

結(jié)論

在本研究中,我們引入了最佳工具調(diào)用控制策略優(yōu)化(OTC-PO),這是一個簡單而有效的強化學(xué)習(xí)框架,它明確鼓勵語言模型通過最佳工具調(diào)用生成正確答案。與之前主要關(guān)注最終答案正確性的研究不同,我們的方法結(jié)合了工具集成獎勵,該獎勵同時考慮了工具使用的有效性和效率,從而促進了既智能又經(jīng)濟高效的工具使用行為。

據(jù)我們所知,這是第一篇從強化學(xué)習(xí)(RL)角度去建模 TIR 中工具使用行為的研究,我們的方法提供了一種簡單、可泛化、可擴展的解決方案,使 LLM 在多種情境和基準測試中成為更強大、更經(jīng)濟的智能體。這個項目仍在進行中,希望不久的未來我們能夠給大家分享更多發(fā)現(xiàn)。我們有信心這篇論文將會引領(lǐng)一個全新的研究范式,為實現(xiàn) OpenAI 的 o3 系列模型帶來一個可行的路徑。