高清中文字幕国产,中文字幕高清视频在线观看,欧美精品久久天堂久久精品,国产精品的电影久久久网站,国产精品视频一区二区

在大模型推理能力提升的探索中，工具使用一直是克服語言模型計(jì)算局限性的關(guān)鍵路徑。不過，當(dāng)今的大模型在使用工具方面還存在一些局限，比如預(yù)先確定了工具的使用模式、限制了對最優(yōu)策略的探索、實(shí)現(xiàn)透明度不足等。

為了解決這些難題，來自上海交通大學(xué)、SII 和 GAIR的研究團(tuán)隊(duì)提出了一種全新框架ToRL（Tool-Integrated Reinforcement Learning），該方法允許模型直接從基座模型開始，通過強(qiáng)化學(xué)習(xí)自主探索最優(yōu)工具使用策略，而非受限于預(yù)定義的工具使用模式。

論文標(biāo)題：ToRL: Scaling Tool-Integrated RL
論文地址：https://arxiv.org/pdf/2503.23383
代碼地址：https://github.com/GAIR-NLP/ToRL
數(shù)據(jù)集地址：https://github.com/GAIR-NLP/ToRL/tree/main/data/torl_data
模型地址：https://huggingface.co/GAIR/ToRL-7B

實(shí)驗(yàn)表明，這種方法在數(shù)學(xué)推理任務(wù)上取得了顯著突破：ToRL-7B 在 AIME24 上達(dá)到了 43.3% 的準(zhǔn)確率，比不使用工具的基線 RL 模型提高了 14%，比現(xiàn)有的工具集成大模型提高了 17%。

圖 1: ToRL 在 AIME24 等基準(zhǔn)中的性能對比，優(yōu)于基線和現(xiàn)有 TIR 系統(tǒng)

一、為什么要直接從基座模型擴(kuò)展工具集成強(qiáng)化學(xué)習(xí)？

在傳統(tǒng)工具集成推理（TIR）領(lǐng)域，研究者們長期遵循著一條看似不可撼動的鐵律：必須先通過監(jiān)督微調(diào)（SFT）教會模型使用工具，才能進(jìn)行強(qiáng)化學(xué)習(xí)優(yōu)化。這種 "先 SFT 再 RL" 的范式，就像給 AI 套上預(yù)設(shè)的思維枷鎖，雖然能獲得穩(wěn)定的性能提升，卻可能永遠(yuǎn)無法發(fā)現(xiàn)最優(yōu)的工具使用策略。

正當(dāng)大家沿著這條既定路線堆砌數(shù)據(jù)和算力時(shí)，該研究團(tuán)隊(duì)卻大膽提出了一個(gè)假設(shè)：如果讓模型完全自主探索工具使用方式，會怎樣？他們開發(fā)的 ToRL 框架就像打開了一扇全新的大門 —— 直接從基座模型出發(fā)，單純通過擴(kuò)展強(qiáng)化學(xué)習(xí)讓 AI 自主掌握工具使用的精髓。

實(shí)驗(yàn)結(jié)果令人驚喜：ToRL 不僅打破了傳統(tǒng) TIR 方法的性能天花板，更讓模型自發(fā)涌現(xiàn)出三大重要能力：

像人類專家般的工具選擇直覺
自我修正無效代碼的元能力
動態(tài)切換計(jì)算與推理的解題智慧

這些能力完全由獎勵信號驅(qū)動自然形成，沒有任何人為預(yù)設(shè)的痕跡。

這不禁讓人思考：ToRL 證明了大模型可能早已具備強(qiáng)大的工具使用能力，只是需要更開放的學(xué)習(xí)方式去釋放。當(dāng)主流研究還在為數(shù)據(jù)規(guī)模和算法復(fù)雜度較勁時(shí)，ToRL 用事實(shí)告訴我們：有時(shí)候，少一些人為干預(yù)，反而能收獲更多意外之喜。

圖 2: ToRL 使用自然語言和代碼工具交叉驗(yàn)證，并在發(fā)現(xiàn)不一致后進(jìn)一步使用使用工具驗(yàn)證

二、技術(shù)解析：ToRL 如何賦予模型自主工具能力

工具集成推理 (TIR) 的基本框架

工具集成推理 (TIR) 使大語言模型能夠通過編寫代碼，利用外部工具執(zhí)行計(jì)算，并基于執(zhí)行結(jié)果迭代生成推理過程。這一過程可以用簡單的語言描述為：

當(dāng)語言模型面對一個(gè)問題時(shí)，TIR 允許模型構(gòu)建一個(gè)包含多個(gè)步驟的推理軌跡。在每一步中，模型首先用自然語言進(jìn)行推理，然后生成相關(guān)代碼，接著獲取代碼的執(zhí)行結(jié)果，并將這三部分內(nèi)容組合起來形成完整的推理過程。隨著推理的深入，模型會不斷參考之前的推理內(nèi)容、代碼及其執(zhí)行結(jié)果，進(jìn)一步調(diào)整自己的思路。

ToRL: 直接從基座模型的強(qiáng)化學(xué)習(xí)

ToRL 框架將 TIR 與直接從基座語言模型開始的強(qiáng)化學(xué)習(xí)相結(jié)合，而不需要先進(jìn)行監(jiān)督微調(diào)。這使得模型能夠自主發(fā)現(xiàn)有效的工具使用策略。

在模型的推理過程中，當(dāng)檢測到代碼終止標(biāo)識符 (```output) 時(shí)，系統(tǒng)會暫停文本生成，提取最新的代碼塊執(zhí)行，并將結(jié)構(gòu)化執(zhí)行結(jié)果插入上下文中。系統(tǒng)會繼續(xù)生成后續(xù)的自然語言推理，直到模型提供最終答案或生成新的代碼塊。

設(shè)計(jì)選擇與考量：

工具調(diào)用頻率控制：為了平衡訓(xùn)練效率，引入超參數(shù) C，表示每次響應(yīng)生成允許的最大工具調(diào)用次數(shù)；
執(zhí)行環(huán)境選擇：選擇穩(wěn)定、準(zhǔn)確和響應(yīng)迅速的代碼解釋器實(shí)現(xiàn)；
錯(cuò)誤消息處理：提取關(guān)鍵錯(cuò)誤信息，減少上下文長度；
沙盒輸出掩碼：在損失計(jì)算中掩蓋沙盒環(huán)境的輸出，提高訓(xùn)練穩(wěn)定性。

獎勵設(shè)計(jì)：實(shí)現(xiàn)了基于規(guī)則的獎勵函數(shù)，正確答案獲得 + 1 獎勵，錯(cuò)誤答案獲得 - 1 獎勵。此外，研究還嘗試探究了基于執(zhí)行的懲罰：含有不可執(zhí)行代碼的響應(yīng)會導(dǎo)致 - 0.5 的獎勵減少。在默認(rèn)實(shí)驗(yàn)設(shè)置中，僅使用了答案正確性的 reward。

三、實(shí)驗(yàn)驗(yàn)證：ToRL 的性能優(yōu)勢

圖 3: ToRL 在數(shù)學(xué)基準(zhǔn)測試上的準(zhǔn)確率比較

實(shí)驗(yàn)結(jié)果表明，ToRL 在所有測試基準(zhǔn)上的表現(xiàn)始終優(yōu)于基線模型。對于 1.5B 參數(shù)模型，ToRL-1.5B 的平均準(zhǔn)確率達(dá)到了 48.5%，超過了 Qwen2.5-Math-1.5B-Instruct (35.9%) 和 Qwen2.5-Math-1.5B-Instruct-TIR (41.3%)。在 7B 參數(shù)模型中，性能提升更加顯著，ToRL-7B 達(dá)到了 62.1% 的平均準(zhǔn)確率，比具有相同基礎(chǔ)模型的其他開源模型高出 14.7%。

圖 4: ToRL 在數(shù)學(xué)基準(zhǔn)測試上的訓(xùn)練動態(tài)

圖 4 展示了在五個(gè)不同數(shù)學(xué)基準(zhǔn)上的訓(xùn)練動態(tài)。ToRL-7B 在訓(xùn)練步驟中顯示出持續(xù)改進(jìn)，并保持明顯優(yōu)勢。這種性能差距在具有挑戰(zhàn)性的基準(zhǔn)上尤為顯著，如 AIME24 (43.3%)、AIME25 (30.0%) 和 OlympiadBench (49.9%)。

四、行為探索：模型使用工具的認(rèn)知模式

訓(xùn)練中的工具使用進(jìn)化

圖 5: 訓(xùn)練步數(shù)增加時(shí)，ToRL 的代碼使用率與有效性變化

圖 5 提供了訓(xùn)練過程中工具使用模式的深入洞察：

代碼比率：模型生成的包含代碼的響應(yīng)比例在前 100 步內(nèi)從 40% 增加到 80%，展示了整個(gè)訓(xùn)練過程中的穩(wěn)定提升
通過率：成功執(zhí)行的代碼比例呈現(xiàn)持續(xù)上升趨勢，反映了模型增強(qiáng)的編碼能力
正確 / 錯(cuò)誤響應(yīng)的通過率：揭示了代碼執(zhí)行錯(cuò)誤與最終答案準(zhǔn)確性之間的相關(guān)性，正確響應(yīng)表現(xiàn)出更高的代碼通過率
有效代碼比率：檢查有效代碼比例的變化，包括成功執(zhí)行的代碼和在模型提供最終答案前生成的代碼，兩者都隨著訓(xùn)練時(shí)間增加而提高

關(guān)鍵發(fā)現(xiàn)：隨著訓(xùn)練步驟的增加，模型解決問題使用代碼的比例以及可以正確執(zhí)行的代碼比例持續(xù)增長。同時(shí)，模型能夠識別并減少無效代碼的生成。

關(guān)鍵參數(shù)設(shè)置的影響

圖 6: 探索相應(yīng)最大次數(shù)（左 2 圖）和可執(zhí)行（右 2 圖）對模型性能的影響

研究團(tuán)隊(duì)探索了關(guān)鍵 ToRL 設(shè)置對最終性能和行為的影響：

首先，實(shí)驗(yàn)探究了增加 C（單次響應(yīng)生成中可調(diào)用的最大工具數(shù)）的影響。將 C 從 1 增加到 2 顯著提高了性能，平均準(zhǔn)確率提高約 2%。然而，增加 C 會大幅降低訓(xùn)練速度，需要在性能和效率之間進(jìn)行權(quán)衡。

此外，分析了將代碼可執(zhí)行性獎勵納入獎勵塑造的影響。結(jié)果表明，這種獎勵設(shè)計(jì)并未提高模型性能。研究團(tuán)隊(duì)推測，對執(zhí)行錯(cuò)誤進(jìn)行懲罰可能會激勵模型生成過于簡單的代碼以最小化錯(cuò)誤，從而可能阻礙其正確解決問題的能力。

通過強(qiáng)化學(xué)習(xí)擴(kuò)展涌現(xiàn)的認(rèn)知行為

模型訓(xùn)練后期出現(xiàn)了一些有趣的現(xiàn)象，這些現(xiàn)象幫助我們深入理解模型使用工具解決問題的認(rèn)知行為。

例如，模型能夠根據(jù)代碼解釋器的執(zhí)行反饋調(diào)整其推理。在一個(gè)案例中，模型首先編寫了代碼，但由于不當(dāng)處理導(dǎo)致索引錯(cuò)誤。在收到 "TypeError: 'int' object is not subscriptable" 的反饋后，它迅速調(diào)整并生成了可執(zhí)行代碼，最終推斷出正確答案。