在人工智能技術(shù)快速迭代發(fā)展的背景下,大語言模型(LLMs)已成為自然語言處理與生成領(lǐng)域的核心技術(shù)。然而,將這些模型與人類偏好精確對齊并增強(qiáng)其復(fù)雜推理能力的挑戰(zhàn),促使研究者開發(fā)了一系列復(fù)雜的強(qiáng)化學(xué)習(xí)(RL)技術(shù)。DAPO(解耦裁剪和動態(tài)采樣策略優(yōu)化,Decoupled Clip and Dynamic Sampling Policy Optimization)作為一個突破性的開源大語言模型強(qiáng)化學(xué)習(xí)系統(tǒng)應(yīng)運(yùn)而生,為該領(lǐng)域帶來了技術(shù)變革。本文將系統(tǒng)分析DAPO的技術(shù)架構(gòu)、算法創(chuàng)新及其對人工智能研究發(fā)展的長期影響。

大型語言模型的推理能力隨著規(guī)模擴(kuò)展呈現(xiàn)前所未有的提升,而強(qiáng)化學(xué)習(xí)技術(shù)已成為引導(dǎo)和增強(qiáng)復(fù)雜推理過程的關(guān)鍵方法論。當(dāng)前最先進(jìn)的推理型大語言模型的核心技術(shù)細(xì)節(jié)往往不透明(例如OpenAI的o1技術(shù)和DeepSeek R1技術(shù)報告),導(dǎo)致學(xué)術(shù)社區(qū)難以復(fù)現(xiàn)其RL訓(xùn)練成果。字節(jié)跳動提出的解耦裁剪和動態(tài)采樣策略優(yōu)化(DAPO)算法,完整開源了一套最先進(jìn)的大規(guī)模RL系統(tǒng),該系統(tǒng)基于Qwen2.5-32B基礎(chǔ)模型在AIME 2024測試中取得了50分的優(yōu)異成績。與之前不透明的工作不同,DAPO論文詳細(xì)介紹了四種使大規(guī)模LLM RL成功的關(guān)鍵算法技術(shù)。此外字節(jié)跳動還開源了基于verl框架構(gòu)建的訓(xùn)練代碼及經(jīng)過精心策劃和處理的數(shù)據(jù)集。這些開源組件提高了技術(shù)的可復(fù)現(xiàn)性,并為大規(guī)模LLM RL領(lǐng)域的未來研究奠定了堅實(shí)基礎(chǔ)。

打開網(wǎng)易新聞 查看精彩圖片

DAPO在Qwen2.5-32B基礎(chǔ)模型上的AIME 2024評分,僅使用50%的訓(xùn)練步驟就超越了之前最先進(jìn)的DeepSeekR1-Zero-Qwen-32B模型。

DAPO技術(shù)優(yōu)勢

DAPO的技術(shù)成就極為顯著。基于Qwen2.5-32B基礎(chǔ)模型,DAPO在AIME 2024基準(zhǔn)測試中獲得了50分的卓越成績,超越了之前由DeepSeek-R1-Zero-Qwen-32B創(chuàng)下的最高水平。更值得注意的是,DAPO僅使用了前代系統(tǒng)50%的訓(xùn)練步驟就實(shí)現(xiàn)了這一突破,充分展示了其算法效率和有效性。

打開網(wǎng)易新聞 查看精彩圖片

在眾多大語言模型訓(xùn)練系統(tǒng)中,DAPO的技術(shù)差異化優(yōu)勢主要源于其創(chuàng)新的強(qiáng)化學(xué)習(xí)方法和算法設(shè)計。以下將深入探討驅(qū)動這一革命性強(qiáng)化學(xué)習(xí)系統(tǒng)的核心技術(shù)創(chuàng)新。

核心技術(shù)創(chuàng)新

DAPO的卓越性能建立在四項關(guān)鍵技術(shù)創(chuàng)新基礎(chǔ)上,每項創(chuàng)新都針對性解決了大規(guī)模大語言模型強(qiáng)化學(xué)習(xí)中的特定挑戰(zhàn):

Clip-Higher策略:增強(qiáng)模型探索能力

強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的一個主要挑戰(zhàn)是熵坍塌現(xiàn)象(entropy collapse),即模型策略逐漸變得過于確定性,限制了其探索新解決方案的能力。DAPO通過創(chuàng)新的Clip-Higher策略直接應(yīng)對了這一問題。

傳統(tǒng)方法采用對稱裁剪范圍以穩(wěn)定訓(xùn)練過程,但這種方法可能無意中限制了低概率令牌概率增加的可能性。DAPO的Clip-Higher策略將下限裁剪范圍(εlow)和上限裁剪范圍(εhigh)解耦,允許系統(tǒng)更靈活地增加低概率令牌的概率值。

打開網(wǎng)易新聞 查看精彩圖片

應(yīng)用Clip-Higher策略前后,RL訓(xùn)練過程中參與者模型在AIME測試集上的準(zhǔn)確率和生成概率熵的變化。

通過設(shè)置更高的上限裁剪閾值,DAPO有效促進(jìn)了策略探索并防止模型過早收斂到次優(yōu)解。這種方法顯著增強(qiáng)了策略的熵值,使模型能夠生成更多樣化且高質(zhì)量的響應(yīng)。最終結(jié)果是一個具備更強(qiáng)創(chuàng)造性思維能力并能適應(yīng)廣泛應(yīng)用場景的模型。

動態(tài)采樣:優(yōu)化梯度效率

在強(qiáng)化學(xué)習(xí)框架下,不同訓(xùn)練樣本對學(xué)習(xí)過程的貢獻(xiàn)存在顯著差異。傳統(tǒng)RL算法通常難以有效處理具有極端獎勵值的提示(獎勵=1表示完美準(zhǔn)確,獎勵=0表示完全失?。?,因?yàn)檫@些樣本對學(xué)習(xí)過程貢獻(xiàn)的梯度接近于零。隨著訓(xùn)練過程中此類提示數(shù)量的增加,訓(xùn)練效率問題變得更為嚴(yán)重,導(dǎo)致有效樣本量減少和訓(xùn)練效率下降。

DAPO的動態(tài)采樣技術(shù)通過智能篩選訓(xùn)練數(shù)據(jù)解決了這一挑戰(zhàn)。該技術(shù)對具有中間獎勵值(0 < 獎勵 < 1)的提示進(jìn)行過采樣,同時過濾掉貢獻(xiàn)零梯度的提示。這確保了每個訓(xùn)練批次中的樣本都能有效貢獻(xiàn)于梯度更新,維持穩(wěn)定且充分的有效樣本量。

打開網(wǎng)易新聞 查看精彩圖片

盡管這種方法確實(shí)引入了一定的額外采樣開銷,但其帶來的性能收益遠(yuǎn)超成本。動態(tài)采樣通過減少訓(xùn)練所需的總步驟數(shù)加速了模型收斂,使訓(xùn)練過程更加高效和經(jīng)濟(jì)。

令牌級策略梯度損失:均衡學(xué)習(xí)過程

長思維鏈(long-CoT)推理能力是先進(jìn)大語言模型的核心特性,但在訓(xùn)練過程中帶來了特殊挑戰(zhàn)。傳統(tǒng)的樣本級損失計算方法可能不成比例地加權(quán)較短響應(yīng),從而削弱模型學(xué)習(xí)長響應(yīng)中復(fù)雜推理模式的能力。此外低質(zhì)量的長響應(yīng)(如包含無意義或重復(fù)模式)未能得到有效懲罰,導(dǎo)致熵值和響應(yīng)長度不受控制地增加。

DAPO引入了令牌級策略梯度損失計算方法應(yīng)對這些問題。這一創(chuàng)新方法通過賦予每個令牌相同的重要性(無論響應(yīng)長度如何)重新平衡了訓(xùn)練過程。最終實(shí)現(xiàn)了一個更精細(xì)的學(xué)習(xí)機(jī)制,具體表現(xiàn)為:

  • 強(qiáng)化長響應(yīng)中的高質(zhì)量推理模式
  • 有效抑制低質(zhì)量模式
  • 確保更穩(wěn)定高效的訓(xùn)練過程
  • 促進(jìn)響應(yīng)長度和熵值的合理增長

打開網(wǎng)易新聞 查看精彩圖片

參與者模型概率分布的熵以及響應(yīng)長度的變化曲線。由于傳統(tǒng)方法中所有樣本在損失計算中被賦予相同權(quán)重,較長響應(yīng)中的令牌(包含更多token)對整體損失的貢獻(xiàn)比例相對較低,這可能導(dǎo)致兩種不良后果:首先,對于高質(zhì)量的長樣本,這種效應(yīng)可能阻礙模型學(xué)習(xí)其中包含的復(fù)雜推理模式;其次,實(shí)驗(yàn)觀察表明過長的樣本往往表現(xiàn)出低質(zhì)量特征,如無意義重復(fù)和冗余表達(dá)。因此,樣本級損失計算由于無法有效懲罰長樣本中的不良模式,導(dǎo)致模型熵值和響應(yīng)長度不受控制地增加。

通過專注于令牌級別的優(yōu)化,DAPO能夠更精確地捕捉復(fù)雜推理鏈中的細(xì)微關(guān)系,產(chǎn)生更連貫且邏輯嚴(yán)密的輸出。

過長響應(yīng)獎勵塑造:平滑長度優(yōu)化路徑

在追求全面響應(yīng)的過程中,大語言模型常常生成過長的輸出。處理這一問題的傳統(tǒng)方法通常采用硬截斷機(jī)制,這可能在訓(xùn)練過程中引入不必要的噪聲,并可能僅因長度問題而懲罰本質(zhì)上有效的推理過程。

DAPO的過長響應(yīng)獎勵塑造技術(shù)引入了一種更精細(xì)的、長度感知的懲罰機(jī)制。這種方法對超過預(yù)設(shè)最大長度的響應(yīng)實(shí)施漸進(jìn)式懲罰,為模型提供更平滑的訓(xùn)練信號。該技術(shù)的主要優(yōu)勢包括:

  • 鼓勵模型生成簡潔而完整的響應(yīng)
  • 避免可能擾亂訓(xùn)練過程的突然截斷懲罰
  • 顯著提高訓(xùn)練穩(wěn)定性和模型性能
  • 使模型能夠自然學(xué)習(xí)最優(yōu)響應(yīng)長度

打開網(wǎng)易新聞 查看精彩圖片

應(yīng)用過長響應(yīng)獎勵塑造策略前后,參與者模型在AIME上的準(zhǔn)確率和生成概率熵的變化。

通過實(shí)施過長響應(yīng)獎勵塑造機(jī)制,DAPO確保模型學(xué)會在響應(yīng)的詳盡性與簡潔性之間取得平衡,這是實(shí)際應(yīng)用場景中的關(guān)鍵能力。

Verl框架及系統(tǒng)組件

DAPO的卓越性能建立在先進(jìn)技術(shù)架構(gòu)和精心設(shè)計的系統(tǒng)資源基礎(chǔ)上。DAPO實(shí)現(xiàn)的核心是Verl框架——一個專為大語言模型設(shè)計的高效靈活的強(qiáng)化學(xué)習(xí)訓(xùn)練庫。

打開網(wǎng)易新聞 查看精彩圖片

應(yīng)用于DAPO的漸進(jìn)技術(shù)的主要實(shí)驗(yàn)結(jié)果。觀察到的性能提升證明了這些技術(shù)在RL訓(xùn)練中的有效性,每種技術(shù)都為AIME 2024測試貢獻(xiàn)了顯著的準(zhǔn)確率提升。值得注意的是,在原始GRPO設(shè)置下,從Qwen2.5-32B基礎(chǔ)模型訓(xùn)練僅能達(dá)到30%的準(zhǔn)確率。

Verl框架提供了幾項關(guān)鍵技術(shù)優(yōu)勢,直接促成了DAPO的成功:

算法靈活性:Verl支持多種RL算法并提供便捷的擴(kuò)展機(jī)制,使DAPO的創(chuàng)新技術(shù)得以高效實(shí)現(xiàn)。

集成能力:通過解耦計算和數(shù)據(jù)依賴關(guān)系,Verl能夠與現(xiàn)有LLM框架(如FSDP、Megatron-LM和vLLM)無縫集成。

可擴(kuò)展性和資源優(yōu)化:Verl對靈活設(shè)備映射的支持優(yōu)化了模型在不同GPU集群間的分布,提高了計算資源利用率和系統(tǒng)可擴(kuò)展性。

技術(shù)兼容性:Verl與Hugging Face和Modelscope Hub的主流模型完全兼容,包括DAPO創(chuàng)新性能中使用的Qwen-2.5模型系列。

除核心框架外,DAPO的完整實(shí)現(xiàn)還包括以下關(guān)鍵組件:

開源訓(xùn)練代碼:DAPO的完整代碼基礎(chǔ)設(shè)施向研究社區(qū)公開,增強(qiáng)了技術(shù)透明度和結(jié)果可復(fù)現(xiàn)性。

綜合訓(xùn)練數(shù)據(jù)集:DAPO利用精心構(gòu)建的DAPO-Math-17K數(shù)據(jù)集,該數(shù)據(jù)集包含從權(quán)威平臺收集并經(jīng)過標(biāo)準(zhǔn)化處理的17,000個數(shù)學(xué)問題。

標(biāo)準(zhǔn)化驗(yàn)證數(shù)據(jù)集:AIME 2024數(shù)據(jù)集作為評估DAPO性能的嚴(yán)格基準(zhǔn)測試。

即用型訓(xùn)練腳本:DAPO提供完整的訓(xùn)練腳本,包括標(biāo)準(zhǔn)版本和集成動態(tài)采樣的版本,便于研究人員快速復(fù)現(xiàn)并基于現(xiàn)有成果進(jìn)行創(chuàng)新。

DAPO學(xué)習(xí)過程的特征分析

使用強(qiáng)化學(xué)習(xí)訓(xùn)練大語言模型是一個包含探索、利用和持續(xù)改進(jìn)的復(fù)雜過程。DAPO的訓(xùn)練動態(tài)分析提供了關(guān)于系統(tǒng)如何隨時間演化和自我優(yōu)化的重要洞察:

響應(yīng)長度的演變:隨著訓(xùn)練進(jìn)行,DAPO展現(xiàn)出響應(yīng)長度的穩(wěn)定增長趨勢。這種增長模式表明模型探索和生成更復(fù)雜推理結(jié)構(gòu)的能力在持續(xù)擴(kuò)展。

獎勵分?jǐn)?shù)的進(jìn)階:獎勵分?jǐn)?shù)的持續(xù)上升曲線反映了DAPO成功適應(yīng)訓(xùn)練分布的能力,逐步學(xué)習(xí)生成更符合預(yù)期結(jié)果的高質(zhì)量響應(yīng)。

熵值與平均概率的平衡:DAPO在熵(探索能力)和平均概率(利用能力)之間維持了健康平衡。這種平衡對于生成多樣化且相關(guān)的響應(yīng)至關(guān)重要。

反思性推理能力的涌現(xiàn):DAPO訓(xùn)練過程中最顯著的特征之一是反思性推理行為的自然涌現(xiàn)。隨著訓(xùn)練深入,模型開始展示出回溯、自我糾正和迭代改進(jìn)推理過程的能力。這一現(xiàn)象展示了DAPO超越簡單模式匹配,邁向復(fù)雜問題解決策略的潛力。

打開網(wǎng)易新聞 查看精彩圖片

DAPO的響應(yīng)長度、獎勵分?jǐn)?shù)、生成熵和平均概率的指標(biāo)曲線,這些曲線展示了RL訓(xùn)練的動態(tài)特性,同時作為識別潛在問題的基本監(jiān)控指標(biāo)。后續(xù)實(shí)驗(yàn)證明,維持熵值的緩慢上升趨勢有利于模型性能的持續(xù)提升。

加速AI研究的普及

DAPO對AI研究社區(qū)最重要的貢獻(xiàn)之一是其對開源原則的堅定承諾。通過向全球研究人員和開發(fā)者提供完整系統(tǒng),DAPO正在促進(jìn)尖端AI技術(shù)的普及。DAPO的開源組件包括:

  • 詳細(xì)的算法規(guī)范文檔
  • 完整的代碼基礎(chǔ)設(shè)施
  • 經(jīng)過精心整理的訓(xùn)練和驗(yàn)證數(shù)據(jù)集
  • 全面的實(shí)現(xiàn)腳本和技術(shù)指南

這種開放策略為AI社區(qū)帶來了幾項關(guān)鍵優(yōu)勢:

  1. 結(jié)果可復(fù)現(xiàn)性:研究人員能夠輕松驗(yàn)證并基于DAPO的成果進(jìn)行迭代,建立技術(shù)信任并加速領(lǐng)域進(jìn)展。
  2. 跨機(jī)構(gòu)協(xié)作:DAPO的開源性質(zhì)促進(jìn)了跨組織和國際邊界的合作研究,匯集全球智力資源共同應(yīng)對復(fù)雜AI挑戰(zhàn)。
  3. 知識傳播:學(xué)生和新興研究人員能夠通過實(shí)際操作學(xué)習(xí)最先進(jìn)的RL技術(shù),縮小理論與實(shí)踐之間的差距。
  4. 創(chuàng)新加速:通過提供堅實(shí)的技術(shù)基礎(chǔ),DAPO使研究人員能夠?qū)W⒂谕卣筁LM訓(xùn)練的可能性邊界,而非重復(fù)基礎(chǔ)工作。

打開網(wǎng)易新聞 查看精彩圖片

強(qiáng)化學(xué)習(xí)過程中反思行為的自然涌現(xiàn)。例如,在模型訓(xùn)練的初始階段,幾乎不存在檢查和反思先前推理步驟的行為。然而,隨著訓(xùn)練的深入,模型逐漸展現(xiàn)出明顯的反思和回溯能力,如表中所示。這一觀察為進(jìn)一步探索RL過程中推理能力涌現(xiàn)機(jī)制提供了重要線索,這將是未來研究的重要方向。

總結(jié)

DAPO代表了大語言模型與強(qiáng)化學(xué)習(xí)技術(shù)融合發(fā)展的重要里程碑。通過系統(tǒng)解決長思維鏈推理、探索-利用平衡和訓(xùn)練效率等關(guān)鍵技術(shù)挑戰(zhàn),DAPO為開源大語言模型訓(xùn)練設(shè)立了新的技術(shù)標(biāo)準(zhǔn)。

系統(tǒng)在AIME 2024等嚴(yán)格基準(zhǔn)測試上取得的領(lǐng)先性能,以及實(shí)現(xiàn)這一性能的卓越效率,充分展示了創(chuàng)新RL技術(shù)應(yīng)用于大語言模型的潛力。此外,DAPO對開源原則的堅定承諾確保其技術(shù)進(jìn)步將在整個AI研究社區(qū)產(chǎn)生持續(xù)影響,促進(jìn)更廣泛的技術(shù)創(chuàng)新和學(xué)術(shù)合作。

在AI研究進(jìn)入新時代的關(guān)鍵節(jié)點(diǎn),DAPO既是一個強(qiáng)大的技術(shù)工具,也是一個重要的思想靈感源泉。它促使我們從創(chuàng)新角度思考大語言模型訓(xùn)練面臨的根本性挑戰(zhàn),并提供了系統(tǒng)性解決這些挑戰(zhàn)的技術(shù)路徑。

論文:

https://avoid.overfit.cn/post/ec5645f4c0844a38ae489b3b5be61db1

作者:Jenray