在過去很長(zhǎng)時(shí)間里,預(yù)訓(xùn)練擴(kuò)展定律(Pre-training Scaling Law)都是機(jī)器學(xué)習(xí)領(lǐng)域最重要的經(jīng)驗(yàn)法則之一,它不僅幫助研究人員理解和優(yōu)化模型訓(xùn)練過程,還為資源分配提供了理論依據(jù)。簡(jiǎn)單來說,當(dāng)在特定任務(wù)上使用參數(shù)更大的模型、更多的訓(xùn)練數(shù)據(jù)和更強(qiáng)的計(jì)算能力時(shí),模型性能也會(huì)更強(qiáng)。
而 DeepSeek R1 、 OpenAI o1 、文心大模型 X1 以及 QVQ-Max 的出現(xiàn),則表明 LLM 領(lǐng)域的 Scaling Law 正在發(fā)生變化。這類模型在數(shù)學(xué)、代碼、長(zhǎng)程規(guī)劃等問題上的表現(xiàn)尤為突出,而且其推理能力提升的關(guān)鍵,就是后訓(xùn)練階段中強(qiáng)化學(xué)習(xí)訓(xùn)練和推理階段思考計(jì)算量的增大。一方面意味著后訓(xùn)練擴(kuò)展定律(Post-Training Scaling Laws)正在引發(fā)社區(qū)對(duì)于算力分配、后訓(xùn)練能力的重新思考,另一方面也讓強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning)成為了大語言模型能力提升的新引擎。
就在本周,螞蟻技術(shù)研究院和清華大學(xué)交叉信息院吳翼團(tuán)隊(duì),發(fā)布了訓(xùn)練速度最快最穩(wěn)定的開源強(qiáng)化學(xué)習(xí)訓(xùn)練框架 AReaL(Ant Reasoning RL,https://github.com/inclusionAI/AReaL),并公開了全部數(shù)據(jù)和完成可復(fù)現(xiàn)的訓(xùn)練腳本。在最新的 AReaL v0.2 版本 AReaL-boba 中,其 7B 模型數(shù)學(xué)推理分?jǐn)?shù)刷新同尺寸模型 AIME 分?jǐn)?shù)紀(jì)錄,并且僅僅使用 200 條數(shù)據(jù)就在 AIME 2024 上復(fù)刻 QwQ-32B 的推理結(jié)果,相當(dāng)于僅僅使用了 200 美金的計(jì)算成本,讓所有人都可以以極低的成本實(shí)現(xiàn)最強(qiáng)的推理訓(xùn)練效果。
1 后訓(xùn)練定律崛起,強(qiáng)化學(xué)習(xí)重塑大模型能力邊界
后訓(xùn)練擴(kuò)展定律的興起是大語言模型能力進(jìn)化的重要轉(zhuǎn)折點(diǎn),該定律表明訓(xùn)練階段的計(jì)算量不再只和參數(shù)量的上升有關(guān),同時(shí)也會(huì)包含強(qiáng)化學(xué)習(xí)探索時(shí)大語言模型推理的計(jì)算量。這也就意味著可以使用微調(diào)、剪枝、量化、蒸餾、強(qiáng)化學(xué)習(xí)和合成數(shù)據(jù)增強(qiáng)等技術(shù),進(jìn)一步提高預(yù)訓(xùn)練模型的性能。
以強(qiáng)化學(xué)習(xí)為例,作為一種對(duì)標(biāo)注數(shù)據(jù)數(shù)量要求更少的機(jī)器學(xué)習(xí)技術(shù),它只通過獎(jiǎng)勵(lì)模型來訓(xùn)練大模型,使其學(xué)習(xí)做出與特定用例相符的決策。大模型的目標(biāo)是在與環(huán)境交互的過程中,隨著時(shí)間推移最大化累積獎(jiǎng)勵(lì)。
例如,一個(gè)大語言模型可以通過用戶的“點(diǎn)贊”反應(yīng)獲得正向強(qiáng)化,這種技術(shù)被稱為基于人類反饋的強(qiáng)化學(xué)習(xí) (RLHF)。另一種更新的技術(shù)是基于 AI 反饋的強(qiáng)化學(xué)習(xí) (RLAIF),它使用 AI 模型的反饋來指導(dǎo)學(xué)習(xí)過程,從而簡(jiǎn)化后訓(xùn)練的優(yōu)化工作。
通過引入強(qiáng)化學(xué)習(xí)機(jī)制,大語言模型可借助實(shí)時(shí)反饋對(duì)生成內(nèi)容進(jìn)行動(dòng)態(tài)優(yōu)化,使其輸出更精準(zhǔn)地適配人類偏好,從而將海量知識(shí)儲(chǔ)備有效轉(zhuǎn)化為針對(duì)特定場(chǎng)景的任務(wù)解決能力。
不過,強(qiáng)化學(xué)習(xí)雖然效果顯著,但針對(duì)大語言模型的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練門檻卻一直很高:例如在數(shù)據(jù)方面,某些大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練需要大量高質(zhì)量的人類反饋數(shù)據(jù),需要收集和處理大量的人類偏好數(shù)據(jù),可能還會(huì)涉及隱私和倫理問題。
計(jì)算資源方面,大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練需要強(qiáng)大的計(jì)算資源,包括 GPU 集群和高效的分布式訓(xùn)練算法。
成本方面,大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練所需的時(shí)間成本、財(cái)務(wù)成本都比較高,對(duì)不少團(tuán)隊(duì)來說都是一個(gè)挑戰(zhàn)。
算法復(fù)雜度方面,強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)比較復(fù)雜,獎(jiǎng)勵(lì)模型構(gòu)建和策略優(yōu)化都需要考慮在內(nèi),還需要處理自注意力機(jī)制、長(zhǎng)距離依賴等問題。
模型設(shè)計(jì)方面,也需要平衡模型的復(fù)雜度與性能,同時(shí)由于獎(jiǎng)勵(lì)模型準(zhǔn)確率直接影響強(qiáng)化學(xué)習(xí)的效果,還需要高質(zhì)量訓(xùn)練數(shù)據(jù)的支持。
生成評(píng)估方面,需要結(jié)合人工評(píng)估與自動(dòng)指標(biāo),如果是多模態(tài)模型,還需要應(yīng)對(duì)跨模態(tài)任務(wù)評(píng)估的難題。
總體來說,大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的流程復(fù)雜,涉及模塊繁多(如生成、訓(xùn)練、獎(jiǎng)勵(lì)判定等),這為實(shí)現(xiàn)高效穩(wěn)定的分布式訓(xùn)練帶來了很多挑戰(zhàn);其次,類似 DeepSeek R1 這樣的推理模型輸出長(zhǎng)度會(huì)很長(zhǎng)(超過 10K),隨著訓(xùn)練持續(xù)變化,很容易造成顯存和效率瓶頸;最后,目前的開源社區(qū)中缺乏高質(zhì)量的強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù),也缺乏完整可復(fù)現(xiàn)的訓(xùn)練過程。
針對(duì)上述挑戰(zhàn),螞蟻技術(shù)研究院于上個(gè)月正式開源了強(qiáng)化學(xué)習(xí)框架 AReaL(Ant Reasoning RL)。AReaL 基于開源框架 ReaLHF 構(gòu)建,旨在訓(xùn)練每個(gè)人都可以復(fù)現(xiàn)和貢獻(xiàn)的大型推理模型 。

AReaL 秉承完全開放與可復(fù)現(xiàn)的理念,團(tuán)隊(duì)將持續(xù)公開包括 LRM 訓(xùn)練模型的全套代碼、完整數(shù)據(jù)集及系統(tǒng)化訓(xùn)練方案。項(xiàng)目所有核心算法組件完整開源,開發(fā)者可自由進(jìn)行模型驗(yàn)證、功能改進(jìn)及實(shí)際應(yīng)用,推動(dòng)大型推理模型、智能體開發(fā)領(lǐng)域的協(xié)作創(chuàng)新。
此外,AReaL 可以適配多種計(jì)算資源環(huán)境,從單節(jié)點(diǎn)開發(fā)調(diào)試環(huán)境到千卡級(jí) GPU 集群分布式訓(xùn)練場(chǎng)景均可實(shí)現(xiàn)全流程高效執(zhí)行。在首次發(fā)布的 v0.1 版本中,就包含了基于 AReaL 的可復(fù)現(xiàn)實(shí)驗(yàn),涵蓋 1.5B 和 7B 參數(shù)的推理模型,并在多種計(jì)算預(yù)算下進(jìn)行了驗(yàn)證。
通過 AReaL,開發(fā)者可以在 40 小時(shí)內(nèi)穩(wěn)定完成 1.5B 的強(qiáng)化學(xué)習(xí)訓(xùn)練,使其在數(shù)學(xué)推理任務(wù)能力上超越 o1-Preview;或者在 Qwen2.5-7B 大模型上實(shí)現(xiàn)穩(wěn)定復(fù)現(xiàn)的強(qiáng)化學(xué)習(xí)訓(xùn)練,從而系統(tǒng)化驗(yàn)證 thinking token 的演化規(guī)律及模型數(shù)學(xué)推理能力的持續(xù)優(yōu)化過程。
而本周發(fā)布的 v0.2 版本 AReaL-boba,則讓普通人也擁有了“手搓” QwQ-32B 的能力。
2 開源框架革新:三大核心解鎖強(qiáng)化學(xué)習(xí)規(guī)?;?/p>
AReaL 團(tuán)隊(duì)表示,新版本“boba” 的命名一方面源自團(tuán)隊(duì)對(duì)珍珠奶茶的偏愛,另一面也是希望強(qiáng)化學(xué)習(xí)技術(shù)能如奶茶成為大眾飲品一般,滲透至 AI 開發(fā)的每個(gè)日常場(chǎng)景,普惠整個(gè)社區(qū)。事實(shí)上,AReaL-boba 也完全擁有這樣的能力,其技術(shù)亮點(diǎn)主要表現(xiàn)在以下三個(gè)方面:
全面擁抱 SGLang 框架,訓(xùn)練速度大幅提升
AReaL-boba 是首個(gè)全面擁抱 SGLang 推理框架的開源訓(xùn)練系統(tǒng),并充分利用了 SGLang 推理框架的多種優(yōu)勢(shì),包括更高的推理性能、更低的資源消耗、更高的靈活性、易于集成等等。
AReaL-boba 在初代 AReaL 版本的基礎(chǔ)上實(shí)現(xiàn)了突破性進(jìn)展:通過深度整合 SGLang 框架并實(shí)施多維度工程優(yōu)化,AReaL-boba 能夠靈活適配不同的計(jì)算資源配置,并且性能提升呈現(xiàn)出顯著的規(guī)模效應(yīng)——在 1.5B 參數(shù)模型上訓(xùn)練速度提升 35%,7B 模型加速達(dá) 60%,當(dāng)擴(kuò)展至 32B 大模型時(shí)更獲得 73% 的顯著性能躍升,為大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練提供了高效的解決方案。

此外,AReaL-boba 也展現(xiàn)出了卓越的大模型訓(xùn)練效率:僅需 128 張 H800 顯卡即可在 24 小時(shí)內(nèi)完成 1.5B 參數(shù)的 SOTA 推理模型訓(xùn)練;當(dāng)擴(kuò)展至 256 張 H800 時(shí),可在 48 小時(shí)內(nèi)完成 7B 參數(shù)的 SOTA 推理模型訓(xùn)練。這些也得益于 AReaL-boba 在系統(tǒng)級(jí)方面的優(yōu)化:
生成后端升級(jí)
AReaL-boba 的生成后端升級(jí)到了 SGLang v0.4.0,并通過 RadixAttention 機(jī)制顯著提高了從同一提示中采樣多個(gè)響應(yīng)的場(chǎng)景中的吞吐量。此外,SGLang 會(huì)在權(quán)重更新時(shí)自動(dòng)刷新 Radix 緩存,從而確保強(qiáng)化學(xué)習(xí)的正確性。
優(yōu)化可變長(zhǎng)度序列與大批量訓(xùn)練
為了高效處理可變序列長(zhǎng)度問題,AReaL 團(tuán)隊(duì)摒棄了填充操作,轉(zhuǎn)而將序列打包為 1D 張量。通過動(dòng)態(tài)分配算法(近似)最優(yōu)地將序列分配到最大令牌預(yù)算下,在平衡微批次規(guī)模的同時(shí)最小化微批次數(shù)量。該方法能最大化 GPU 內(nèi)存利用率,從而支持高效處理大規(guī)??勺冮L(zhǎng)度輸入。
面向千卡級(jí) GPU 擴(kuò)展的高性能數(shù)據(jù)傳輸
AReaL 團(tuán)隊(duì)采用了基于 InfiniBand/RoCE 協(xié)議的 GPU 直連遠(yuǎn)程直接內(nèi)存訪問(GDRDMA)技術(shù),配合 NVIDIA 集合通信庫(NCCL),實(shí)現(xiàn)了 GPU 間的直接通信。該技術(shù)繞過了傳統(tǒng) CPU 中介傳輸和 PCIe 總線瓶頸,相較于基于以太網(wǎng)的傳統(tǒng)方案,顯著降低了通信延遲并提升了傳輸吞吐量。即使在包含 1000 塊 GPU 的超大集群中,也能將生成到訓(xùn)練流程的數(shù)據(jù)傳輸開銷控制在 3 秒以內(nèi)。
種種技術(shù)加持之下,AReaL-boba 成為了目前訓(xùn)練速度最快的開源框架。
強(qiáng)化學(xué)習(xí)賦能,7B 模型數(shù)學(xué)推理分?jǐn)?shù)刷新開源社區(qū)紀(jì)錄
數(shù)學(xué)推理是大型模型實(shí)現(xiàn)強(qiáng)人工智能的關(guān)鍵,它不僅能直接提升模型在數(shù)學(xué)相關(guān)任務(wù)的表現(xiàn),更通過培養(yǎng)邏輯嚴(yán)謹(jǐn)性、抽象思維和問題分解能力,間接增強(qiáng)模型在通用領(lǐng)域的推理效能。
AReaL 團(tuán)隊(duì)基于 Qwen-R1-Distill-7B 基礎(chǔ)模型,通過大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,在 48 小時(shí)內(nèi)即可取得領(lǐng)域最佳的數(shù)學(xué)推理能力,并刷新開源社區(qū)新紀(jì)錄,實(shí)現(xiàn) AIME2024 61.9 分與 AIME2025 48.3 分的優(yōu)異成績(jī),顯著超越 OpenAI o1-preview 模型。
與基礎(chǔ)模型相比,AReaL-boba 通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了模型的能力躍遷,分別較 AIME2024 和 AIME2025 提升了 6.9 分與 8.6 分,進(jìn)一步驗(yàn)證了強(qiáng)化學(xué)習(xí)規(guī)?;瘧?yīng)用在推理模型優(yōu)化中的關(guān)鍵價(jià)值。

基于 AReaL 完全開放與可復(fù)現(xiàn)的理念,AReaL-boba 在開源推理模型的基礎(chǔ)上也開源了所有的訓(xùn)練數(shù)據(jù) AReaL-boba-106k,以及全部的訓(xùn)練腳本和評(píng)估腳本。同時(shí)在項(xiàng)目官方倉(cāng)庫上,AReaL 團(tuán)隊(duì)也放出了極其詳細(xì)的技術(shù)筆記,總結(jié)了大量訓(xùn)練中的關(guān)鍵點(diǎn),包括 PPO 超參數(shù)、獎(jiǎng)勵(lì)函數(shù)設(shè)置、正則化設(shè)置、長(zhǎng)度上限設(shè)置等等。
例如,AReaL 團(tuán)隊(duì)以 PPO 超參數(shù)作為核心訓(xùn)練算法,為節(jié)省計(jì)算資源,移除了策略評(píng)估網(wǎng)絡(luò)(Critic 模型)。同時(shí),將折扣因子γ和廣義優(yōu)勢(shì)估計(jì)(GAE)參數(shù)λ均設(shè)置為 1。這些配置策略與 Open-Reasoner-Zero 項(xiàng)目的實(shí)現(xiàn)方案保持一致。
在獎(jiǎng)勵(lì)函數(shù)設(shè)置方面,AReaL 團(tuán)隊(duì)則采用了稀疏序列級(jí)獎(jiǎng)勵(lì)機(jī)制。模型被要求將最終答案用方框標(biāo)出(即\boxed{}格式),隨后系統(tǒng)會(huì)對(duì)該答案進(jìn)行驗(yàn)證。若答案正確則給予 +5 的獎(jiǎng)勵(lì),錯(cuò)誤則處以 -5 的懲罰。同時(shí),由于 KL 散度獎(jiǎng)勵(lì)可能對(duì)模型性能產(chǎn)生負(fù)面影響,尤其是在長(zhǎng)思維鏈訓(xùn)練中,因此將其系數(shù)設(shè)為 0 以消除干擾。
創(chuàng)新性蒸餾技術(shù),200 條數(shù)據(jù)輕松復(fù)刻 QwQ-32B
針對(duì) 32B 參數(shù)規(guī)模的推理模型,AReaL 團(tuán)隊(duì)進(jìn)一步精簡(jiǎn)了訓(xùn)練數(shù)據(jù)并發(fā)布了 AReaL-boba-200 數(shù)據(jù)集以及相關(guān)訓(xùn)練腳本,在以 Qwen-32B-Distill 作為基礎(chǔ)模型時(shí),AReaL-boba 采用輕量級(jí)監(jiān)督微調(diào) (SFT) 技術(shù),在 AIME2024 評(píng)測(cè)中成功復(fù)現(xiàn)了 QwQ-32B 模型的推理性能,并且整個(gè)訓(xùn)練過程僅需 200 美元的計(jì)算成本,為開發(fā)者甚至普通人提供了低門檻實(shí)現(xiàn)高性能推理訓(xùn)練的可行性路徑。

3 結(jié)尾
與傳統(tǒng)的深度學(xué)習(xí)算法相比,強(qiáng)化學(xué)習(xí)更為復(fù)雜,且模塊更多,這使得搭建適應(yīng)強(qiáng)化學(xué)習(xí)算法的訓(xùn)練系統(tǒng)成為了一件頗具挑戰(zhàn)的課題,AReaL 作為一個(gè)專為大型推理模型設(shè)計(jì)的靈活高效的開源強(qiáng)化學(xué)習(xí)系統(tǒng),如今已經(jīng)更新到了訓(xùn)練速度更快的 AReaL-boba 版本,這無疑為強(qiáng)化學(xué)習(xí)在大模型時(shí)代的創(chuàng)新應(yīng)用注入了新的活力。
值得一提的是,AReaL 團(tuán)隊(duì)的核心成員均來自螞蟻研究院強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,以及交叉信息研究院吳翼團(tuán)隊(duì),項(xiàng)目也借鑒了大量?jī)?yōu)秀的開源項(xiàng)目,比如 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、veRL、SGLang、QwQ、Light-R1 和 DAPO。作為國(guó)內(nèi)第一個(gè)完整開源(數(shù)據(jù)、代碼、模型、腳本全開源)的項(xiàng)目團(tuán)隊(duì),AReaL 的初衷就是真正實(shí)現(xiàn) AI 訓(xùn)練的普惠。
在項(xiàng)目官方倉(cāng)庫中,AReaL 團(tuán)隊(duì)也列出了團(tuán)隊(duì)后續(xù)的開源計(jì)劃和目標(biāo),包括異步訓(xùn)練、訓(xùn)練吞吐優(yōu)化、數(shù)據(jù)集和算法升級(jí),以及代碼和 Agent 智能體能力支持。也許,下一個(gè) AReaL 版的“奶茶”,也已經(jīng)在路上。
這不僅是一次技術(shù)開源嘗試,更是推動(dòng)算力普惠化的積極探索——當(dāng) AReaL-boba 將大模型強(qiáng)化學(xué)習(xí)訓(xùn)練簡(jiǎn)化為如同點(diǎn)奶茶般簡(jiǎn)易的操作時(shí),人人都能“手搓”大模型的時(shí)代,可能馬上就要來臨了。
項(xiàng)目鏈接:https://github.com/inclusionAI/AReaL
HuggingFace 數(shù)據(jù)模型地址:https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a
熱門跟貼