白交 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

用上這個開源框架,2天時間就能刷新7B數(shù)學(xué)推理紀錄!

螞蟻清華聯(lián)手開源的強化學(xué)習(xí)框架AReaL-boba,直接把推理模型訓(xùn)練帶到了Next Level——

訓(xùn)練成本下降的同時,訓(xùn)練速率、推理能力還大幅提升的那種。

打開網(wǎng)易新聞 查看精彩圖片

除了前面提到的7B模型,在32B模型上,只需兩百美元、200條數(shù)據(jù),就可以輕松復(fù)現(xiàn)QwQ-32B,就是數(shù)學(xué)推理能力媲美DeepSeek-R1,一戰(zhàn)封神的那個。

而且開源的內(nèi)容非常全面,不僅只是模型,所有訓(xùn)練代碼,數(shù)據(jù),模型參數(shù)以及訓(xùn)練細節(jié)都通通開源了,還有超級詳細的技術(shù)筆記可以看,感覺像是被技術(shù)團隊手把手教導(dǎo)。

一個技術(shù)小白也能手搓一個頂尖大模型了。

AReaL-boba,人人可復(fù)現(xiàn)QwQ

AReaL,Ant Reasoning RL,是Ant Research RL Lab等開源的高效強化學(xué)習(xí)系統(tǒng)。在此基礎(chǔ)之上,該版本取名為boba,是因為團隊希望AReaL像珍珠奶茶一樣讓強化學(xué)習(xí)普惠整個社區(qū),讓開發(fā)者無論資源規(guī)模均可觸達SOTA效果。

通過開源全部代碼、數(shù)據(jù)與模型參數(shù),AReaL-boba在訓(xùn)練效率、推理能力與成本控制上實現(xiàn)三重突破。

首先是訓(xùn)練效率上的提升,全面集成SGLang推理框架。

AReaL-boba是首個擁抱SGLang的開源訓(xùn)練系統(tǒng),大幅優(yōu)化訓(xùn)練吞吐性能。

(SGLang是一個xAI公司采用的面向復(fù)雜語言模型的高性能推理框架,它通過共同設(shè)計后端運行時和前端語言,讓模型交互更快、更可控。市面上主流模型和企業(yè)都已大規(guī)模部署,每天產(chǎn)生數(shù)萬億個token

對比原始版本,在1.5B模型尺寸上吞吐提升35%,7B模型提升60%,32B模型提升73%。

打開網(wǎng)易新聞 查看精彩圖片

而且無縫適配各種計算資源,既支持單機,也支持大規(guī)模分布式訓(xùn)練,突破傳統(tǒng)RL訓(xùn)練資源瓶頸。

大規(guī)模分布式訓(xùn)練效率上有顯著的提升,一個直觀的例子:

  • 128卡集群1天完成1.5B模型訓(xùn)練,256卡2天完成7B模型訓(xùn)練。

打開網(wǎng)易新聞 查看精彩圖片

這樣一來,中小團隊也能在有限算力下快速迭代模型,真正實現(xiàn)”人人可駕馭強化學(xué)習(xí)”。

其次,推理能力大幅提升,尤其7B模型性能斷層領(lǐng)先。

當前最考驗推理模型能力的,無疑是它在數(shù)學(xué)推理領(lǐng)域的表現(xiàn)。

在這一領(lǐng)域中,AReaL-boba基于Qwen-R1-Distill-7B模型,通過大規(guī)模強化學(xué)習(xí)訓(xùn)練,僅用2天即實現(xiàn)SOTA水平——

AIME 2024 61.9分,AIME 2025 48.3分,相比于o1-preview也是大幅領(lǐng)先。

打開網(wǎng)易新聞 查看精彩圖片

相較于基礎(chǔ)模型Qwen-R1-Distill-7B,使用AReaL-boba后模型推理能力也有不少提升——

分別在AIME2024、AIME2025提升6.9、8.6分。

而想要擁有這樣一個SOTA級別的推理模型并不難,團隊不僅把能開源的都開源了,還有超級詳細的技術(shù)筆記送上。

打開網(wǎng)易新聞 查看精彩圖片

團隊不僅開源了推理模型,也開源了所有所有訓(xùn)練數(shù)據(jù)AReaL-boba-106k,以及全部的訓(xùn)練腳本和評估腳本,保證人人可以復(fù)現(xiàn)。

而過程中遇到問題也不用擔心,在項目官方倉庫上,AReaL 團隊也放出了極其詳細的技術(shù)筆記,總結(jié)了大量訓(xùn)練中的關(guān)鍵點,包括 PPO 超參數(shù)、獎勵函數(shù)設(shè)置、正則化設(shè)置、長度上限設(shè)置等等。

刷新小模型推理上限的同時,也通過技術(shù)透明化推動創(chuàng)新生態(tài)。

像我這樣一個技術(shù)小白,研究一下也能手搓個小模型出來。

打開網(wǎng)易新聞 查看精彩圖片

最后,使用創(chuàng)新性蒸餾技術(shù),極簡數(shù)據(jù)復(fù)現(xiàn)頂尖模型。

前段時間,QwQ-32B橫空出世,其強大的推理性能引發(fā)諸多關(guān)注。

它在數(shù)學(xué)推理、編碼能力和一般問題解決能力上,超過了一眾領(lǐng)先模型,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1。

打開網(wǎng)易新聞 查看精彩圖片

現(xiàn)在AReaL-boba推出超精簡訓(xùn)練方案,直接把32B大模型訓(xùn)練的所需成本給打下來。

數(shù)據(jù)上面,僅需200條數(shù)據(jù)的AReaL-boba-200數(shù)據(jù)集。

使用Qwen-32B-Distill基礎(chǔ)模型,通過輕量級SFT技術(shù)即可復(fù)現(xiàn)QwQ-32B的AIME2024效果。

整個計算成本,僅需200美元。

這一創(chuàng)新讓頂級推理能力的訓(xùn)練門檻從“實驗室專享”降為”人人可及”,開創(chuàng)了小數(shù)據(jù)驅(qū)動大模型的新范式。

首個完整開源的團隊

AReaL團隊的核心成員均來自于螞蟻研究院強化學(xué)習(xí)實驗室以及清華交叉信息研究院吳翼老師團隊。

上個月,他們初始版本針對1.5B和7B推理模型優(yōu)化,比如借助AReaL使用RL訓(xùn)練1.5B蒸餾模型,在40小時內(nèi)超越o1-Preview的數(shù)學(xué)推理能力。

打開網(wǎng)易新聞 查看精彩圖片

同樣也給出了詳細的訓(xùn)練細節(jié)。

打開網(wǎng)易新聞 查看精彩圖片

作為國內(nèi)第一個完整開源(數(shù)據(jù)、代碼、模型、腳本全開源)的項目團隊,他們表示致力于真正實現(xiàn)AI訓(xùn)練的普惠。

其實從此次boba版本的發(fā)布也能看出,通過開源開放,讓AI訓(xùn)練成為社區(qū)共享的基礎(chǔ)設(shè)施。其三大技術(shù)突破(極速訓(xùn)練、推理登頂、低成本復(fù)現(xiàn))形成的技術(shù)飛輪,推動強化學(xué)習(xí)大規(guī)模訓(xùn)練的發(fā)展。

在項目列表中,他們也揭示了后續(xù)的開源計劃和目標——

包括異步訓(xùn)練,更快的訓(xùn)練吞吐,更好的數(shù)據(jù)集和算法,以及代碼和Agent智能體能力的支持

也是十分期待了。

打開網(wǎng)易新聞 查看精彩圖片

實際上,螞蟻的AI研發(fā)也非常值得關(guān)注,成果SOTA,場景天然,產(chǎn)品還是國民級的。

項目鏈接:

https://github.com/inclusionAI/AReaL

HuggingFace數(shù)據(jù)模型地址:

https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a