打開(kāi)網(wǎng)易新聞 查看精彩圖片

責(zé)編 |夢(mèng)依丹

出品丨AI 科技大本營(yíng)(ID:rgznai100)

3 月的最后一天,由螞蟻與清華大學(xué)交叉信息研究院吳翼老師團(tuán)隊(duì)聯(lián)合推出的開(kāi)源強(qiáng)化學(xué)習(xí)框架 AReaL 發(fā)布了里程碑版本——AReaL boba,正如其昵稱(chēng)“boba”(珍珠奶茶)所寓意的那樣,AReaL 團(tuán)隊(duì)希望他們的工作能像美味且平易近人的奶茶一樣,普惠整個(gè) AI 開(kāi)發(fā)社區(qū),讓每一位開(kāi)發(fā)者都能輕松駕馭強(qiáng)大的推理模型。

就像 AReaL 介紹里說(shuō)的那番,他們將完全致力于開(kāi)源,發(fā)布所有重現(xiàn)所需性能模型的訓(xùn)練細(xì)節(jié)、數(shù)據(jù)和基礎(chǔ)設(shè)施。AReaL boba 不僅把模型、代碼、數(shù)據(jù)及實(shí)現(xiàn)細(xì)節(jié)通通開(kāi)放出來(lái),而且還提供非常詳細(xì)的教程,真正實(shí)現(xiàn)了“人人可手搓頂尖大模型”的愿景。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

集成 SGLang 框架,效率大幅提升!

AReaL boba 是首個(gè)全面擁抱 xAI 公司高性能推理框架 SGLang 的開(kāi)源訓(xùn)練系統(tǒng)。通過(guò)引入 SGLang 并進(jìn)行一系列工程優(yōu)化,AReaL v0.2 在 7B 模型上的訓(xùn)練速度相較于 v0.1 提升了 1.5 倍,端到端訓(xùn)練性能提升高達(dá) 73%。如下圖所示:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

官網(wǎng)提供的表格進(jìn)一步展示了 AReaL-boba 在不同資源配置下的訓(xùn)練時(shí)間:

打開(kāi)網(wǎng)易新聞 查看精彩圖片

AReaL 團(tuán)隊(duì)通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,使得 AReaL-boba-RL-7B 在數(shù)學(xué)推理能力上達(dá)到了同尺寸模型的 SOTA 水平。其在 AIME 2024 上取得了 61.9 分,在 AIME 2025 上取得了 48.3 分,不僅顯著超越了基礎(chǔ)模型,更是在多個(gè)基準(zhǔn)測(cè)試中領(lǐng)先于同類(lèi)開(kāi)源模型。為了方便社區(qū)復(fù)現(xiàn),團(tuán)隊(duì)還開(kāi)源了相應(yīng)的訓(xùn)練數(shù)據(jù) AReaL-boba-106k。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

AReaL-boba 團(tuán)隊(duì)通過(guò)監(jiān)督微調(diào),基于 R1-Distill-Qwen-32B,僅使用 200 條精選數(shù)據(jù) (AReaL-boba-SFT-200) 就成功復(fù)現(xiàn)了 QwQ-32B 在 AIME 2024 上的驚人推理性能!

打開(kāi)網(wǎng)易新聞 查看精彩圖片

目前,AReaL 項(xiàng)目正處于積極開(kāi)發(fā)階段,并計(jì)劃以每周一次的頻率發(fā)布重大更 新。未來(lái),AReaL 的研發(fā)重點(diǎn)將包括系統(tǒng)與算法的優(yōu)化,系統(tǒng)層面將引入基于編碼問(wèn)題的強(qiáng)化 學(xué)習(xí)訓(xùn)練、異步生成與 RL 訓(xùn)練等。此外,該團(tuán)隊(duì)還將探索視覺(jué)-語(yǔ)言模型的強(qiáng)化學(xué)習(xí)、繼續(xù)完善 32B 規(guī)模模型的強(qiáng)化學(xué)習(xí)訓(xùn)練方案,研發(fā)高效的多任務(wù) RL 算法,并推動(dòng)端到端 RL 訓(xùn)練的智能體能力,同時(shí)提升更大規(guī)模 MoE 模型的穩(wěn)定訓(xùn)練能力。

有關(guān) AReaL-boba-RL-7B 訓(xùn)練細(xì)節(jié),大家可以前往官博查看詳細(xì)介紹。

  • GitHub 項(xiàng)目地址:https://github.com/inclusionAI/AReaL

  • HuggingFace 數(shù)據(jù)模型地址:https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

此外,令人期待的是,清華大學(xué)交叉信息研究院助理教授、AReaL 項(xiàng)目核心成員吳翼老師 在即將舉行的 2025 機(jī)器學(xué)習(xí)技術(shù)大會(huì)上,與開(kāi)發(fā)者們深度剖析 AReaL 項(xiàng)目的技術(shù)精髓與實(shí)戰(zhàn)經(jīng)驗(yàn),并著重解讀 AReaL 系統(tǒng)如何應(yīng)對(duì)強(qiáng)化學(xué)習(xí)的獨(dú)特挑戰(zhàn)。

與此同時(shí),上文提及的 Light-R1-7B-DS 核心開(kāi)發(fā)者、360 智腦算法資深專(zhuān)家鄒昊晟將親臨大會(huì),帶來(lái)題為《開(kāi)源推理模型的課程學(xué)習(xí)與 GRPO 數(shù)據(jù)心得和訓(xùn)練策略》的精彩分享。360 智腦于 3 月上旬開(kāi)源了 Light-R1 多尺寸系列推理模型及訓(xùn)練數(shù)據(jù)與代碼,在開(kāi)源之初便實(shí)現(xiàn)了多項(xiàng)突破:首次在同類(lèi)評(píng)測(cè)中零起點(diǎn)超越 DeepSeek-R1-Distill-32B,并首次在 14B 模型上實(shí)現(xiàn)了長(zhǎng)推理 SFT 后 GRPO 強(qiáng)化學(xué)習(xí)的顯著提升。全系列模型都曾亮相于周鴻祎的短視頻之中。