午夜视频在线观看福利,国产一区二区在线观看免费,成人女子免费视频,丰满人妻一区二区三区色91,亚洲av网址观看

責(zé)編 |夢(mèng)依丹

出品丨AI 科技大本營(yíng)（ID：rgznai100）

3 月的最后一天，由螞蟻與清華大學(xué)交叉信息研究院吳翼老師團(tuán)隊(duì)聯(lián)合推出的開(kāi)源強(qiáng)化學(xué)習(xí)框架 AReaL 發(fā)布了里程碑版本——AReaL boba，正如其昵稱(chēng)“boba”（珍珠奶茶）所寓意的那樣，AReaL 團(tuán)隊(duì)希望他們的工作能像美味且平易近人的奶茶一樣，普惠整個(gè) AI 開(kāi)發(fā)社區(qū)，讓每一位開(kāi)發(fā)者都能輕松駕馭強(qiáng)大的推理模型。

就像 AReaL 介紹里說(shuō)的那番，他們將完全致力于開(kāi)源，發(fā)布所有重現(xiàn)所需性能模型的訓(xùn)練細(xì)節(jié)、數(shù)據(jù)和基礎(chǔ)設(shè)施。AReaL boba 不僅把模型、代碼、數(shù)據(jù)及實(shí)現(xiàn)細(xì)節(jié)通通開(kāi)放出來(lái)，而且還提供非常詳細(xì)的教程，真正實(shí)現(xiàn)了“人人可手搓頂尖大模型”的愿景。

集成 SGLang 框架，效率大幅提升！

AReaL boba 是首個(gè)全面擁抱 xAI 公司高性能推理框架 SGLang 的開(kāi)源訓(xùn)練系統(tǒng)。通過(guò)引入 SGLang 并進(jìn)行一系列工程優(yōu)化，AReaL v0.2 在 7B 模型上的訓(xùn)練速度相較于 v0.1 提升了 1.5 倍，端到端訓(xùn)練性能提升高達(dá) 73%。如下圖所示：

官網(wǎng)提供的表格進(jìn)一步展示了 AReaL-boba 在不同資源配置下的訓(xùn)練時(shí)間：

AReaL 團(tuán)隊(duì)通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練，使得 AReaL-boba-RL-7B 在數(shù)學(xué)推理能力上達(dá)到了同尺寸模型的 SOTA 水平。其在 AIME 2024 上取得了 61.9 分，在 AIME 2025 上取得了 48.3 分，不僅顯著超越了基礎(chǔ)模型，更是在多個(gè)基準(zhǔn)測(cè)試中領(lǐng)先于同類(lèi)開(kāi)源模型。為了方便社區(qū)復(fù)現(xiàn)，團(tuán)隊(duì)還開(kāi)源了相應(yīng)的訓(xùn)練數(shù)據(jù) AReaL-boba-106k。

AReaL-boba 團(tuán)隊(duì)通過(guò)監(jiān)督微調(diào)，基于 R1-Distill-Qwen-32B，僅使用 200 條精選數(shù)據(jù) (AReaL-boba-SFT-200) 就成功復(fù)現(xiàn)了 QwQ-32B 在 AIME 2024 上的驚人推理性能！

目前，AReaL 項(xiàng)目正處于積極開(kāi)發(fā)階段，并計(jì)劃以每周一次的頻率發(fā)布重大更新。未來(lái)，AReaL 的研發(fā)重點(diǎn)將包括系統(tǒng)與算法的優(yōu)化，系統(tǒng)層面將引入基于編碼問(wèn)題的強(qiáng)化學(xué)習(xí)訓(xùn)練、異步生成與 RL 訓(xùn)練等。此外，該團(tuán)隊(duì)還將探索視覺(jué)-語(yǔ)言模型的強(qiáng)化學(xué)習(xí)、繼續(xù)完善 32B 規(guī)模模型的強(qiáng)化學(xué)習(xí)訓(xùn)練方案，研發(fā)高效的多任務(wù) RL 算法，并推動(dòng)端到端 RL 訓(xùn)練的智能體能力，同時(shí)提升更大規(guī)模 MoE 模型的穩(wěn)定訓(xùn)練能力。

有關(guān) AReaL-boba-RL-7B 訓(xùn)練細(xì)節(jié)，大家可以前往官博查看詳細(xì)介紹。

GitHub 項(xiàng)目地址：https://github.com/inclusionAI/AReaL

HuggingFace 數(shù)據(jù)模型地址：https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

此外，令人期待的是，清華大學(xué)交叉信息研究院助理教授、AReaL 項(xiàng)目核心成員吳翼老師在即將舉行的 2025 機(jī)器學(xué)習(xí)技術(shù)大會(huì)上，與開(kāi)發(fā)者們深度剖析 AReaL 項(xiàng)目的技術(shù)精髓與實(shí)戰(zhàn)經(jīng)驗(yàn)，并著重解讀 AReaL 系統(tǒng)如何應(yīng)對(duì)強(qiáng)化學(xué)習(xí)的獨(dú)特挑戰(zhàn)。

與此同時(shí)，上文提及的 Light-R1-7B-DS 核心開(kāi)發(fā)者、360 智腦算法資深專(zhuān)家鄒昊晟將親臨大會(huì)，帶來(lái)題為《開(kāi)源推理模型的課程學(xué)習(xí)與 GRPO 數(shù)據(jù)心得和訓(xùn)練策略》的精彩分享。360 智腦于 3 月上旬開(kāi)源了 Light-R1 多尺寸系列推理模型及訓(xùn)練數(shù)據(jù)與代碼，在開(kāi)源之初便實(shí)現(xiàn)了多項(xiàng)突破：首次在同類(lèi)評(píng)測(cè)中零起點(diǎn)超越 DeepSeek-R1-Distill-32B，并首次在 14B 模型上實(shí)現(xiàn)了長(zhǎng)推理 SFT 后 GRPO 強(qiáng)化學(xué)習(xí)的顯著提升。全系列模型都曾亮相于周鴻祎的短視頻之中。