打開網(wǎng)易新聞 查看精彩圖片

機(jī)器之心報(bào)道

編輯:+0、劉欣

在大模型飛速發(fā)展的今天,推理能力作為衡量模型智能的關(guān)鍵指標(biāo),更是各家 AI 企業(yè)競相追逐的焦點(diǎn)。

但近年來,推理效率已成為模型部署和性能的關(guān)鍵限制因素。

基于此,英偉達(dá)推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型構(gòu)建)—— 一個(gè)面向高效推理的大模型開放家族,具備卓越的推理能力、推理效率,并采用對企業(yè)友好的開放許可方式。

該系列包括三個(gè)模型規(guī)模:Nano(8B)、Super(49B)與 Ultra(253B),另有獨(dú)立變體 UltraLong(8B,支持超長上下文)。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Llama-Nemotron: Efficient Reasoning Models
  • arXiv 地址:https://arxiv.org/pdf/2505.00949
  • 代碼地址:https://github.com/NVIDIA/NeMo
  • 數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset

這一系列模型可不簡單,不僅具備超強(qiáng)的推理能力,還為企業(yè)使用提供開放許可。模型權(quán)重和部分訓(xùn)練數(shù)據(jù)在 Hugging Face 上公開,遵循 NVIDIA Open Model License 和 Llama 社區(qū)許可,可商業(yè)使用。

Llama-Nemotron 系列模型是首批支持動(dòng)態(tài)推理切換的開源模型,用戶在推理時(shí)可在標(biāo)準(zhǔn)聊天模式和推理模式之間自由切換,極大地提升了交互的靈活性。

研究主要是利用推理類和非推理類這兩類基準(zhǔn)測試對 Llama-Nemotron 系列模型進(jìn)行評估,結(jié)果發(fā)現(xiàn) Llama-Nemotron 系列模型在不同規(guī)模下都展現(xiàn)出了良好的性能,尤其是 LN-Ultra 模型與 DeepSeek-R1 相比,極大地提高了推理吞吐量和部署效率。

打開網(wǎng)易新聞 查看精彩圖片

Llama-Nemotron 通過多階段后訓(xùn)練流程,強(qiáng)化推理和非推理任務(wù)表現(xiàn)。監(jiān)督微調(diào)階段專注于數(shù)學(xué)、代碼、推理和工具調(diào)用任務(wù);強(qiáng)化學(xué)習(xí)階段則采用 REINFORCE 算法(RLOO)及支持在線獎(jiǎng)勵(lì)感知偏好優(yōu)化的 RPO(Online Reward-aware Preference Optimization)方法,優(yōu)化對話生成與指令跟隨等技能。

Qwen 與 DeepSeek-R1 也在 Llama-Nemotron 的訓(xùn)練中扮演關(guān)鍵角色。Qwen(如 Qwen2.5-32B-Instruct)負(fù)責(zé)數(shù)學(xué)和科學(xué)數(shù)據(jù)的生成、分類及去污染,構(gòu)建高質(zhì)量訓(xùn)練集;DeepSeek-R1 作為核心教師模型,生成多步推理和代碼解決方案,通過監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)將深度邏輯能力遷移到目標(biāo)模型中。

想知道英偉達(dá)具體是如何構(gòu)建 Llama-Nemotron 系列模型的嗎?它背后有著怎樣獨(dú)特的訓(xùn)練方法?

接下來讓我們深入探究一下其背后的奧秘。

構(gòu)建面向推理優(yōu)化的模型

LN-Super 和 LN-Ultra 模型通過 Puzzle 框架實(shí)現(xiàn)高效推理優(yōu)化。Puzzle 是一個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(Neural Architecture Search, NAS)框架,能夠在真實(shí)部署約束條件下,將大型語言模型轉(zhuǎn)化為面向硬件高效的變體,如圖 3 所示。

打開網(wǎng)易新聞 查看精彩圖片

以 Llama 3 Instruct 模型為起點(diǎn)(LN-Super 基于 Llama 3.3-70B-Instruct,LN-Ultra 基于 Llama 3.1-405B-Instruct),Puzzle 通過逐模塊局部蒸餾(block-wise local distillation)方法構(gòu)建可替代的 Transformer 模塊庫。每個(gè)模塊獨(dú)立訓(xùn)練且可并行處理,旨在接近原始模塊功能的同時(shí)提升計(jì)算性能。

該方法允許每個(gè)替代模塊在精度與效率之間進(jìn)行權(quán)衡,即模塊庫中某些變體具有更高的計(jì)算效率,但可能伴隨一定的準(zhǔn)確性下降,從而形成一種顯式的精度–效率權(quán)衡(accuracy-efficiency tradeoff)。模塊變體主要包括以下幾種類型:

移除注意力機(jī)制(Attention removal):部分模塊完全省略注意力機(jī)制,從而顯著減少計(jì)算開銷和 KV 緩存(Key-Value cache)內(nèi)存占用。

可變 FFN 維度(Variable FFN dimensions):通過調(diào)整前饋網(wǎng)絡(luò)(Feed-Forward Network, FFN)的中間維度,能夠在不同粒度下實(shí)現(xiàn)模型壓縮(如將隱藏層維度壓縮至原始的 87%、75%、50%,甚至低至 10%)。

盡管 Puzzle 同樣支持其他結(jié)構(gòu)替換方式(如多組查詢注意力機(jī)制(Grouped-Query Attention, GQA)中不同的鍵值頭數(shù)、線性注意力替代方案、以及不執(zhí)行操作的替換模塊),但實(shí)際評估結(jié)果表明,在優(yōu)化 LN-Super 和 LN-Ultra 兩個(gè)模型的總體吞吐量與內(nèi)存節(jié)省方面,最有效的技術(shù)仍是移除注意力機(jī)制與 FFN 壓縮。

在模塊庫構(gòu)建完成后,Puzzle 通過逐層選取模塊的方式組裝完整模型。模塊選擇過程由整數(shù)混合規(guī)劃(Mixed-Integer Programming, MIP)求解器控制,該求解器會(huì)在給定的約束條件下(如硬件兼容性、最大推理延遲、總內(nèi)存預(yù)算或指定推理吞吐量)確定效率最優(yōu)的模塊配置。

由于每一層支持多個(gè)具有不同精確度–效率權(quán)衡方案的模塊變體,Puzzle 允許用戶精確定位至任何位于精度 - 效率帕累托前沿(Pareto frontier)上的模型配置點(diǎn)。例如,Puzzle 可生成滿足特定智能體系統(tǒng)(agentic systems)或部署流程所需約束(如內(nèi)存不可超出上限或端到端響應(yīng)時(shí)間嚴(yán)格受限)的模型。

FFN 融合實(shí)現(xiàn)縱向壓縮(Vertical Compression with FFN Fusion): 針對 LN-Ultra 模型,研究者引入了一種額外的壓縮技術(shù) ——FFN 融合(FFN Fusion),該方法旨在降低模型的序列深度,并進(jìn)一步縮短推理延遲。

該方法利用 Puzzle 移除部分注意力層后的結(jié)構(gòu)特性:在這種結(jié)構(gòu)下,模型中經(jīng)常會(huì)出現(xiàn)連續(xù)的 FFN 模塊序列。FFN Fusion 會(huì)識(shí)別出這類序列,并將其替換為更少但更寬的 FFN 層,這些寬層可并行執(zhí)行,從而減少序列處理步驟的數(shù)量,同時(shí)保留模型的表達(dá)能力。

此外,這種方式顯著提升了計(jì)算資源的利用率,特別是在多 GPU 環(huán)境中,可以有效降低跨層通信帶來的開銷。

部署約束與效率目標(biāo)

LN-Super 專為在單塊 NVIDIA H100 GPU 上高效運(yùn)行而設(shè)計(jì),采用張量并行系數(shù)為 1(Tensor Parallelism 1,TP1)的配置。通過 Puzzle 框架優(yōu)化后,該模型在批量大小為 256、TP1 配置下,相較于 Llama 3.3-70B-Instruct 實(shí)現(xiàn)了 5 倍推理吞吐提升。即使在 Llama 3.3-70B-Instruct 使用其最佳配置(張量并行度為 4,TP4)的情況下,LN-Super 在 TP1 條件下仍保持 ≥2.17× 的吞吐優(yōu)勢。

LN-Super 設(shè)計(jì)滿足約 30 萬個(gè)緩存 Token(cached tokens)的運(yùn)行約束(等于 batch size × sequence length),基于 FP8 精度在單張 H100 GPU 上測得。例如,batch size 為 16、序列長度為 18,750 的配置即可滿足該緩存量要求。

LN-Ultra 的優(yōu)化目標(biāo)為整個(gè) H100 節(jié)點(diǎn)(8 張 GPU)。在 Puzzle 結(jié)構(gòu)搜索階段,模型受到推理延遲需至少比 Llama 3.1-405B-Instruct 縮短 1.5 倍的約束。應(yīng)用 FFN 融合(FFN Fusion)后,最終模型在延遲上實(shí)現(xiàn)了 1.71 倍提升。

LN-Ultra 同樣受緩存 Token 限制:在 FP8 精度下支持最多 300 萬個(gè) Token,在 BF16 精度下支持 60 萬個(gè) Token,均以整個(gè) H100 節(jié)點(diǎn)為計(jì)算基準(zhǔn)。

圖 4 展示了兩種設(shè)置下 GPQA-Diamond 準(zhǔn)確率(%)與處理吞吐量(Token/s)的權(quán)衡曲線。值得注意的是,LN-Ultra 在準(zhǔn)確率和效率方面均優(yōu)于 DeepSeek-R1 和 Llama 3.1-405B,表明在精度 - 吞吐率帕累托曲線(accuracy-throughput Pareto curve)上,LN-Ultra 是更具優(yōu)勢的選擇。

打開網(wǎng)易新聞 查看精彩圖片

NAS 后訓(xùn)練階段:知識(shí)蒸餾與持續(xù)預(yù)訓(xùn)練

在神經(jīng)架構(gòu)搜索(NAS)階段結(jié)束后,為提升模塊間兼容性并彌補(bǔ)模塊替換帶來的質(zhì)量損失,LN-Super 和 LN-Ultra 均進(jìn)行了進(jìn)一步訓(xùn)練。

  • LN-Super 使用 Bercovich 等人提出的 Distillation Mix 數(shù)據(jù)集,以知識(shí)蒸餾目標(biāo)函數(shù)訓(xùn)練了 400 億個(gè) Token;
  • LN-Ultra 首先使用相同的蒸餾數(shù)據(jù)集進(jìn)行了 650 億 Token 的蒸餾訓(xùn)練,隨后在 Nemotron-H 第四階段預(yù)訓(xùn)練數(shù)據(jù)集上進(jìn)行了額外 880 億 Token 的持續(xù)預(yù)訓(xùn)練。

通過這一最終的預(yù)訓(xùn)練階段,LN-Ultra 不僅實(shí)現(xiàn)了與基準(zhǔn)模型 Llama 3.1-405B-Instruct 相當(dāng)?shù)男阅?,還在多個(gè)關(guān)鍵基準(zhǔn)測試上取得超越,驗(yàn)證了即使進(jìn)行激進(jìn)的架構(gòu)優(yōu)化,也可通過短周期的蒸餾與預(yù)訓(xùn)練恢復(fù)并提升模型性能(見表 1)。

打開網(wǎng)易新聞 查看精彩圖片

推理能力強(qiáng)化學(xué)習(xí)

為了使模型具備在不同任務(wù)場景下靈活切換推理深度與回答風(fēng)格的能力,研究者設(shè)計(jì)了「detailed thinking on/off」指令機(jī)制,通過在合成數(shù)據(jù)中顯式標(biāo)記是否需要展開詳細(xì)推理過程,引導(dǎo)模型在訓(xùn)練中學(xué)習(xí)何時(shí)進(jìn)行逐步思考、展示推理鏈條,何時(shí)直接給出簡明答案。

具體而言,指令為「on」時(shí),模型輸出完整的中間推理過程并展示解題思路;指令為「off」時(shí),模型僅呈現(xiàn)最終結(jié)果。這一機(jī)制提升了模型對用戶指令的響應(yīng)可控性,同時(shí)增強(qiáng)了推理行為在不同場景中的適應(yīng)性,使模型能根據(jù)實(shí)際需求調(diào)整輸出風(fēng)格。

在此基礎(chǔ)上,模型通過監(jiān)督微調(diào)(SFT)從教師模型中學(xué)習(xí)多步推理路徑,并有效融合推理與通用任務(wù)風(fēng)格,構(gòu)建了兼具推理精度與使用靈活性的響應(yīng)系統(tǒng)。

LN-Ultra 在推理類與非推理類基準(zhǔn)測試上均達(dá)到或超越了現(xiàn)有開源權(quán)重模型的水平(如表 5 所示),證明通過從強(qiáng)大教師模型中蒸餾知識(shí),模型可通過監(jiān)督微調(diào)獲得較強(qiáng)能力。

打開網(wǎng)易新聞 查看精彩圖片

然而,蒸餾在本質(zhì)上為學(xué)生模型設(shè)定了性能上限,特別是當(dāng)學(xué)生模型本身能力不超過教師模型時(shí)。

例如,通過監(jiān)督微調(diào),LN-Ultra 可逼近 DeepSeek-R1 的性能,但難以超越。為使學(xué)生模型有機(jī)會(huì)超過教師模型,大規(guī)模強(qiáng)化學(xué)習(xí)(RL)提供了可行路徑,因其能持續(xù)探索新策略并促進(jìn)模型自學(xué)習(xí)。

研究者初步實(shí)驗(yàn)表明,在小型模型上應(yīng)用強(qiáng)化學(xué)習(xí)的性能通常不及直接蒸餾??紤]到資源限制,研究者僅對 LN-Ultra 應(yīng)用推理方向的強(qiáng)化學(xué)習(xí),從而獲得一個(gè)超越其教師模型的最終版本。

訓(xùn)練流程

針對 LN-Ultra,研究者通過大規(guī)模強(qiáng)化學(xué)習(xí)提升其科學(xué)推理能力,采用 GRPO 算法。訓(xùn)練中設(shè)置每個(gè) rollout 的提示詞長度為 72,并為每個(gè)提示采樣 16 個(gè)響應(yīng),采樣參數(shù)為 temperature = 1,top_p = 1。

全局 batch size 設(shè)置為 576,每個(gè) rollout 更新兩次梯度,訓(xùn)練持續(xù)至模型在推理任務(wù)上收斂。圖 5 展示了模型在 GPQA-Diamond 上的準(zhǔn)確率隨訓(xùn)練進(jìn)展的變化。借助優(yōu)化后的訓(xùn)練基礎(chǔ)設(shè)施,整個(gè)訓(xùn)練過程共消耗約 14 萬張 H100 GPU 小時(shí)。

打開網(wǎng)易新聞 查看精彩圖片

本階段訓(xùn)練使用以下兩類獎(jiǎng)勵(lì)信號:

準(zhǔn)確率獎(jiǎng)勵(lì)(Accuracy rewards):每個(gè)訓(xùn)練樣本提供標(biāo)準(zhǔn)答案(數(shù)字、句子或段落),研究者使用 Llama-3.3-70B-Instruct 模型判定策略模型響應(yīng)是否與標(biāo)準(zhǔn)答案一致。

格式獎(jiǎng)勵(lì)(Format rewards):遵循 DeepSeek-AI 等人做法,在模型開啟詳細(xì)思考(detailed thinking on)模式時(shí),需將推理過程置于 "" 標(biāo)簽之中;而在 detailed thinking off 模式下,確保不包含思考標(biāo)簽。格式獎(jiǎng)勵(lì)確保模型按規(guī)定格式輸出推理過程。

為增加訓(xùn)練挑戰(zhàn)性,研究者對數(shù)據(jù)進(jìn)行預(yù)處理:由 LN-Super 為每道題生成 8 個(gè)獨(dú)立回答,計(jì)算通過率(pass rate),并過濾通過率 ≥0.75 的樣本,提升總體訓(xùn)練數(shù)據(jù)難度。

除數(shù)據(jù)篩選外,研究者發(fā)現(xiàn)課程化學(xué)習(xí)(curriculum learning)策略能顯著幫助模型在復(fù)雜推理問題上的收斂和泛化。研究者采用漸進(jìn)式批處理策略(progressive batching),使用預(yù)計(jì)算通過率作為樣本難度指標(biāo),在固定 batch size 下,動(dòng)態(tài)計(jì)算每個(gè)批次的目標(biāo)難度分布。

該分布以高斯函數(shù)建模,從早期批次集中在高通過率(簡單樣本),逐步過渡至后期批次的低通過率(高難度樣本)。每個(gè) batch 中,樣本按目標(biāo)分布隨機(jī)分配,并根據(jù)不同通過率池中剩余樣本量進(jìn)行容量填充。

這種策略確保樣本難度在 batch 層面逐步遞進(jìn),同時(shí) batch 內(nèi)部保持隨機(jī)性。圖 6 展示了該課程式學(xué)習(xí)策略在降低方差、穩(wěn)定訓(xùn)練過程及提升準(zhǔn)確率方面的有效性。

打開網(wǎng)易新聞 查看精彩圖片

FP8 精度生成階段

研究者識(shí)別出生成階段是推理過程中的主要限制因素。為提升該階段性能,研究者開發(fā)了支持 vLLM 框架下在線 FP8 精度生成模式的路徑,此模式可在 FP8 精度下執(zhí)行全部矩陣乘(GEMM)操作,并結(jié)合每 token 激活縮放因子及每張量權(quán)重縮放因子。

為配合訓(xùn)練時(shí)輸出的 BF16 權(quán)重,研究者開發(fā)自定義 vLLM 權(quán)重加載器,可在運(yùn)行時(shí)將 BF16 權(quán)重轉(zhuǎn)換為 FP8 格式及其縮放參數(shù)。由于 vLLM 當(dāng)前不支持 FP8 模式直接初始化模型,研究者實(shí)現(xiàn)了元權(quán)重張量初始化(meta-weight tensor initialization),避免載入完整 BF16 推理引擎導(dǎo)致 GPU 顯存溢出。

在上述優(yōu)化下,F(xiàn)P8 模式下單個(gè) GPU 每個(gè) prompt 的生成吞吐量最高可達(dá) 32 token/s,相比 BF16 提升 1.8 倍。其中,F(xiàn)P8 本身帶來 1.4 倍加速,另外 0.4 倍收益源自內(nèi)存占用減少,使研究者能夠啟用 vLLM 的 cudagraph 特性,進(jìn)一步提升系統(tǒng)性能。

用于偏好優(yōu)化的強(qiáng)化學(xué)習(xí)

指令跟隨能力優(yōu)化

在完成科學(xué)推理任務(wù)的強(qiáng)化學(xué)習(xí)訓(xùn)練后,研究者對 LN-Super 和 LN-Ultra 開展短周期強(qiáng)化學(xué)習(xí)訓(xùn)練,優(yōu)化其指令跟隨能力。參照 Zhou 等人提出的驗(yàn)證方案,研究者生成包含 1 至 10 條詳細(xì)指令的合成提示詞用于訓(xùn)練。

在該階段,研究者采用 RLOO 算法進(jìn)行不超過 120 步的強(qiáng)化學(xué)習(xí)訓(xùn)練,使用自定義指令跟隨驗(yàn)證器作為獎(jiǎng)勵(lì)函數(shù),訓(xùn)練批大小為 128 條提示。結(jié)果表明,此類訓(xùn)練不僅提升了模型在傳統(tǒng)指令跟隨評測中的表現(xiàn),也對推理類基準(zhǔn)任務(wù)產(chǎn)生積極影響。

基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)

研究者使用基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)增強(qiáng)模型的通用協(xié)助能力(helpfulness)與多輪聊天能力,同時(shí)確保其在其他任務(wù)上的表現(xiàn)不被削弱。

如表 4 所示,LN-Super(49B 參數(shù))在 Arena Hard 評測中取得 88.3 的高分,超越了數(shù)個(gè)專有模型(如 Claude 3.5 Sonnet 和 GPT-4o-2024-05-13)以及規(guī)模更大的開源模型如 Llama-3.1-405B-Instruct 和 Mistral-large-2407。

打開網(wǎng)易新聞 查看精彩圖片

為實(shí)現(xiàn)這一目標(biāo),研究者采用迭代式在線 RPO(online Reward-Parameterized Optimization)訓(xùn)練方式,在 HelpSteer2 數(shù)據(jù)集的提示語上最大化 Llama-3.1-Nemotron-70B-Reward 所預(yù)測的偏好獎(jiǎng)勵(lì)。

具體訓(xùn)練參數(shù)為:學(xué)習(xí)率 α = 4e-7,KL 散度懲罰項(xiàng) β = 1e-5,獎(jiǎng)勵(lì)縮放因子 η = 3.0,batch size 為 64,訓(xùn)練 500 步。兩輪在線 RPO 后,Arena Hard 分?jǐn)?shù)由 69.1 提升至 88.1。

值得注意的是,該過程在幾乎所有基準(zhǔn)任務(wù)中的表現(xiàn)均有提升,唯獨(dú)在 IFEval 上略有下降。由于該數(shù)據(jù)集與獎(jiǎng)勵(lì)模型未專門針對數(shù)學(xué)、代碼、科學(xué)或函數(shù)調(diào)用場景設(shè)計(jì),研究者推測 RLHF 有助于模型更好地調(diào)動(dòng)已有知識(shí)和技能。

針對 LN-Ultra,研究者延續(xù)上述訓(xùn)練流程,但采用 GRPO 算法。對每條提示詞,生成 8 個(gè)樣本響應(yīng),并以學(xué)習(xí)率 3e-7、batch size 為 288、KL 懲罰 β = 1e-3 的配置進(jìn)行 30 步訓(xùn)練。

對于小模型 LN-Nano,研究者進(jìn)行了兩輪離線 RPO,使用策略內(nèi)數(shù)據(jù)(on-policy data)訓(xùn)練。第一輪混合使用包含推理和非推理內(nèi)容的數(shù)據(jù),并配合相應(yīng)系統(tǒng)提示,目的是提升模型的推理控制能力;第二輪聚焦于提升指令跟隨表現(xiàn),訓(xùn)練數(shù)據(jù)為模型生成的策略內(nèi)響應(yīng)。每輪訓(xùn)練最多進(jìn)行 400 步,學(xué)習(xí)率 α = 7e-7,KL 懲罰 β = 3e-2,batch size 為 512。

詳細(xì)內(nèi)容請參見原論文。