
機器之心報道
編輯:+0、劉欣
在大模型飛速發(fā)展的今天,推理能力作為衡量模型智能的關(guān)鍵指標,更是各家 AI 企業(yè)競相追逐的焦點。
但近年來,推理效率已成為模型部署和性能的關(guān)鍵限制因素。
基于此,英偉達推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型構(gòu)建)—— 一個面向高效推理的大模型開放家族,具備卓越的推理能力、推理效率,并采用對企業(yè)友好的開放許可方式。
該系列包括三個模型規(guī)模:Nano(8B)、Super(49B)與 Ultra(253B),另有獨立變體 UltraLong(8B,支持超長上下文)。

- 論文標題:Llama-Nemotron: Efficient Reasoning Models
- arXiv 地址:https://arxiv.org/pdf/2505.00949
- 代碼地址:https://github.com/NVIDIA/NeMo
- 數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset
這一系列模型可不簡單,不僅具備超強的推理能力,還為企業(yè)使用提供開放許可。模型權(quán)重和部分訓練數(shù)據(jù)在 Hugging Face 上公開,遵循 NVIDIA Open Model License 和 Llama 社區(qū)許可,可商業(yè)使用。
Llama-Nemotron 系列模型是首批支持動態(tài)推理切換的開源模型,用戶在推理時可在標準聊天模式和推理模式之間自由切換,極大地提升了交互的靈活性。
研究主要是利用推理類和非推理類這兩類基準測試對 Llama-Nemotron 系列模型進行評估,結(jié)果發(fā)現(xiàn) Llama-Nemotron 系列模型在不同規(guī)模下都展現(xiàn)出了良好的性能,尤其是 LN-Ultra 模型與 DeepSeek-R1 相比,極大地提高了推理吞吐量和部署效率。

Llama-Nemotron 通過多階段后訓練流程,強化推理和非推理任務(wù)表現(xiàn)。監(jiān)督微調(diào)階段專注于數(shù)學、代碼、推理和工具調(diào)用任務(wù);強化學習階段則采用 REINFORCE 算法(RLOO)及支持在線獎勵感知偏好優(yōu)化的 RPO(Online Reward-aware Preference Optimization)方法,優(yōu)化對話生成與指令跟隨等技能。
Qwen 與 DeepSeek-R1 也在 Llama-Nemotron 的訓練中扮演關(guān)鍵角色。Qwen(如 Qwen2.5-32B-Instruct)負責數(shù)學和科學數(shù)據(jù)的生成、分類及去污染,構(gòu)建高質(zhì)量訓練集;DeepSeek-R1 作為核心教師模型,生成多步推理和代碼解決方案,通過監(jiān)督微調(diào)和強化學習將深度邏輯能力遷移到目標模型中。
想知道英偉達具體是如何構(gòu)建 Llama-Nemotron 系列模型的嗎?它背后有著怎樣獨特的訓練方法?
接下來讓我們深入探究一下其背后的奧秘。
構(gòu)建面向推理優(yōu)化的模型
LN-Super 和 LN-Ultra 模型通過 Puzzle 框架實現(xiàn)高效推理優(yōu)化。Puzzle 是一個神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(Neural Architecture Search, NAS)框架,能夠在真實部署約束條件下,將大型語言模型轉(zhuǎn)化為面向硬件高效的變體,如圖 3 所示。

以 Llama 3 Instruct 模型為起點(LN-Super 基于 Llama 3.3-70B-Instruct,LN-Ultra 基于 Llama 3.1-405B-Instruct),Puzzle 通過逐模塊局部蒸餾(block-wise local distillation)方法構(gòu)建可替代的 Transformer 模塊庫。每個模塊獨立訓練且可并行處理,旨在接近原始模塊功能的同時提升計算性能。
該方法允許每個替代模塊在精度與效率之間進行權(quán)衡,即模塊庫中某些變體具有更高的計算效率,但可能伴隨一定的準確性下降,從而形成一種顯式的精度–效率權(quán)衡(accuracy-efficiency tradeoff)。模塊變體主要包括以下幾種類型:
移除注意力機制(Attention removal):部分模塊完全省略注意力機制,從而顯著減少計算開銷和 KV 緩存(Key-Value cache)內(nèi)存占用。
可變 FFN 維度(Variable FFN dimensions):通過調(diào)整前饋網(wǎng)絡(luò)(Feed-Forward Network, FFN)的中間維度,能夠在不同粒度下實現(xiàn)模型壓縮(如將隱藏層維度壓縮至原始的 87%、75%、50%,甚至低至 10%)。
盡管 Puzzle 同樣支持其他結(jié)構(gòu)替換方式(如多組查詢注意力機制(Grouped-Query Attention, GQA)中不同的鍵值頭數(shù)、線性注意力替代方案、以及不執(zhí)行操作的替換模塊),但實際評估結(jié)果表明,在優(yōu)化 LN-Super 和 LN-Ultra 兩個模型的總體吞吐量與內(nèi)存節(jié)省方面,最有效的技術(shù)仍是移除注意力機制與 FFN 壓縮。
在模塊庫構(gòu)建完成后,Puzzle 通過逐層選取模塊的方式組裝完整模型。模塊選擇過程由整數(shù)混合規(guī)劃(Mixed-Integer Programming, MIP)求解器控制,該求解器會在給定的約束條件下(如硬件兼容性、最大推理延遲、總內(nèi)存預算或指定推理吞吐量)確定效率最優(yōu)的模塊配置。
由于每一層支持多個具有不同精確度–效率權(quán)衡方案的模塊變體,Puzzle 允許用戶精確定位至任何位于精度 - 效率帕累托前沿(Pareto frontier)上的模型配置點。例如,Puzzle 可生成滿足特定智能體系統(tǒng)(agentic systems)或部署流程所需約束(如內(nèi)存不可超出上限或端到端響應(yīng)時間嚴格受限)的模型。
FFN 融合實現(xiàn)縱向壓縮(Vertical Compression with FFN Fusion): 針對 LN-Ultra 模型,研究者引入了一種額外的壓縮技術(shù) ——FFN 融合(FFN Fusion),該方法旨在降低模型的序列深度,并進一步縮短推理延遲。
該方法利用 Puzzle 移除部分注意力層后的結(jié)構(gòu)特性:在這種結(jié)構(gòu)下,模型中經(jīng)常會出現(xiàn)連續(xù)的 FFN 模塊序列。FFN Fusion 會識別出這類序列,并將其替換為更少但更寬的 FFN 層,這些寬層可并行執(zhí)行,從而減少序列處理步驟的數(shù)量,同時保留模型的表達能力。
此外,這種方式顯著提升了計算資源的利用率,特別是在多 GPU 環(huán)境中,可以有效降低跨層通信帶來的開銷。
部署約束與效率目標
LN-Super 專為在單塊 NVIDIA H100 GPU 上高效運行而設(shè)計,采用張量并行系數(shù)為 1(Tensor Parallelism 1,TP1)的配置。通過 Puzzle 框架優(yōu)化后,該模型在批量大小為 256、TP1 配置下,相較于 Llama 3.3-70B-Instruct 實現(xiàn)了 5 倍推理吞吐提升。即使在 Llama 3.3-70B-Instruct 使用其最佳配置(張量并行度為 4,TP4)的情況下,LN-Super 在 TP1 條件下仍保持 ≥2.17× 的吞吐優(yōu)勢。
LN-Super 設(shè)計滿足約 30 萬個緩存 Token(cached tokens)的運行約束(等于 batch size × sequence length),基于 FP8 精度在單張 H100 GPU 上測得。例如,batch size 為 16、序列長度為 18,750 的配置即可滿足該緩存量要求。
LN-Ultra 的優(yōu)化目標為整個 H100 節(jié)點(8 張 GPU)。在 Puzzle 結(jié)構(gòu)搜索階段,模型受到推理延遲需至少比 Llama 3.1-405B-Instruct 縮短 1.5 倍的約束。應(yīng)用 FFN 融合(FFN Fusion)后,最終模型在延遲上實現(xiàn)了 1.71 倍提升。
LN-Ultra 同樣受緩存 Token 限制:在 FP8 精度下支持最多 300 萬個 Token,在 BF16 精度下支持 60 萬個 Token,均以整個 H100 節(jié)點為計算基準。
圖 4 展示了兩種設(shè)置下 GPQA-Diamond 準確率(%)與處理吞吐量(Token/s)的權(quán)衡曲線。值得注意的是,LN-Ultra 在準確率和效率方面均優(yōu)于 DeepSeek-R1 和 Llama 3.1-405B,表明在精度 - 吞吐率帕累托曲線(accuracy-throughput Pareto curve)上,LN-Ultra 是更具優(yōu)勢的選擇。

NAS 后訓練階段:知識蒸餾與持續(xù)預訓練
在神經(jīng)架構(gòu)搜索(NAS)階段結(jié)束后,為提升模塊間兼容性并彌補模塊替換帶來的質(zhì)量損失,LN-Super 和 LN-Ultra 均進行了進一步訓練。
- LN-Super 使用 Bercovich 等人提出的 Distillation Mix 數(shù)據(jù)集,以知識蒸餾目標函數(shù)訓練了 400 億個 Token;
- LN-Ultra 首先使用相同的蒸餾數(shù)據(jù)集進行了 650 億 Token 的蒸餾訓練,隨后在 Nemotron-H 第四階段預訓練數(shù)據(jù)集上進行了額外 880 億 Token 的持續(xù)預訓練。
通過這一最終的預訓練階段,LN-Ultra 不僅實現(xiàn)了與基準模型 Llama 3.1-405B-Instruct 相當?shù)男阅?,還在多個關(guān)鍵基準測試上取得超越,驗證了即使進行激進的架構(gòu)優(yōu)化,也可通過短周期的蒸餾與預訓練恢復并提升模型性能(見表 1)。

推理能力強化學習
為了使模型具備在不同任務(wù)場景下靈活切換推理深度與回答風格的能力,研究者設(shè)計了「detailed thinking on/off」指令機制,通過在合成數(shù)據(jù)中顯式標記是否需要展開詳細推理過程,引導模型在訓練中學習何時進行逐步思考、展示推理鏈條,何時直接給出簡明答案。
具體而言,指令為「on」時,模型輸出完整的中間推理過程并展示解題思路;指令為「off」時,模型僅呈現(xiàn)最終結(jié)果。這一機制提升了模型對用戶指令的響應(yīng)可控性,同時增強了推理行為在不同場景中的適應(yīng)性,使模型能根據(jù)實際需求調(diào)整輸出風格。
在此基礎(chǔ)上,模型通過監(jiān)督微調(diào)(SFT)從教師模型中學習多步推理路徑,并有效融合推理與通用任務(wù)風格,構(gòu)建了兼具推理精度與使用靈活性的響應(yīng)系統(tǒng)。
LN-Ultra 在推理類與非推理類基準測試上均達到或超越了現(xiàn)有開源權(quán)重模型的水平(如表 5 所示),證明通過從強大教師模型中蒸餾知識,模型可通過監(jiān)督微調(diào)獲得較強能力。

然而,蒸餾在本質(zhì)上為學生模型設(shè)定了性能上限,特別是當學生模型本身能力不超過教師模型時。
例如,通過監(jiān)督微調(diào),LN-Ultra 可逼近 DeepSeek-R1 的性能,但難以超越。為使學生模型有機會超過教師模型,大規(guī)模強化學習(RL)提供了可行路徑,因其能持續(xù)探索新策略并促進模型自學習。
研究者初步實驗表明,在小型模型上應(yīng)用強化學習的性能通常不及直接蒸餾??紤]到資源限制,研究者僅對 LN-Ultra 應(yīng)用推理方向的強化學習,從而獲得一個超越其教師模型的最終版本。
訓練流程
針對 LN-Ultra,研究者通過大規(guī)模強化學習提升其科學推理能力,采用 GRPO 算法。訓練中設(shè)置每個 rollout 的提示詞長度為 72,并為每個提示采樣 16 個響應(yīng),采樣參數(shù)為 temperature = 1,top_p = 1。
全局 batch size 設(shè)置為 576,每個 rollout 更新兩次梯度,訓練持續(xù)至模型在推理任務(wù)上收斂。圖 5 展示了模型在 GPQA-Diamond 上的準確率隨訓練進展的變化。借助優(yōu)化后的訓練基礎(chǔ)設(shè)施,整個訓練過程共消耗約 14 萬張 H100 GPU 小時。

本階段訓練使用以下兩類獎勵信號:
準確率獎勵(Accuracy rewards):每個訓練樣本提供標準答案(數(shù)字、句子或段落),研究者使用 Llama-3.3-70B-Instruct 模型判定策略模型響應(yīng)是否與標準答案一致。
格式獎勵(Format rewards):遵循 DeepSeek-AI 等人做法,在模型開啟詳細思考(detailed thinking on)模式時,需將推理過程置于 "" 標簽之中;而在 detailed thinking off 模式下,確保不包含思考標簽。格式獎勵確保模型按規(guī)定格式輸出推理過程。
為增加訓練挑戰(zhàn)性,研究者對數(shù)據(jù)進行預處理:由 LN-Super 為每道題生成 8 個獨立回答,計算通過率(pass rate),并過濾通過率 ≥0.75 的樣本,提升總體訓練數(shù)據(jù)難度。
除數(shù)據(jù)篩選外,研究者發(fā)現(xiàn)課程化學習(curriculum learning)策略能顯著幫助模型在復雜推理問題上的收斂和泛化。研究者采用漸進式批處理策略(progressive batching),使用預計算通過率作為樣本難度指標,在固定 batch size 下,動態(tài)計算每個批次的目標難度分布。
該分布以高斯函數(shù)建模,從早期批次集中在高通過率(簡單樣本),逐步過渡至后期批次的低通過率(高難度樣本)。每個 batch 中,樣本按目標分布隨機分配,并根據(jù)不同通過率池中剩余樣本量進行容量填充。
這種策略確保樣本難度在 batch 層面逐步遞進,同時 batch 內(nèi)部保持隨機性。圖 6 展示了該課程式學習策略在降低方差、穩(wěn)定訓練過程及提升準確率方面的有效性。

FP8 精度生成階段
研究者識別出生成階段是推理過程中的主要限制因素。為提升該階段性能,研究者開發(fā)了支持 vLLM 框架下在線 FP8 精度生成模式的路徑,此模式可在 FP8 精度下執(zhí)行全部矩陣乘(GEMM)操作,并結(jié)合每 token 激活縮放因子及每張量權(quán)重縮放因子。
為配合訓練時輸出的 BF16 權(quán)重,研究者開發(fā)自定義 vLLM 權(quán)重加載器,可在運行時將 BF16 權(quán)重轉(zhuǎn)換為 FP8 格式及其縮放參數(shù)。由于 vLLM 當前不支持 FP8 模式直接初始化模型,研究者實現(xiàn)了元權(quán)重張量初始化(meta-weight tensor initialization),避免載入完整 BF16 推理引擎導致 GPU 顯存溢出。
在上述優(yōu)化下,F(xiàn)P8 模式下單個 GPU 每個 prompt 的生成吞吐量最高可達 32 token/s,相比 BF16 提升 1.8 倍。其中,F(xiàn)P8 本身帶來 1.4 倍加速,另外 0.4 倍收益源自內(nèi)存占用減少,使研究者能夠啟用 vLLM 的 cudagraph 特性,進一步提升系統(tǒng)性能。
用于偏好優(yōu)化的強化學習
指令跟隨能力優(yōu)化
在完成科學推理任務(wù)的強化學習訓練后,研究者對 LN-Super 和 LN-Ultra 開展短周期強化學習訓練,優(yōu)化其指令跟隨能力。參照 Zhou 等人提出的驗證方案,研究者生成包含 1 至 10 條詳細指令的合成提示詞用于訓練。
在該階段,研究者采用 RLOO 算法進行不超過 120 步的強化學習訓練,使用自定義指令跟隨驗證器作為獎勵函數(shù),訓練批大小為 128 條提示。結(jié)果表明,此類訓練不僅提升了模型在傳統(tǒng)指令跟隨評測中的表現(xiàn),也對推理類基準任務(wù)產(chǎn)生積極影響。
基于人類反饋的強化學習(RLHF)
研究者使用基于人類反饋的強化學習(RLHF)增強模型的通用協(xié)助能力(helpfulness)與多輪聊天能力,同時確保其在其他任務(wù)上的表現(xiàn)不被削弱。
如表 4 所示,LN-Super(49B 參數(shù))在 Arena Hard 評測中取得 88.3 的高分,超越了數(shù)個專有模型(如 Claude 3.5 Sonnet 和 GPT-4o-2024-05-13)以及規(guī)模更大的開源模型如 Llama-3.1-405B-Instruct 和 Mistral-large-2407。

為實現(xiàn)這一目標,研究者采用迭代式在線 RPO(online Reward-Parameterized Optimization)訓練方式,在 HelpSteer2 數(shù)據(jù)集的提示語上最大化 Llama-3.1-Nemotron-70B-Reward 所預測的偏好獎勵。
具體訓練參數(shù)為:學習率 α = 4e-7,KL 散度懲罰項 β = 1e-5,獎勵縮放因子 η = 3.0,batch size 為 64,訓練 500 步。兩輪在線 RPO 后,Arena Hard 分數(shù)由 69.1 提升至 88.1。
值得注意的是,該過程在幾乎所有基準任務(wù)中的表現(xiàn)均有提升,唯獨在 IFEval 上略有下降。由于該數(shù)據(jù)集與獎勵模型未專門針對數(shù)學、代碼、科學或函數(shù)調(diào)用場景設(shè)計,研究者推測 RLHF 有助于模型更好地調(diào)動已有知識和技能。
針對 LN-Ultra,研究者延續(xù)上述訓練流程,但采用 GRPO 算法。對每條提示詞,生成 8 個樣本響應(yīng),并以學習率 3e-7、batch size 為 288、KL 懲罰 β = 1e-3 的配置進行 30 步訓練。
對于小模型 LN-Nano,研究者進行了兩輪離線 RPO,使用策略內(nèi)數(shù)據(jù)(on-policy data)訓練。第一輪混合使用包含推理和非推理內(nèi)容的數(shù)據(jù),并配合相應(yīng)系統(tǒng)提示,目的是提升模型的推理控制能力;第二輪聚焦于提升指令跟隨表現(xiàn),訓練數(shù)據(jù)為模型生成的策略內(nèi)響應(yīng)。每輪訓練最多進行 400 步,學習率 α = 7e-7,KL 懲罰 β = 3e-2,batch size 為 512。
詳細內(nèi)容請參見原論文。
熱門跟貼