国产精品女同一区二区三区在线,精品视频一区二区乱码国产,农村妇女毛片精品久久久 ,人妻久久久精品99系列中文字幕,成人一区二区三区国产av

機器之心報道

編輯：+0、劉欣

在大模型飛速發(fā)展的今天，推理能力作為衡量模型智能的關(guān)鍵指標，更是各家 AI 企業(yè)競相追逐的焦點。

但近年來，推理效率已成為模型部署和性能的關(guān)鍵限制因素。

基于此，英偉達推出了 Llama-Nemotron 系列模型（基于 Meta AI 的 Llama 模型構(gòu)建）—— 一個面向高效推理的大模型開放家族，具備卓越的推理能力、推理效率，并采用對企業(yè)友好的開放許可方式。

該系列包括三個模型規(guī)模：Nano（8B）、Super（49B）與 Ultra（253B），另有獨立變體 UltraLong（8B，支持超長上下文）。

論文標題：Llama-Nemotron: Efficient Reasoning Models
arXiv 地址：https://arxiv.org/pdf/2505.00949
代碼地址：https://github.com/NVIDIA/NeMo
數(shù)據(jù)集：https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset

這一系列模型可不簡單，不僅具備超強的推理能力，還為企業(yè)使用提供開放許可。模型權(quán)重和部分訓練數(shù)據(jù)在 Hugging Face 上公開，遵循 NVIDIA Open Model License 和 Llama 社區(qū)許可，可商業(yè)使用。

Llama-Nemotron 系列模型是首批支持動態(tài)推理切換的開源模型，用戶在推理時可在標準聊天模式和推理模式之間自由切換，極大地提升了交互的靈活性。

研究主要是利用推理類和非推理類這兩類基準測試對 Llama-Nemotron 系列模型進行評估，結(jié)果發(fā)現(xiàn) Llama-Nemotron 系列模型在不同規(guī)模下都展現(xiàn)出了良好的性能，尤其是 LN-Ultra 模型與 DeepSeek-R1 相比，極大地提高了推理吞吐量和部署效率。

Llama-Nemotron 通過多階段后訓練流程，強化推理和非推理任務(wù)表現(xiàn)。監(jiān)督微調(diào)階段專注于數(shù)學、代碼、推理和工具調(diào)用任務(wù)；強化學習階段則采用 REINFORCE 算法（RLOO）及支持在線獎勵感知偏好優(yōu)化的 RPO（Online Reward-aware Preference Optimization）方法，優(yōu)化對話生成與指令跟隨等技能。

Qwen 與 DeepSeek-R1 也在 Llama-Nemotron 的訓練中扮演關(guān)鍵角色。Qwen（如 Qwen2.5-32B-Instruct）負責數(shù)學和科學數(shù)據(jù)的生成、分類及去污染，構(gòu)建高質(zhì)量訓練集；DeepSeek-R1 作為核心教師模型，生成多步推理和代碼解決方案，通過監(jiān)督微調(diào)和強化學習將深度邏輯能力遷移到目標模型中。

想知道英偉達具體是如何構(gòu)建 Llama-Nemotron 系列模型的嗎？它背后有著怎樣獨特的訓練方法？

接下來讓我們深入探究一下其背后的奧秘。

構(gòu)建面向推理優(yōu)化的模型

LN-Super 和 LN-Ultra 模型通過 Puzzle 框架實現(xiàn)高效推理優(yōu)化。Puzzle 是一個神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索（Neural Architecture Search, NAS）框架，能夠在真實部署約束條件下，將大型語言模型轉(zhuǎn)化為面向硬件高效的變體，如圖 3 所示。

以 Llama 3 Instruct 模型為起點（LN-Super 基于 Llama 3.3-70B-Instruct，LN-Ultra 基于 Llama 3.1-405B-Instruct），Puzzle 通過逐模塊局部蒸餾（block-wise local distillation）方法構(gòu)建可替代的 Transformer 模塊庫。每個模塊獨立訓練且可并行處理，旨在接近原始模塊功能的同時提升計算性能。

該方法允許每個替代模塊在精度與效率之間進行權(quán)衡，即模塊庫中某些變體具有更高的計算效率，但可能伴隨一定的準確性下降，從而形成一種顯式的精度–效率權(quán)衡（accuracy-efficiency tradeoff）。模塊變體主要包括以下幾種類型：

移除注意力機制（Attention removal）：部分模塊完全省略注意力機制，從而顯著減少計算開銷和 KV 緩存（Key-Value cache）內(nèi)存占用。

可變 FFN 維度（Variable FFN dimensions）：通過調(diào)整前饋網(wǎng)絡(luò)（Feed-Forward Network, FFN）的中間維度，能夠在不同粒度下實現(xiàn)模型壓縮（如將隱藏層維度壓縮至原始的 87%、75%、50%，甚至低至 10%）。

盡管 Puzzle 同樣支持其他結(jié)構(gòu)替換方式（如多組查詢注意力機制（Grouped-Query Attention, GQA）中不同的鍵值頭數(shù)、線性注意力替代方案、以及不執(zhí)行操作的替換模塊），但實際評估結(jié)果表明，在優(yōu)化 LN-Super 和 LN-Ultra 兩個模型的總體吞吐量與內(nèi)存節(jié)省方面，最有效的技術(shù)仍是移除注意力機制與 FFN 壓縮。

在模塊庫構(gòu)建完成后，Puzzle 通過逐層選取模塊的方式組裝完整模型。模塊選擇過程由整數(shù)混合規(guī)劃（Mixed-Integer Programming, MIP）求解器控制，該求解器會在給定的約束條件下（如硬件兼容性、最大推理延遲、總內(nèi)存預算或指定推理吞吐量）確定效率最優(yōu)的模塊配置。

由于每一層支持多個具有不同精確度–效率權(quán)衡方案的模塊變體，Puzzle 允許用戶精確定位至任何位于精度 - 效率帕累托前沿（Pareto frontier）上的模型配置點。例如，Puzzle 可生成滿足特定智能體系統(tǒng)（agentic systems）或部署流程所需約束（如內(nèi)存不可超出上限或端到端響應(yīng)時間嚴格受限）的模型。

FFN 融合實現(xiàn)縱向壓縮（Vertical Compression with FFN Fusion）：針對 LN-Ultra 模型，研究者引入了一種額外的壓縮技術(shù) ——FFN 融合（FFN Fusion），該方法旨在降低模型的序列深度，并進一步縮短推理延遲。

該方法利用 Puzzle 移除部分注意力層后的結(jié)構(gòu)特性：在這種結(jié)構(gòu)下，模型中經(jīng)常會出現(xiàn)連續(xù)的 FFN 模塊序列。FFN Fusion 會識別出這類序列，并將其替換為更少但更寬的 FFN 層，這些寬層可并行執(zhí)行，從而減少序列處理步驟的數(shù)量，同時保留模型的表達能力。

此外，這種方式顯著提升了計算資源的利用率，特別是在多 GPU 環(huán)境中，可以有效降低跨層通信帶來的開銷。

部署約束與效率目標

LN-Super 專為在單塊 NVIDIA H100 GPU 上高效運行而設(shè)計，采用張量并行系數(shù)為 1（Tensor Parallelism 1，TP1）的配置。通過 Puzzle 框架優(yōu)化后，該模型在批量大小為 256、TP1 配置下，相較于 Llama 3.3-70B-Instruct 實現(xiàn)了 5 倍推理吞吐提升。即使在 Llama 3.3-70B-Instruct 使用其最佳配置（張量并行度為 4，TP4）的情況下，LN-Super 在 TP1 條件下仍保持 ≥2.17× 的吞吐優(yōu)勢。

LN-Super 設(shè)計滿足約 30 萬個緩存 Token（cached tokens）的運行約束（等于 batch size × sequence length），基于 FP8 精度在單張 H100 GPU 上測得。例如，batch size 為 16、序列長度為 18,750 的配置即可滿足該緩存量要求。

LN-Ultra 的優(yōu)化目標為整個 H100 節(jié)點（8 張 GPU）。在 Puzzle 結(jié)構(gòu)搜索階段，模型受到推理延遲需至少比 Llama 3.1-405B-Instruct 縮短 1.5 倍的約束。應(yīng)用 FFN 融合（FFN Fusion）后，最終模型在延遲上實現(xiàn)了 1.71 倍提升。

LN-Ultra 同樣受緩存 Token 限制：在 FP8 精度下支持最多 300 萬個 Token，在 BF16 精度下支持 60 萬個 Token，均以整個 H100 節(jié)點為計算基準。

圖 4 展示了兩種設(shè)置下 GPQA-Diamond 準確率（%）與處理吞吐量（Token/s）的權(quán)衡曲線。值得注意的是，LN-Ultra 在準確率和效率方面均優(yōu)于 DeepSeek-R1 和 Llama 3.1-405B，表明在精度 - 吞吐率帕累托曲線（accuracy-throughput Pareto curve）上，LN-Ultra 是更具優(yōu)勢的選擇。

NAS 后訓練階段：知識蒸餾與持續(xù)預訓練

在神經(jīng)架構(gòu)搜索（NAS）階段結(jié)束后，為提升模塊間兼容性并彌補模塊替換帶來的質(zhì)量損失，LN-Super 和 LN-Ultra 均進行了進一步訓練。

LN-Super 使用 Bercovich 等人提出的 Distillation Mix 數(shù)據(jù)集，以知識蒸餾目標函數(shù)訓練了 400 億個 Token；
LN-Ultra 首先使用相同的蒸餾數(shù)據(jù)集進行了 650 億 Token 的蒸餾訓練，隨后在 Nemotron-H 第四階段預訓練數(shù)據(jù)集上進行了額外 880 億 Token 的持續(xù)預訓練。

通過這一最終的預訓練階段，LN-Ultra 不僅實現(xiàn)了與基準模型 Llama 3.1-405B-Instruct 相當?shù)男阅?，還在多個關(guān)鍵基準測試上取得超越，驗證了即使進行激進的架構(gòu)優(yōu)化，也可通過短周期的蒸餾與預訓練恢復并提升模型性能（見表 1）。

推理能力強化學習

為了使模型具備在不同任務(wù)場景下靈活切換推理深度與回答風格的能力，研究者設(shè)計了「detailed thinking on/off」指令機制，通過在合成數(shù)據(jù)中顯式標記是否需要展開詳細推理過程，引導模型在訓練中學習何時進行逐步思考、展示推理鏈條，何時直接給出簡明答案。

具體而言，指令為「on」時，模型輸出完整的中間推理過程并展示解題思路；指令為「off」時，模型僅呈現(xiàn)最終結(jié)果。這一機制提升了模型對用戶指令的響應(yīng)可控性，同時增強了推理行為在不同場景中的適應(yīng)性，使模型能根據(jù)實際需求調(diào)整輸出風格。

在此基礎(chǔ)上，模型通過監(jiān)督微調(diào)（SFT）從教師模型中學習多步推理路徑，并有效融合推理與通用任務(wù)風格，構(gòu)建了兼具推理精度與使用靈活性的響應(yīng)系統(tǒng)。

LN-Ultra 在推理類與非推理類基準測試上均達到或超越了現(xiàn)有開源權(quán)重模型的水平（如表 5 所示），證明通過從強大教師模型中蒸餾知識，模型可通過監(jiān)督微調(diào)獲得較強能力。

然而，蒸餾在本質(zhì)上為學生模型設(shè)定了性能上限，特別是當學生模型本身能力不超過教師模型時。

例如，通過監(jiān)督微調(diào)，LN-Ultra 可逼近 DeepSeek-R1 的性能，但難以超越。為使學生模型有機會超過教師模型，大規(guī)模強化學習（RL）提供了可行路徑，因其能持續(xù)探索新策略并促進模型自學習。

研究者初步實驗表明，在小型模型上應(yīng)用強化學習的性能通常不及直接蒸餾?？紤]到資源限制，研究者僅對 LN-Ultra 應(yīng)用推理方向的強化學習，從而獲得一個超越其教師模型的最終版本。

訓練流程

針對 LN-Ultra，研究者通過大規(guī)模強化學習提升其科學推理能力，采用 GRPO 算法。訓練中設(shè)置每個 rollout 的提示詞長度為 72，并為每個提示采樣 16 個響應(yīng)，采樣參數(shù)為 temperature = 1，top_p = 1。

全局 batch size 設(shè)置為 576，每個 rollout 更新兩次梯度，訓練持續(xù)至模型在推理任務(wù)上收斂。圖 5 展示了模型在 GPQA-Diamond 上的準確率隨訓練進展的變化。借助優(yōu)化后的訓練基礎(chǔ)設(shè)施，整個訓練過程共消耗約 14 萬張 H100 GPU 小時。

本階段訓練使用以下兩類獎勵信號：

準確率獎勵（Accuracy rewards）：每個訓練樣本提供標準答案（數(shù)字、句子或段落），研究者使用 Llama-3.3-70B-Instruct 模型判定策略模型響應(yīng)是否與標準答案一致。

格式獎勵（Format rewards）：遵循 DeepSeek-AI 等人做法，在模型開啟詳細思考（detailed thinking on）模式時，需將推理過程置于 "" 標簽之中；而在 detailed thinking off 模式下，確保不包含思考標簽。格式獎勵確保模型按規(guī)定格式輸出推理過程。

為增加訓練挑戰(zhàn)性，研究者對數(shù)據(jù)進行預處理：由 LN-Super 為每道題生成 8 個獨立回答，計算通過率（pass rate），并過濾通過率 ≥0.75 的樣本，提升總體訓練數(shù)據(jù)難度。

除數(shù)據(jù)篩選外，研究者發(fā)現(xiàn)課程化學習（curriculum learning）策略能顯著幫助模型在復雜推理問題上的收斂和泛化。研究者采用漸進式批處理策略（progressive batching），使用預計算通過率作為樣本難度指標，在固定 batch size 下，動態(tài)計算每個批次的目標難度分布。

該分布以高斯函數(shù)建模，從早期批次集中在高通過率（簡單樣本），逐步過渡至后期批次的低通過率（高難度樣本）。每個 batch 中，樣本按目標分布隨機分配，并根據(jù)不同通過率池中剩余樣本量進行容量填充。

這種策略確保樣本難度在 batch 層面逐步遞進，同時 batch 內(nèi)部保持隨機性。圖 6 展示了該課程式學習策略在降低方差、穩(wěn)定訓練過程及提升準確率方面的有效性。

FP8 精度生成階段

研究者識別出生成階段是推理過程中的主要限制因素。為提升該階段性能，研究者開發(fā)了支持 vLLM 框架下在線 FP8 精度生成模式的路徑，此模式可在 FP8 精度下執(zhí)行全部矩陣乘（GEMM）操作，并結(jié)合每 token 激活縮放因子及每張量權(quán)重縮放因子。

為配合訓練時輸出的 BF16 權(quán)重，研究者開發(fā)自定義 vLLM 權(quán)重加載器，可在運行時將 BF16 權(quán)重轉(zhuǎn)換為 FP8 格式及其縮放參數(shù)。由于 vLLM 當前不支持 FP8 模式直接初始化模型，研究者實現(xiàn)了元權(quán)重張量初始化（meta-weight tensor initialization），避免載入完整 BF16 推理引擎導致 GPU 顯存溢出。

在上述優(yōu)化下，F(xiàn)P8 模式下單個 GPU 每個 prompt 的生成吞吐量最高可達 32 token/s，相比 BF16 提升 1.8 倍。其中，F(xiàn)P8 本身帶來 1.4 倍加速，另外 0.4 倍收益源自內(nèi)存占用減少，使研究者能夠啟用 vLLM 的 cudagraph 特性，進一步提升系統(tǒng)性能。

用于偏好優(yōu)化的強化學習

指令跟隨能力優(yōu)化

在完成科學推理任務(wù)的強化學習訓練后，研究者對 LN-Super 和 LN-Ultra 開展短周期強化學習訓練，優(yōu)化其指令跟隨能力。參照 Zhou 等人提出的驗證方案，研究者生成包含 1 至 10 條詳細指令的合成提示詞用于訓練。

在該階段，研究者采用 RLOO 算法進行不超過 120 步的強化學習訓練，使用自定義指令跟隨驗證器作為獎勵函數(shù)，訓練批大小為 128 條提示。結(jié)果表明，此類訓練不僅提升了模型在傳統(tǒng)指令跟隨評測中的表現(xiàn)，也對推理類基準任務(wù)產(chǎn)生積極影響。

基于人類反饋的強化學習（RLHF）

研究者使用基于人類反饋的強化學習（RLHF）增強模型的通用協(xié)助能力（helpfulness）與多輪聊天能力，同時確保其在其他任務(wù)上的表現(xiàn)不被削弱。

如表 4 所示，LN-Super（49B 參數(shù)）在 Arena Hard 評測中取得 88.3 的高分，超越了數(shù)個專有模型（如 Claude 3.5 Sonnet 和 GPT-4o-2024-05-13）以及規(guī)模更大的開源模型如 Llama-3.1-405B-Instruct 和 Mistral-large-2407。

為實現(xiàn)這一目標，研究者采用迭代式在線 RPO（online Reward-Parameterized Optimization）訓練方式，在 HelpSteer2 數(shù)據(jù)集的提示語上最大化 Llama-3.1-Nemotron-70B-Reward 所預測的偏好獎勵。

具體訓練參數(shù)為：學習率 α = 4e-7，KL 散度懲罰項 β = 1e-5，獎勵縮放因子 η = 3.0，batch size 為 64，訓練 500 步。兩輪在線 RPO 后，Arena Hard 分數(shù)由 69.1 提升至 88.1。

值得注意的是，該過程在幾乎所有基準任務(wù)中的表現(xiàn)均有提升，唯獨在 IFEval 上略有下降。由于該數(shù)據(jù)集與獎勵模型未專門針對數(shù)學、代碼、科學或函數(shù)調(diào)用場景設(shè)計，研究者推測 RLHF 有助于模型更好地調(diào)動已有知識和技能。

針對 LN-Ultra，研究者延續(xù)上述訓練流程，但采用 GRPO 算法。對每條提示詞，生成 8 個樣本響應(yīng)，并以學習率 3e-7、batch size 為 288、KL 懲罰 β = 1e-3 的配置進行 30 步訓練。

對于小模型 LN-Nano，研究者進行了兩輪離線 RPO，使用策略內(nèi)數(shù)據(jù)（on-policy data）訓練。第一輪混合使用包含推理和非推理內(nèi)容的數(shù)據(jù)，并配合相應(yīng)系統(tǒng)提示，目的是提升模型的推理控制能力；第二輪聚焦于提升指令跟隨表現(xiàn)，訓練數(shù)據(jù)為模型生成的策略內(nèi)響應(yīng)。每輪訓練最多進行 400 步，學習率 α = 7e-7，KL 懲罰 β = 3e-2，batch size 為 512。

詳細內(nèi)容請參見原論文。