国产女人爽到高潮免费视频,天堂av日韩高清,97久久国产精品热8,亚洲情av一区,久久精品亚洲精品久久久sex

機(jī)器之心報(bào)道

編輯：+0、劉欣

在大模型飛速發(fā)展的今天，推理能力作為衡量模型智能的關(guān)鍵指標(biāo)，更是各家 AI 企業(yè)競相追逐的焦點(diǎn)。

但近年來，推理效率已成為模型部署和性能的關(guān)鍵限制因素。

基于此，英偉達(dá)推出了 Llama-Nemotron 系列模型（基于 Meta AI 的 Llama 模型構(gòu)建）—— 一個(gè)面向高效推理的大模型開放家族，具備卓越的推理能力、推理效率，并采用對企業(yè)友好的開放許可方式。

該系列包括三個(gè)模型規(guī)模：Nano（8B）、Super（49B）與 Ultra（253B），另有獨(dú)立變體 UltraLong（8B，支持超長上下文）。

論文標(biāo)題：Llama-Nemotron: Efficient Reasoning Models
arXiv 地址：https://arxiv.org/pdf/2505.00949
代碼地址：https://github.com/NVIDIA/NeMo
數(shù)據(jù)集：https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset

這一系列模型可不簡單，不僅具備超強(qiáng)的推理能力，還為企業(yè)使用提供開放許可。模型權(quán)重和部分訓(xùn)練數(shù)據(jù)在 Hugging Face 上公開，遵循 NVIDIA Open Model License 和 Llama 社區(qū)許可，可商業(yè)使用。

Llama-Nemotron 系列模型是首批支持動(dòng)態(tài)推理切換的開源模型，用戶在推理時(shí)可在標(biāo)準(zhǔn)聊天模式和推理模式之間自由切換，極大地提升了交互的靈活性。

研究主要是利用推理類和非推理類這兩類基準(zhǔn)測試對 Llama-Nemotron 系列模型進(jìn)行評估，結(jié)果發(fā)現(xiàn) Llama-Nemotron 系列模型在不同規(guī)模下都展現(xiàn)出了良好的性能，尤其是 LN-Ultra 模型與 DeepSeek-R1 相比，極大地提高了推理吞吐量和部署效率。

Llama-Nemotron 通過多階段后訓(xùn)練流程，強(qiáng)化推理和非推理任務(wù)表現(xiàn)。監(jiān)督微調(diào)階段專注于數(shù)學(xué)、代碼、推理和工具調(diào)用任務(wù)；強(qiáng)化學(xué)習(xí)階段則采用 REINFORCE 算法（RLOO）及支持在線獎(jiǎng)勵(lì)感知偏好優(yōu)化的 RPO（Online Reward-aware Preference Optimization）方法，優(yōu)化對話生成與指令跟隨等技能。

Qwen 與 DeepSeek-R1 也在 Llama-Nemotron 的訓(xùn)練中扮演關(guān)鍵角色。Qwen（如 Qwen2.5-32B-Instruct）負(fù)責(zé)數(shù)學(xué)和科學(xué)數(shù)據(jù)的生成、分類及去污染，構(gòu)建高質(zhì)量訓(xùn)練集；DeepSeek-R1 作為核心教師模型，生成多步推理和代碼解決方案，通過監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)將深度邏輯能力遷移到目標(biāo)模型中。

想知道英偉達(dá)具體是如何構(gòu)建 Llama-Nemotron 系列模型的嗎？它背后有著怎樣獨(dú)特的訓(xùn)練方法？

接下來讓我們深入探究一下其背后的奧秘。

構(gòu)建面向推理優(yōu)化的模型

LN-Super 和 LN-Ultra 模型通過 Puzzle 框架實(shí)現(xiàn)高效推理優(yōu)化。Puzzle 是一個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索（Neural Architecture Search, NAS）框架，能夠在真實(shí)部署約束條件下，將大型語言模型轉(zhuǎn)化為面向硬件高效的變體，如圖 3 所示。

以 Llama 3 Instruct 模型為起點(diǎn)（LN-Super 基于 Llama 3.3-70B-Instruct，LN-Ultra 基于 Llama 3.1-405B-Instruct），Puzzle 通過逐模塊局部蒸餾（block-wise local distillation）方法構(gòu)建可替代的 Transformer 模塊庫。每個(gè)模塊獨(dú)立訓(xùn)練且可并行處理，旨在接近原始模塊功能的同時(shí)提升計(jì)算性能。

該方法允許每個(gè)替代模塊在精度與效率之間進(jìn)行權(quán)衡，即模塊庫中某些變體具有更高的計(jì)算效率，但可能伴隨一定的準(zhǔn)確性下降，從而形成一種顯式的精度–效率權(quán)衡（accuracy-efficiency tradeoff）。模塊變體主要包括以下幾種類型：

移除注意力機(jī)制（Attention removal）：部分模塊完全省略注意力機(jī)制，從而顯著減少計(jì)算開銷和 KV 緩存（Key-Value cache）內(nèi)存占用。

可變 FFN 維度（Variable FFN dimensions）：通過調(diào)整前饋網(wǎng)絡(luò)（Feed-Forward Network, FFN）的中間維度，能夠在不同粒度下實(shí)現(xiàn)模型壓縮（如將隱藏層維度壓縮至原始的 87%、75%、50%，甚至低至 10%）。

盡管 Puzzle 同樣支持其他結(jié)構(gòu)替換方式（如多組查詢注意力機(jī)制（Grouped-Query Attention, GQA）中不同的鍵值頭數(shù)、線性注意力替代方案、以及不執(zhí)行操作的替換模塊），但實(shí)際評估結(jié)果表明，在優(yōu)化 LN-Super 和 LN-Ultra 兩個(gè)模型的總體吞吐量與內(nèi)存節(jié)省方面，最有效的技術(shù)仍是移除注意力機(jī)制與 FFN 壓縮。

在模塊庫構(gòu)建完成后，Puzzle 通過逐層選取模塊的方式組裝完整模型。模塊選擇過程由整數(shù)混合規(guī)劃（Mixed-Integer Programming, MIP）求解器控制，該求解器會(huì)在給定的約束條件下（如硬件兼容性、最大推理延遲、總內(nèi)存預(yù)算或指定推理吞吐量）確定效率最優(yōu)的模塊配置。

由于每一層支持多個(gè)具有不同精確度–效率權(quán)衡方案的模塊變體，Puzzle 允許用戶精確定位至任何位于精度 - 效率帕累托前沿（Pareto frontier）上的模型配置點(diǎn)。例如，Puzzle 可生成滿足特定智能體系統(tǒng)（agentic systems）或部署流程所需約束（如內(nèi)存不可超出上限或端到端響應(yīng)時(shí)間嚴(yán)格受限）的模型。

FFN 融合實(shí)現(xiàn)縱向壓縮（Vertical Compression with FFN Fusion）：針對 LN-Ultra 模型，研究者引入了一種額外的壓縮技術(shù) ——FFN 融合（FFN Fusion），該方法旨在降低模型的序列深度，并進(jìn)一步縮短推理延遲。

該方法利用 Puzzle 移除部分注意力層后的結(jié)構(gòu)特性：在這種結(jié)構(gòu)下，模型中經(jīng)常會(huì)出現(xiàn)連續(xù)的 FFN 模塊序列。FFN Fusion 會(huì)識(shí)別出這類序列，并將其替換為更少但更寬的 FFN 層，這些寬層可并行執(zhí)行，從而減少序列處理步驟的數(shù)量，同時(shí)保留模型的表達(dá)能力。

此外，這種方式顯著提升了計(jì)算資源的利用率，特別是在多 GPU 環(huán)境中，可以有效降低跨層通信帶來的開銷。

部署約束與效率目標(biāo)

LN-Super 專為在單塊 NVIDIA H100 GPU 上高效運(yùn)行而設(shè)計(jì)，采用張量并行系數(shù)為 1（Tensor Parallelism 1，TP1）的配置。通過 Puzzle 框架優(yōu)化后，該模型在批量大小為 256、TP1 配置下，相較于 Llama 3.3-70B-Instruct 實(shí)現(xiàn)了 5 倍推理吞吐提升。即使在 Llama 3.3-70B-Instruct 使用其最佳配置（張量并行度為 4，TP4）的情況下，LN-Super 在 TP1 條件下仍保持 ≥2.17× 的吞吐優(yōu)勢。

LN-Super 設(shè)計(jì)滿足約 30 萬個(gè)緩存 Token（cached tokens）的運(yùn)行約束（等于 batch size × sequence length），基于 FP8 精度在單張 H100 GPU 上測得。例如，batch size 為 16、序列長度為 18,750 的配置即可滿足該緩存量要求。

LN-Ultra 的優(yōu)化目標(biāo)為整個(gè) H100 節(jié)點(diǎn)（8 張 GPU）。在 Puzzle 結(jié)構(gòu)搜索階段，模型受到推理延遲需至少比 Llama 3.1-405B-Instruct 縮短 1.5 倍的約束。應(yīng)用 FFN 融合（FFN Fusion）后，最終模型在延遲上實(shí)現(xiàn)了 1.71 倍提升。

LN-Ultra 同樣受緩存 Token 限制：在 FP8 精度下支持最多 300 萬個(gè) Token，在 BF16 精度下支持 60 萬個(gè) Token，均以整個(gè) H100 節(jié)點(diǎn)為計(jì)算基準(zhǔn)。

圖 4 展示了兩種設(shè)置下 GPQA-Diamond 準(zhǔn)確率（%）與處理吞吐量（Token/s）的權(quán)衡曲線。值得注意的是，LN-Ultra 在準(zhǔn)確率和效率方面均優(yōu)于 DeepSeek-R1 和 Llama 3.1-405B，表明在精度 - 吞吐率帕累托曲線（accuracy-throughput Pareto curve）上，LN-Ultra 是更具優(yōu)勢的選擇。

NAS 后訓(xùn)練階段：知識(shí)蒸餾與持續(xù)預(yù)訓(xùn)練

在神經(jīng)架構(gòu)搜索（NAS）階段結(jié)束后，為提升模塊間兼容性并彌補(bǔ)模塊替換帶來的質(zhì)量損失，LN-Super 和 LN-Ultra 均進(jìn)行了進(jìn)一步訓(xùn)練。

LN-Super 使用 Bercovich 等人提出的 Distillation Mix 數(shù)據(jù)集，以知識(shí)蒸餾目標(biāo)函數(shù)訓(xùn)練了 400 億個(gè) Token；
LN-Ultra 首先使用相同的蒸餾數(shù)據(jù)集進(jìn)行了 650 億 Token 的蒸餾訓(xùn)練，隨后在 Nemotron-H 第四階段預(yù)訓(xùn)練數(shù)據(jù)集上進(jìn)行了額外 880 億 Token 的持續(xù)預(yù)訓(xùn)練。

通過這一最終的預(yù)訓(xùn)練階段，LN-Ultra 不僅實(shí)現(xiàn)了與基準(zhǔn)模型 Llama 3.1-405B-Instruct 相當(dāng)?shù)男阅?，還在多個(gè)關(guān)鍵基準(zhǔn)測試上取得超越，驗(yàn)證了即使進(jìn)行激進(jìn)的架構(gòu)優(yōu)化，也可通過短周期的蒸餾與預(yù)訓(xùn)練恢復(fù)并提升模型性能（見表 1）。

推理能力強(qiáng)化學(xué)習(xí)

為了使模型具備在不同任務(wù)場景下靈活切換推理深度與回答風(fēng)格的能力，研究者設(shè)計(jì)了「detailed thinking on/off」指令機(jī)制，通過在合成數(shù)據(jù)中顯式標(biāo)記是否需要展開詳細(xì)推理過程，引導(dǎo)模型在訓(xùn)練中學(xué)習(xí)何時(shí)進(jìn)行逐步思考、展示推理鏈條，何時(shí)直接給出簡明答案。

具體而言，指令為「on」時(shí)，模型輸出完整的中間推理過程并展示解題思路；指令為「off」時(shí)，模型僅呈現(xiàn)最終結(jié)果。這一機(jī)制提升了模型對用戶指令的響應(yīng)可控性，同時(shí)增強(qiáng)了推理行為在不同場景中的適應(yīng)性，使模型能根據(jù)實(shí)際需求調(diào)整輸出風(fēng)格。

在此基礎(chǔ)上，模型通過監(jiān)督微調(diào)（SFT）從教師模型中學(xué)習(xí)多步推理路徑，并有效融合推理與通用任務(wù)風(fēng)格，構(gòu)建了兼具推理精度與使用靈活性的響應(yīng)系統(tǒng)。

LN-Ultra 在推理類與非推理類基準(zhǔn)測試上均達(dá)到或超越了現(xiàn)有開源權(quán)重模型的水平（如表 5 所示），證明通過從強(qiáng)大教師模型中蒸餾知識(shí)，模型可通過監(jiān)督微調(diào)獲得較強(qiáng)能力。

然而，蒸餾在本質(zhì)上為學(xué)生模型設(shè)定了性能上限，特別是當(dāng)學(xué)生模型本身能力不超過教師模型時(shí)。

例如，通過監(jiān)督微調(diào)，LN-Ultra 可逼近 DeepSeek-R1 的性能，但難以超越。為使學(xué)生模型有機(jī)會(huì)超過教師模型，大規(guī)模強(qiáng)化學(xué)習(xí)（RL）提供了可行路徑，因其能持續(xù)探索新策略并促進(jìn)模型自學(xué)習(xí)。

研究者初步實(shí)驗(yàn)表明，在小型模型上應(yīng)用強(qiáng)化學(xué)習(xí)的性能通常不及直接蒸餾?？紤]到資源限制，研究者僅對 LN-Ultra 應(yīng)用推理方向的強(qiáng)化學(xué)習(xí)，從而獲得一個(gè)超越其教師模型的最終版本。

訓(xùn)練流程

針對 LN-Ultra，研究者通過大規(guī)模強(qiáng)化學(xué)習(xí)提升其科學(xué)推理能力，采用 GRPO 算法。訓(xùn)練中設(shè)置每個(gè) rollout 的提示詞長度為 72，并為每個(gè)提示采樣 16 個(gè)響應(yīng)，采樣參數(shù)為 temperature = 1，top_p = 1。

全局 batch size 設(shè)置為 576，每個(gè) rollout 更新兩次梯度，訓(xùn)練持續(xù)至模型在推理任務(wù)上收斂。圖 5 展示了模型在 GPQA-Diamond 上的準(zhǔn)確率隨訓(xùn)練進(jìn)展的變化。借助優(yōu)化后的訓(xùn)練基礎(chǔ)設(shè)施，整個(gè)訓(xùn)練過程共消耗約 14 萬張 H100 GPU 小時(shí)。

本階段訓(xùn)練使用以下兩類獎(jiǎng)勵(lì)信號：

準(zhǔn)確率獎(jiǎng)勵(lì)（Accuracy rewards）：每個(gè)訓(xùn)練樣本提供標(biāo)準(zhǔn)答案（數(shù)字、句子或段落），研究者使用 Llama-3.3-70B-Instruct 模型判定策略模型響應(yīng)是否與標(biāo)準(zhǔn)答案一致。

格式獎(jiǎng)勵(lì)（Format rewards）：遵循 DeepSeek-AI 等人做法，在模型開啟詳細(xì)思考（detailed thinking on）模式時(shí)，需將推理過程置于 "" 標(biāo)簽之中；而在 detailed thinking off 模式下，確保不包含思考標(biāo)簽。格式獎(jiǎng)勵(lì)確保模型按規(guī)定格式輸出推理過程。

為增加訓(xùn)練挑戰(zhàn)性，研究者對數(shù)據(jù)進(jìn)行預(yù)處理：由 LN-Super 為每道題生成 8 個(gè)獨(dú)立回答，計(jì)算通過率（pass rate），并過濾通過率 ≥0.75 的樣本，提升總體訓(xùn)練數(shù)據(jù)難度。

除數(shù)據(jù)篩選外，研究者發(fā)現(xiàn)課程化學(xué)習(xí)（curriculum learning）策略能顯著幫助模型在復(fù)雜推理問題上的收斂和泛化。研究者采用漸進(jìn)式批處理策略（progressive batching），使用預(yù)計(jì)算通過率作為樣本難度指標(biāo)，在固定 batch size 下，動(dòng)態(tài)計(jì)算每個(gè)批次的目標(biāo)難度分布。

該分布以高斯函數(shù)建模，從早期批次集中在高通過率（簡單樣本），逐步過渡至后期批次的低通過率（高難度樣本）。每個(gè) batch 中，樣本按目標(biāo)分布隨機(jī)分配，并根據(jù)不同通過率池中剩余樣本量進(jìn)行容量填充。

這種策略確保樣本難度在 batch 層面逐步遞進(jìn)，同時(shí) batch 內(nèi)部保持隨機(jī)性。圖 6 展示了該課程式學(xué)習(xí)策略在降低方差、穩(wěn)定訓(xùn)練過程及提升準(zhǔn)確率方面的有效性。

FP8 精度生成階段

研究者識(shí)別出生成階段是推理過程中的主要限制因素。為提升該階段性能，研究者開發(fā)了支持 vLLM 框架下在線 FP8 精度生成模式的路徑，此模式可在 FP8 精度下執(zhí)行全部矩陣乘（GEMM）操作，并結(jié)合每 token 激活縮放因子及每張量權(quán)重縮放因子。

為配合訓(xùn)練時(shí)輸出的 BF16 權(quán)重，研究者開發(fā)自定義 vLLM 權(quán)重加載器，可在運(yùn)行時(shí)將 BF16 權(quán)重轉(zhuǎn)換為 FP8 格式及其縮放參數(shù)。由于 vLLM 當(dāng)前不支持 FP8 模式直接初始化模型，研究者實(shí)現(xiàn)了元權(quán)重張量初始化（meta-weight tensor initialization），避免載入完整 BF16 推理引擎導(dǎo)致 GPU 顯存溢出。

在上述優(yōu)化下，F(xiàn)P8 模式下單個(gè) GPU 每個(gè) prompt 的生成吞吐量最高可達(dá) 32 token/s，相比 BF16 提升 1.8 倍。其中，F(xiàn)P8 本身帶來 1.4 倍加速，另外 0.4 倍收益源自內(nèi)存占用減少，使研究者能夠啟用 vLLM 的 cudagraph 特性，進(jìn)一步提升系統(tǒng)性能。

用于偏好優(yōu)化的強(qiáng)化學(xué)習(xí)

指令跟隨能力優(yōu)化

在完成科學(xué)推理任務(wù)的強(qiáng)化學(xué)習(xí)訓(xùn)練后，研究者對 LN-Super 和 LN-Ultra 開展短周期強(qiáng)化學(xué)習(xí)訓(xùn)練，優(yōu)化其指令跟隨能力。參照 Zhou 等人提出的驗(yàn)證方案，研究者生成包含 1 至 10 條詳細(xì)指令的合成提示詞用于訓(xùn)練。

在該階段，研究者采用 RLOO 算法進(jìn)行不超過 120 步的強(qiáng)化學(xué)習(xí)訓(xùn)練，使用自定義指令跟隨驗(yàn)證器作為獎(jiǎng)勵(lì)函數(shù)，訓(xùn)練批大小為 128 條提示。結(jié)果表明，此類訓(xùn)練不僅提升了模型在傳統(tǒng)指令跟隨評測中的表現(xiàn)，也對推理類基準(zhǔn)任務(wù)產(chǎn)生積極影響。

基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）

研究者使用基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）增強(qiáng)模型的通用協(xié)助能力（helpfulness）與多輪聊天能力，同時(shí)確保其在其他任務(wù)上的表現(xiàn)不被削弱。

如表 4 所示，LN-Super（49B 參數(shù)）在 Arena Hard 評測中取得 88.3 的高分，超越了數(shù)個(gè)專有模型（如 Claude 3.5 Sonnet 和 GPT-4o-2024-05-13）以及規(guī)模更大的開源模型如 Llama-3.1-405B-Instruct 和 Mistral-large-2407。

為實(shí)現(xiàn)這一目標(biāo)，研究者采用迭代式在線 RPO（online Reward-Parameterized Optimization）訓(xùn)練方式，在 HelpSteer2 數(shù)據(jù)集的提示語上最大化 Llama-3.1-Nemotron-70B-Reward 所預(yù)測的偏好獎(jiǎng)勵(lì)。

具體訓(xùn)練參數(shù)為：學(xué)習(xí)率 α = 4e-7，KL 散度懲罰項(xiàng) β = 1e-5，獎(jiǎng)勵(lì)縮放因子 η = 3.0，batch size 為 64，訓(xùn)練 500 步。兩輪在線 RPO 后，Arena Hard 分?jǐn)?shù)由 69.1 提升至 88.1。

值得注意的是，該過程在幾乎所有基準(zhǔn)任務(wù)中的表現(xiàn)均有提升，唯獨(dú)在 IFEval 上略有下降。由于該數(shù)據(jù)集與獎(jiǎng)勵(lì)模型未專門針對數(shù)學(xué)、代碼、科學(xué)或函數(shù)調(diào)用場景設(shè)計(jì)，研究者推測 RLHF 有助于模型更好地調(diào)動(dòng)已有知識(shí)和技能。

針對 LN-Ultra，研究者延續(xù)上述訓(xùn)練流程，但采用 GRPO 算法。對每條提示詞，生成 8 個(gè)樣本響應(yīng)，并以學(xué)習(xí)率 3e-7、batch size 為 288、KL 懲罰 β = 1e-3 的配置進(jìn)行 30 步訓(xùn)練。

對于小模型 LN-Nano，研究者進(jìn)行了兩輪離線 RPO，使用策略內(nèi)數(shù)據(jù)（on-policy data）訓(xùn)練。第一輪混合使用包含推理和非推理內(nèi)容的數(shù)據(jù)，并配合相應(yīng)系統(tǒng)提示，目的是提升模型的推理控制能力；第二輪聚焦于提升指令跟隨表現(xiàn)，訓(xùn)練數(shù)據(jù)為模型生成的策略內(nèi)響應(yīng)。每輪訓(xùn)練最多進(jìn)行 400 步，學(xué)習(xí)率 α = 7e-7，KL 懲罰 β = 3e-2，batch size 為 512。

詳細(xì)內(nèi)容請參見原論文。