選自 Symbolic Capital
作者:Sam Lehman
機(jī)器之心編譯
強(qiáng)化學(xué)習(xí)(RL)是當(dāng)今 AI 領(lǐng)域最熱門(mén)的詞匯之一。近日,一篇長(zhǎng)文梳理了新時(shí)代的強(qiáng)化學(xué)習(xí)范式對(duì)于模型提升的作用,同時(shí)還探索了強(qiáng)化學(xué)習(xí)對(duì)去中心化的意義。

原文地址:https://www.symbolic.capital/writing/the-worlds-rl-gym
「有時(shí)候幾十年什么也不會(huì)發(fā)生;有時(shí)候幾周時(shí)間仿佛過(guò)了幾十年?!惯@句話形容當(dāng)今的現(xiàn)代 AI 領(lǐng)域最為貼切。似乎每天都有新的突破性模型、訓(xùn)練方法或公司涌現(xiàn),迫使我們重新思考 AI 世界的可能性。今年早些時(shí)候是 DeepSeek,接下來(lái)是星際之門(mén)項(xiàng)目,現(xiàn)在還有 Qwen、Manus、MCP 等。誰(shuí)知道接下來(lái)會(huì)發(fā)生什么?
目前,在打造更好的模型方面,通過(guò)預(yù)訓(xùn)練以及最近的測(cè)試時(shí)間計(jì)算進(jìn)行 scaling 是引領(lǐng)性方法。但最近,隨著 DeepSeek-R1 和 R1-Zero 的發(fā)布,人們開(kāi)始更加親睞一種不同的模型 scaling 方法 —— 強(qiáng)化學(xué)習(xí)(RL)。本文的目標(biāo)是探索基于 RL 的模型改進(jìn)的含義,并會(huì)特別關(guān)注 RL 過(guò)程是否適合去中心化。
本文希望給讀者帶去三點(diǎn)收獲:
- 了解 AI 模型改進(jìn)技術(shù)的大致時(shí)間表以及不同方法如何隨著時(shí)間的推移而發(fā)展。
- 通過(guò)強(qiáng)調(diào)用于后訓(xùn)練 DeepSeek-R1 和 R1-Zero 的技術(shù),理解勢(shì)頭正盛的「RL 復(fù)興」浪潮。
- 為什么強(qiáng)化學(xué)習(xí)后訓(xùn)練中的一些(但可能不是全部)組件可以受益于去中心化。
在深入探討 DeepSeek 如何利用強(qiáng)化學(xué)習(xí)訓(xùn)練 R1 的細(xì)節(jié)之前,我們將先瀏覽一個(gè)(非常精簡(jiǎn)的)事件時(shí)間線,以了解我們?nèi)绾巫叩搅私裉臁?/p>
AI / 機(jī)器學(xué)習(xí) scaling 簡(jiǎn)史
(極簡(jiǎn)版)
2020 年 - 2023 年初:預(yù)訓(xùn)練 Scaling Law,理解數(shù)據(jù)在訓(xùn)練中的重要性
2020 年,OpenAI 的研究者發(fā)表了《Scaling Laws for Neural Language Models》。這篇論文意義重大,因?yàn)樗鞔_闡述了在 scaling LLM 時(shí)模型大小、數(shù)據(jù)和計(jì)算的權(quán)衡。后來(lái)到 2022 年時(shí),DeepMind 的研究者通過(guò)《Training Compute-Optimal Large Language Models》對(duì) Scaling Law 進(jìn)行了擴(kuò)展。
這篇論文明確了現(xiàn)在所稱的「Chinchilla Scaling Law」,該定律表明:當(dāng)時(shí)許多模型相對(duì)于其參數(shù)數(shù)量而言訓(xùn)練不足。也就是說(shuō),相對(duì)于用于訓(xùn)練模型的數(shù)據(jù)量,它們的參數(shù)太多。這項(xiàng)工作幫助研究者了解了數(shù)據(jù)與參數(shù)的最佳比率(每個(gè)參數(shù)大約 20 個(gè) token)。之后,人們開(kāi)始使用遠(yuǎn)遠(yuǎn)更多數(shù)據(jù)來(lái)訓(xùn)練模型。

最初的 Scaling Law 論文
隨著 2022-23 年左右預(yù)訓(xùn)練 Scaling Law 的明確,「更多數(shù)據(jù) + 更多計(jì)算 = 更好的模型」時(shí)代到來(lái)了。
只要我們能將足夠的數(shù)據(jù)和計(jì)算投入到模型的預(yù)訓(xùn)練中,我們最終就會(huì)得到性能更高的模型。
OpenAI、Meta 和 Anthropics 等各路 AI 逐鹿者都高度關(guān)注如何確保大量數(shù)據(jù)和計(jì)算,以滿足訓(xùn)練越來(lái)越大的前沿模型的需求。這樣一來(lái),他們就能不斷發(fā)布越來(lái)越好的突破性模型。但隨后,在 2024 年末,OpenAI 的推理模型引入了一種 scaling 模型性能的新方法。
2024 年:推理模型和測(cè)試時(shí)間計(jì)算 scaling
2024 年 9 月初,OpenAI 發(fā)布了 o1 模型。當(dāng)時(shí),它們是第一批向公眾展示系統(tǒng)性思維鏈推理的模型之一。這些模型能使用刻意的逐步推理方法,在得出最終答案之前評(píng)估多種潛在解決方案。推理模型在抽象推理任務(wù)上的能力大幅提升 —— 在 ARC-AGI 推理任務(wù)得分的驚人提升就是明證:

Riley Goodside 制作的這張圖展示了 OpenAI 推理模型發(fā)布后 ARC-AGI 得分的突破。
此外,隨著這一模型的發(fā)布,人們認(rèn)識(shí)到,通過(guò)增加測(cè)試時(shí)間計(jì)算(TTC,模型解決問(wèn)題時(shí)使用的計(jì)算量),可以在模型訓(xùn)練后使模型表現(xiàn)更好。
具體來(lái)說(shuō),谷歌 DeepMind 的研究者在論文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》中表明,如果在推理時(shí)獲得足夠的計(jì)算,較小的模型可以可靠地勝過(guò)在預(yù)訓(xùn)練時(shí)獲得更多計(jì)算的較大模型。想要一個(gè)模型給你一個(gè)更好的答案?給它更多的時(shí)間去思考問(wèn)題就行,它就能推理出最好的解答。這標(biāo)志著開(kāi)發(fā) scaling 測(cè)試時(shí)間計(jì)算的方法成為了新的重點(diǎn)。
2024 年末 - 2025 年初:預(yù)訓(xùn)練裝甲的裂縫
通過(guò) TTC scaling,我們現(xiàn)在有兩個(gè)杠桿可以改善我們的模型。一個(gè)是在最初訓(xùn)練模型時(shí),另一個(gè)是在模型訓(xùn)練之后。第二種方法來(lái)得正是時(shí)候 —— 隨著 TTC Scaling Law 的形成,人們?cè)絹?lái)越擔(dān)心我們即將耗盡繼續(xù)推動(dòng)預(yù)訓(xùn)練所需的數(shù)據(jù)……
2024 年 12 月,Ilya Sutskever 在 NeurIPS 2024 發(fā)表了一個(gè)主題演講。他的 20 分鐘演講概述了過(guò)去十年的 AI 研究,并分享了他對(duì)該領(lǐng)域未來(lái)發(fā)展的看法。然而,他也給出了一個(gè)震驚 AI 行業(yè)的斷言。在演講開(kāi)始后不久,Ilya 宣稱:「我們所知的預(yù)訓(xùn)練無(wú)疑會(huì)終結(jié)?!?/p>
Ilya 認(rèn)為,我們很快就耗盡了我們一直用作預(yù)訓(xùn)練「燃料」的互聯(lián)網(wǎng)數(shù)據(jù)。「我們只有一個(gè)互聯(lián)網(wǎng),」他說(shuō)。需要大量數(shù)據(jù)的模型已經(jīng)消耗了所有可用的 token。
2025 年:對(duì)強(qiáng)化學(xué)習(xí)的全新認(rèn)識(shí)和 DeepSeek 時(shí)刻
除非你過(guò)去幾個(gè)月一直與世隔絕,否則你很可能在新聞中聽(tīng)說(shuō)過(guò)一家名為 DeepSeek 的中國(guó) AI 公司。隨著他們發(fā)布 R1 模型,DeepSeek 證明了一種訓(xùn)練更好模型的新方法的可行性,并激發(fā)了人們通過(guò)強(qiáng)化學(xué)習(xí)探索模型改進(jìn)的極大熱情。

DeepSeek-R1 論文,其中一大貢獻(xiàn)是帶來(lái)了對(duì)基于強(qiáng)化學(xué)習(xí)改進(jìn) LLM 的全新認(rèn)識(shí)。
我們大多數(shù)人可能都聽(tīng)說(shuō)過(guò) AlphaGo 使用的強(qiáng)化學(xué)習(xí) —— 該 AI 模型掌握了復(fù)雜的圍棋,并最終擊敗了世界頂級(jí)人類玩家。
AlphaGo 最初在一個(gè)包含 3000 萬(wàn)個(gè)人類棋盤(pán)下法的游戲數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練,然后通過(guò)使用自我對(duì)弈強(qiáng)化學(xué)習(xí),使性能更加出色。它被允許模擬成千上萬(wàn)場(chǎng)游戲,當(dāng)它的落子可以導(dǎo)致勝利時(shí),就能獲得獎(jiǎng)勵(lì)。這個(gè)過(guò)程就被稱為「強(qiáng)化」,可以讓模型實(shí)現(xiàn)自我提升。
現(xiàn)在,LLM 使用強(qiáng)化學(xué)習(xí)已不鮮見(jiàn)?;谌祟惙答伒膹?qiáng)化學(xué)習(xí)(RLHF)早已被 Anthropic 和 OpenAI 等領(lǐng)先公司廣泛使用。DeepSeek 的新穎之處在于:他們的 R1-Zero 模型表明,可以在極其有限的人為干預(yù)下使用強(qiáng)化學(xué)習(xí),并最終得到一個(gè)高性能的推理模型。
隨著 DeepSeek 的出現(xiàn),我們現(xiàn)在可能有三種可重疊使用的方式來(lái)改進(jìn)模型:scaling 預(yù)訓(xùn)練、scaling TTC、在微調(diào)中 scaling RL。這些方法能讓我們的模型變得更好。然而,第三種方法,即基于 RL 的微調(diào),可能不僅僅是另一個(gè)旋鈕,因?yàn)樗梢越怄i強(qiáng)大的自我改進(jìn)反饋循環(huán)。
DeepSeek 的創(chuàng)新之處在于它能夠使用模型生成自己的推理軌跡,使用輕量級(jí) RL 對(duì)其進(jìn)行改進(jìn),然后將這些改進(jìn)的輸出放回訓(xùn)練中。升級(jí)后的模型會(huì)生成更好的軌跡,并進(jìn)一步完善,依此類推。循環(huán)的每一次轉(zhuǎn)變都會(huì)增強(qiáng)模型在各個(gè)領(lǐng)域的推理能力。這種遞歸改進(jìn)過(guò)程(合成數(shù)據(jù)不斷改進(jìn)生成它的模型)打破了對(duì)新的人類數(shù)據(jù)的傳統(tǒng)依賴,推動(dòng)了模型性能提升。

一份突出 LLM scaling 新方法誕生的關(guān)鍵時(shí)刻的粗略時(shí)間表
DeepSeek 系列模型
DeepSeek 發(fā)布的一系列模型推動(dòng)了 LLM 世界的發(fā)展進(jìn)步,而其中最激動(dòng)人心的莫過(guò)于他們使用強(qiáng)化學(xué)習(xí)創(chuàng)造了 DeepSeek-R1-Zero。
下面將基于 DeepSeek R1 論文來(lái)深挖可以如何使用 RL 來(lái)訓(xùn)練模型,但在此之前,先要區(qū)分與本節(jié)內(nèi)容相關(guān)的三個(gè)不同的 DeepSeek 模型:
- DeepSeek-V3:V3 是一個(gè) 671B 參數(shù)的稀疏混合專家(MoE) 模型,于 2024 年 12 月發(fā)布。與密集模型不同,MoE 模型的一部分參數(shù)(專家)會(huì)在處理不同類型的輸入時(shí)激活。憑借低廉的訓(xùn)練成本,這個(gè)模型震驚了 AI 行業(yè)。
- DeepSeek-R1-Zero:R1-Zero 是 DeepSeek 使用 V3 作為基礎(chǔ)模型訓(xùn)練的推理模型。重要的是,他們使用了 RL 對(duì)其進(jìn)行微調(diào),沒(méi)有 SFT 或任何人類數(shù)據(jù)(這一概念后面將詳細(xì)介紹)。它性能出色,但不適合日常使用,因?yàn)樗谏扇祟惪勺x的輸出方面存在問(wèn)題,并且經(jīng)常在輸出中混用多種語(yǔ)言。盡管如此,它還是很有價(jià)值,展示了可以如何通過(guò)使用硬編碼驗(yàn)證器的 RL 生成性能卓越的推理模型。
- DeepSeek-R1:R1 是 R1-Zero 的「清潔版」。它采用了與 R1-Zero 類似的訓(xùn)練過(guò)程,但還使用了有限的 SFT 來(lái)完善其輸出并使其更適合日常使用。

V3、R1 和 R1-Zero 之間的關(guān)系圖示
下面我們?cè)賮?lái)看看 DeepSeek 團(tuán)隊(duì)是如何使用 RL 創(chuàng)建 R1-Zero 的,然后再了解它可以如何轉(zhuǎn)化為去中心化設(shè)置。
R1-Zero 是如何煉成的?
常見(jiàn)的 RL 后訓(xùn)練設(shè)置如下:
- 監(jiān)督微調(diào)(SFT)——SFT 是在精心整編的高質(zhì)量輸入輸出對(duì)數(shù)據(jù)集上訓(xùn)練模型,其中輸出展示所需的行為,例如逐步推理或遵循特定指令。包括問(wèn)題的穩(wěn)健答案、指令集或要遵守的規(guī)則,和 / 或提示詞和思維鏈?zhǔn)纠?。使?SFT 的理念是:通過(guò)向模型提供一組極高質(zhì)量的數(shù)據(jù),它可以學(xué)習(xí)模仿這種類型的行為。
- 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)——RLHF 通常是在少量 SFT 之后。由于 SFT 需要高質(zhì)量的人類數(shù)據(jù),RLHF 能補(bǔ)充這個(gè)過(guò)程,方法是使用人類偏好來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型,這反過(guò)來(lái)又能為模型創(chuàng)建一個(gè)框架,使其能夠根據(jù)自己的響應(yīng)進(jìn)行自我訓(xùn)練。
但 DeepSeek-R1-Zero 在幾個(gè)關(guān)鍵方面偏離了這個(gè)過(guò)程。
丟棄 SFT
DeepSeek 的研究團(tuán)隊(duì)沒(méi)有采用先 SFT 然后 RL 的兩步流程,而是完全放棄了 SFT 流程。本質(zhì)上,DeepSeek 采用了 V3,并在有限的護(hù)欄設(shè)置下,為其盡可能地提供了足夠的時(shí)間和計(jì)算能力,助其學(xué)習(xí)如何推理。
移除 SFT 步驟有幾個(gè)有趣的好處,但也有一些缺點(diǎn)。
優(yōu)點(diǎn)
- 通過(guò)移除一整個(gè)訓(xùn)練過(guò)程,減少了訓(xùn)練的計(jì)算需求。
- 由于模型之前沒(méi)有受到基于人類的微調(diào)數(shù)據(jù)的影響,因此讓模型在 RL 期間有更廣泛的探索窗口。
缺點(diǎn)
- R1-Zero 的可讀性較差,并且經(jīng)常在答案中混合多種語(yǔ)言。它具有很強(qiáng)的推理能力,但本質(zhì)上不適合與人類交互。也因此,DeepSeek 在訓(xùn)練 R1 時(shí)重新引入以人為中心的數(shù)據(jù)。
用 GRPO 代替 PPO
DeepSeek 訓(xùn)練方法的另一個(gè)主要區(qū)別是使用組相對(duì)策略優(yōu)化(GRPO) 作為其 RL 框架,而不是更常見(jiàn)的近端策略優(yōu)化(PPO)。同樣,這讓 RL 更簡(jiǎn)單且計(jì)算密集度更低了。下面簡(jiǎn)單介紹一下 GRPO 和 PPO 之間的區(qū)別:
近端策略優(yōu)化(PPO)
使用 PPO 的 RL 有三個(gè)組件:
- 策略模型- 「策略模型」是核心模型,是最終想要訓(xùn)練的模型。
- 獎(jiǎng)勵(lì)模型- 獎(jiǎng)勵(lì)模型是根據(jù)人類偏好進(jìn)行訓(xùn)練的模型,用于評(píng)估策略模型的輸出。在實(shí)踐中,人類會(huì)對(duì) LLM 輸出的一小部分進(jìn)行評(píng)分,然后這些評(píng)分會(huì)被用于訓(xùn)練獎(jiǎng)勵(lì)模型以反映人類的偏好。獎(jiǎng)勵(lì)模型的作用是評(píng)估策略模型,以便策略模型可以學(xué)習(xí)優(yōu)化以獲得更好的響應(yīng)。
- 價(jià)值模型- 價(jià)值模型(或 critic)是一個(gè)神經(jīng)網(wǎng)絡(luò),它的作用是估計(jì)給定狀態(tài)下未來(lái)獎(jiǎng)勵(lì)的預(yù)期總和,通過(guò)提供部分完成的價(jià)值估計(jì)來(lái)幫助引導(dǎo)策略模型。
下面用一個(gè)比喻來(lái)說(shuō)明這些組件協(xié)同工作的方式。想象一下你正在寫(xiě)一篇文章。價(jià)值模型就像有一個(gè)導(dǎo)師在監(jiān)督你,他可以根據(jù)你到目前為止寫(xiě)的內(nèi)容預(yù)測(cè)你的最終成績(jī)。這很有用,因?yàn)槟悴幌氲鹊秸恼峦瓿珊蟛胖滥闶欠褡咴谡_的軌道上??梢灶惐瘸蛇@樣的過(guò)程:

此示例說(shuō)明了策略、價(jià)值和獎(jiǎng)勵(lì)模型協(xié)同工作的方式以分析和改進(jìn) LLM 的行為。
下面給出該過(guò)程的更清晰說(shuō)明:
- 策略模型收到提示詞后開(kāi)始推理答案。
- 價(jià)值模型評(píng)估每一步的當(dāng)前狀態(tài)并預(yù)測(cè)預(yù)期的未來(lái)獎(jiǎng)勵(lì),幫助指導(dǎo)策略在生成響應(yīng)時(shí)的決策。
- 獎(jiǎng)勵(lì)模型評(píng)估完整響應(yīng),為最終結(jié)果分配分?jǐn)?shù),以便策略可以學(xué)習(xí)給出更好的輸出。
- 對(duì)于給定的響應(yīng),將對(duì)價(jià)值模型的預(yù)測(cè)分?jǐn)?shù)和獎(jiǎng)勵(lì)模型的實(shí)際分?jǐn)?shù)進(jìn)行比較。然后使用此信息來(lái)改進(jìn)策略模型。

解釋 PPO 過(guò)程的簡(jiǎn)版流程圖
這里有個(gè)值得記住的要點(diǎn)。在 PPO 中,在獎(jiǎng)勵(lì)模型之外還使用價(jià)值模型曾被認(rèn)為是很關(guān)鍵的,因?yàn)檠芯空哒J(rèn)為需要能夠評(píng)估中間模型推理才能訓(xùn)練最佳模型。由于 LLM 的核心能力是按順序選擇最佳的下一個(gè) token(單詞),因此如果能夠理解響應(yīng)的每個(gè)部分對(duì)最終結(jié)果的影響,就會(huì)很有意義。例如,句子「the cat ran」涉及三個(gè)決策(the、cat 和 ran)。如果獎(jiǎng)勵(lì)模型要給這個(gè)句子打高分,價(jià)值模型將使我們能夠了解哪些特定單詞是最優(yōu)的,以及三個(gè)單詞中是否有次優(yōu)的。也許「the」和「cat」很棒,但選擇「sat」會(huì)讓整個(gè)響應(yīng)獲得更高的分?jǐn)?shù)。它允許訓(xùn)練期間的反饋更加細(xì)粒度。這似乎合乎邏輯,對(duì)吧?確實(shí)如此,但 DeepSeek 對(duì) GRPO 的表明情況可能并非如此。
GRPO
GRPO(Group Relative Policy Optimization)是一種與 PPO(Proximal Policy Optimization)不同的強(qiáng)化學(xué)習(xí)后訓(xùn)練方法。GRPO 的核心區(qū)別在于完全摒棄了價(jià)值模型。它主要包含兩個(gè)組成部分:1)策略模型;2)獎(jiǎng)勵(lì)模型。
為了進(jìn)一步簡(jiǎn)化強(qiáng)化學(xué)習(xí)過(guò)程,DeepSeek 的獎(jiǎng)勵(lì)模型并不是基于人類偏好的神經(jīng)網(wǎng)絡(luò)。相反,它采用了一個(gè)非常簡(jiǎn)單的獎(jiǎng)勵(lì)框架,專注于可驗(yàn)證的獎(jiǎng)勵(lì)(即某件事是對(duì)還是錯(cuò),用 1 或 0 表示)。
GRPO 流程大致如下:
- 對(duì)于給定的單個(gè)提示,策略模型生成多個(gè)輸出;
- 獎(jiǎng)勵(lì)模型對(duì)所有的響應(yīng)進(jìn)行打分;
- GRPO 會(huì)計(jì)算輸出組的歸一化平均分?jǐn)?shù),并根據(jù)每個(gè)單獨(dú)響應(yīng)的分?jǐn)?shù)與平均值的比較來(lái)評(píng)估每個(gè)響應(yīng);
- 該模型使用得分最高的完整輸出來(lái)了解哪種總體響應(yīng)模式效果更好。
下圖對(duì)比了 PPO 和 GRPO 方法:

GRPO 通過(guò)大幅簡(jiǎn)化獎(jiǎng)勵(lì)過(guò)程并完全去除評(píng)判模型(critic model),大幅減少了內(nèi)存和計(jì)算開(kāi)銷(xiāo)。評(píng)判模型通常與策略模型大小相當(dāng),并且需要在整個(gè)強(qiáng)化學(xué)習(xí)(RL)過(guò)程中不斷更新。DeepSeek 估計(jì),僅此一項(xiàng)改進(jìn)就使開(kāi)銷(xiāo)減少了大約 50%。
現(xiàn)在,我們已經(jīng)了解了監(jiān)督微調(diào)(SFT)以及 PPO 和 GRPO 之間的區(qū)別,可以更清晰地看到 DeepSeek 的 R1-Zero 訓(xùn)練過(guò)程實(shí)際上是多么簡(jiǎn)單。他們從一個(gè)性能良好的混合專家(MoE)基礎(chǔ)模型(DeepSeek-V3)開(kāi)始,實(shí)現(xiàn)了一個(gè)輕量級(jí)、硬編碼的 GRPO 框架,然后基本上讓模型通過(guò)試錯(cuò)來(lái)學(xué)習(xí)。
下圖表明,隨著時(shí)間的推移,R1-Zero 學(xué)會(huì)了思考更長(zhǎng)時(shí)間,并得出更準(zhǔn)確的答案。這一進(jìn)步并非源自人工標(biāo)注數(shù)據(jù)或精選數(shù)據(jù)集,而是通過(guò)一個(gè)閉環(huán)學(xué)習(xí)過(guò)程實(shí)現(xiàn)的:生成推理路徑→評(píng)估效果→強(qiáng)化最優(yōu)路徑→循環(huán)迭代。這種自我反饋機(jī)制推動(dòng)模型持續(xù)進(jìn)化,無(wú)需依賴外部新增數(shù)據(jù),恰好規(guī)避了 Ilya 所指出的預(yù)訓(xùn)練數(shù)據(jù)收集難題。

DeepSeek-R1 論文圖表顯示:隨著訓(xùn)練推進(jìn),模型學(xué)會(huì)了進(jìn)行更長(zhǎng)時(shí)間的思考(左圖),同時(shí)回答準(zhǔn)確率也不斷提升(右圖)。
盡管這一方法看似簡(jiǎn)化,卻最終造就了一個(gè)強(qiáng)大的推理模型。更重要的是,它指明了一條全新的能力擴(kuò)展路徑:模型可以通過(guò)自我輸出的學(xué)習(xí)、自主生成合成數(shù)據(jù)來(lái)實(shí)現(xiàn)自我提升。這才是最關(guān)鍵的突破 —— 它正在開(kāi)啟模型進(jìn)化的全新范式。

一張極其簡(jiǎn)明的示意圖,展示了 GRPO 式強(qiáng)化學(xué)習(xí)開(kāi)啟的模型自我提升良性循環(huán)。
盡管這一成果意義重大,但必須指出:R1-Zero 并非適合日常使用的成熟模型 —— 其輸出?;祀s多種語(yǔ)言,導(dǎo)致人類難以閱讀。為解決這些問(wèn)題,DeepSeek 團(tuán)隊(duì)通過(guò)更精細(xì)的調(diào)優(yōu)流程,最終開(kāi)發(fā)出實(shí)用性更強(qiáng)的推理模型 R1。
R1
對(duì)于 R1, DeepSeek 沒(méi)有在 V3 上直接進(jìn)行 GRPO RL,而是將微調(diào)分為四個(gè)階段:
階段 1:冷啟動(dòng) SFT
為確保最終獲得人類可讀的模型, DeepSeek 團(tuán)隊(duì)采用了冷啟動(dòng)監(jiān)督微調(diào)(SFT)方案。其核心是為模型提供定向數(shù)據(jù)集,以引導(dǎo)其形成預(yù)期的推理模式。雖然該數(shù)據(jù)的完整細(xì)節(jié)尚未公開(kāi),但研究人員透露:他們收集了數(shù)千條冷啟動(dòng)數(shù)據(jù),形式包括:附帶長(zhǎng)思維鏈(CoT)的小樣本提示、經(jīng)過(guò) DeepSeek-R1-Zero 的可讀輸出。同時(shí)團(tuán)隊(duì)還引入了人工標(biāo)注員進(jìn)行后期處理。
這一過(guò)程至少明確揭示:人類干預(yù)在關(guān)鍵階段仍不可或缺。
階段 2:使用 GRPO
這與訓(xùn)練 R1-Zero 的 GRPO RL 步驟相同。
階段 3:拒絕采樣 SFT
在此場(chǎng)景下,拒絕采樣是指通過(guò)獎(jiǎng)勵(lì)模型的篩選機(jī)制對(duì)模型輸出進(jìn)行評(píng)分排序,僅選取最高分的樣本用于后續(xù)微調(diào)。 DeepSeek 團(tuán)隊(duì)采用兩輪篩選機(jī)制處理了 80 萬(wàn)條數(shù)據(jù)樣本,其構(gòu)成包含:60 萬(wàn)條推理相關(guān)樣本(涵蓋數(shù)學(xué)、邏輯等任務(wù)),20 萬(wàn)條非推理樣本(如文本創(chuàng)作、自我認(rèn)知等)。
階段 4:RL
在這輪強(qiáng)化學(xué)習(xí)中,重點(diǎn)在于提示和學(xué)習(xí),以使模型更具人類一致性。具體來(lái)說(shuō),DeepSeek 的目標(biāo)是增加模型的有用性和無(wú)害性。DeepSeek 報(bào)告稱,他們使用了多個(gè)獎(jiǎng)勵(lì)模型來(lái)鼓勵(lì)他們所期望的全面的人類一致性行為。
R1-Zero 與 R1
如果你把所有這些放在一起,并將其與 R1-Zero 方法進(jìn)行對(duì)比,你會(huì)得到一個(gè)看起來(lái)像這樣的過(guò)程:

這張圖對(duì)比了 DeepSeek 如何使用 V3 作為他們的初始模型,然后使用不同的微調(diào)方法來(lái)到達(dá) R1- zero(左)和 R1(右)。
DeepSeek 的幾個(gè)關(guān)鍵要點(diǎn):
- 極其簡(jiǎn)單的強(qiáng)化學(xué)習(xí)可以激發(fā)標(biāo)準(zhǔn) LLM 中的復(fù)雜且高效的推理行為;
- 這種強(qiáng)化學(xué)習(xí)過(guò)程在很大程度上依賴于推理時(shí)間計(jì)算來(lái)生成推理痕跡;
- 該強(qiáng)化學(xué)習(xí)過(guò)程得益于為給定提示并行生成許多推理跟蹤;
- 這種強(qiáng)化學(xué)習(xí)風(fēng)格嚴(yán)重依賴于可靠且穩(wěn)健地驗(yàn)證輸出以塑造模型的行為。
構(gòu)建去中心化強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)
DeepSeek 不僅通過(guò) GRPO 驗(yàn)證了純強(qiáng)化學(xué)習(xí)的價(jià)值,更揭示了兩個(gè)關(guān)鍵需求:海量推理數(shù)據(jù),以及生成這些數(shù)據(jù)所需的訓(xùn)練環(huán)境。這一觀點(diǎn)隨后得到兩位 AI 大佬的證明 —— 就在 R1 發(fā)布后不久,Andrej Karpathy 在推文中直言:

其次,Yann LeCun 進(jìn)一步強(qiáng)調(diào)了 Andrej Karpathy 的觀點(diǎn):

去中心化 RL 組成部分
這里提供了三個(gè)主要組件,并把各干組件用俏皮的名字命名。
A) 基礎(chǔ) — 基礎(chǔ)模型 + 用于訓(xùn)練它們的去中心化網(wǎng)絡(luò);
B) 訓(xùn)練場(chǎng) — 用于生成多樣化、高質(zhì)量推理數(shù)據(jù)的環(huán)境 + 協(xié)調(diào)貢獻(xiàn)的去中心化網(wǎng)絡(luò);
C) 優(yōu)化器 — 執(zhí)行微調(diào)的去中心化網(wǎng)絡(luò)。
基本組件如下所示:

A) 基礎(chǔ):預(yù)訓(xùn)練基礎(chǔ)模型
關(guān)于 DeepSeek 生成 R1 模型的過(guò)程,關(guān)鍵點(diǎn)在于他們需要從一個(gè)高性能基礎(chǔ)模型(V3)起步,才能使其精妙的強(qiáng)化學(xué)習(xí)流程發(fā)揮作用。正是基于這個(gè)擁有 6730 億參數(shù)的 MoE 模型,他們才能充分受益于 GRPO 的簡(jiǎn)潔性。如果從 V3 的蒸餾版本或更差的模型開(kāi)始,將無(wú)法獲得同等效果。因此,盡管 DeepSeek 讓更多人關(guān)注到通過(guò)精簡(jiǎn)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)擴(kuò)展的可行性,但這不應(yīng)掩蓋一個(gè)關(guān)鍵事實(shí):預(yù)訓(xùn)練出越來(lái)越好的模型仍然至關(guān)重要。正如 Anthropic 團(tuán)隊(duì)討論中 Dario 所言,他們必須將模型擴(kuò)展到足夠規(guī)模,因?yàn)樵缙谳^小的模型還不夠智能,無(wú)法在其基礎(chǔ)上進(jìn)行 RLHF。
需要強(qiáng)調(diào)的是,以去中心化方式預(yù)訓(xùn)練頂尖基礎(chǔ)模型,無(wú)疑是整個(gè)體系中最困難的環(huán)節(jié)。預(yù)訓(xùn)練過(guò)程中巨大的通信開(kāi)銷(xiāo),以及應(yīng)對(duì)計(jì)算力或內(nèi)存受限節(jié)點(diǎn)的技術(shù)方案,都極為稀缺。
最簡(jiǎn)易的實(shí)現(xiàn)路徑,是采用中心化訓(xùn)練的基礎(chǔ)模型(如 DeepSeek-V3、最新 LLaMa 或 Qwen 模型等),僅在微調(diào)階段引入去中心化。這雖能大幅降低難度,卻違背了構(gòu)建端到端去信任化流程以產(chǎn)出前沿模型的初衷。
這看似哲學(xué)層面的討論,但若仍依賴中心化機(jī)構(gòu)提供基礎(chǔ)模型,去中心化強(qiáng)化學(xué)習(xí)的意義將大打折扣。因此,我們必須建立去中心化的預(yù)訓(xùn)練網(wǎng)絡(luò)。
B) 訓(xùn)練場(chǎng):生成推理數(shù)據(jù)
微調(diào) R1 需要海量數(shù)據(jù) —— 既需要冷啟動(dòng)數(shù)據(jù)開(kāi)啟微調(diào)流程,又需要超過(guò) 80 萬(wàn)條中間階段數(shù)據(jù)點(diǎn)來(lái)提升模型泛化能力?,F(xiàn)在的問(wèn)題是:我們能否去中心化地生成這些數(shù)據(jù)?答案是肯定的。事實(shí)上,分布式環(huán)境非常適合這類任務(wù)。
環(huán)境與軌跡
回顧 Karpathy 的推文,開(kāi)放分布式是實(shí)現(xiàn)海量數(shù)據(jù)目標(biāo)的理想方式。為此我們需要構(gòu)建一個(gè)框架,允許任何人為多樣化任務(wù)貢獻(xiàn)推理樣本(稱為軌跡)。貢獻(xiàn)者不僅能夠提交軌跡,還能創(chuàng)建標(biāo)準(zhǔn)化環(huán)境來(lái)生成不同類型的數(shù)據(jù)。也就是說(shuō),我們需要標(biāo)準(zhǔn)化的環(huán)境來(lái)生成數(shù)學(xué)推理、物理、醫(yī)學(xué)、工程、寫(xiě)作等各領(lǐng)域的軌跡。構(gòu)建這樣一個(gè)能生成和收集軌跡的多樣化環(huán)境體系,將形成龐大的數(shù)據(jù)庫(kù)供所有人用于模型微調(diào)。
這種方法本身并不一定新穎,但隨著 DeepSeek 展示了其方法的有效性,它現(xiàn)在獲得了新的重要性。早在 OpenAI 的早期,該公司發(fā)布了一個(gè)名為 OpenAI Gym 的平臺(tái),為開(kāi)發(fā)者提供了一個(gè)環(huán)境,用于測(cè)試不同的強(qiáng)化學(xué)習(xí)算法以完成基本任務(wù)。類似地,SWE-Gym 是測(cè)試智能體軟件工程能力的流行環(huán)境,CARLA 用于自動(dòng)駕駛車(chē)輛,Pybullet 用于物理仿真。
當(dāng)然,還需要有可靠的方法來(lái)評(píng)估這種推理數(shù)據(jù)的正確性。在 DeepSeek 中,當(dāng)無(wú)法通過(guò)程序化方式驗(yàn)證輸出(例如數(shù)學(xué)問(wèn)題)時(shí),他們采用了基于 LLM(大語(yǔ)言模型)的評(píng)估方法,即將樣本輸入 DeepSeek-V3,讓其進(jìn)行評(píng)判(例如評(píng)估寫(xiě)作樣本的質(zhì)量)。對(duì)于我們的訓(xùn)練場(chǎng),不僅要有環(huán)境,還需要為許多不同類型的數(shù)據(jù)配備驗(yàn)證器 —— 如果不能可靠且一致地驗(yàn)證正確答案,推理數(shù)據(jù)又有什么用呢?強(qiáng)化學(xué)習(xí)擴(kuò)展所需的穩(wěn)健驗(yàn)證如此重要,以至于 AI/ML 領(lǐng)域的先驅(qū)、《苦澀的教訓(xùn)》的作者 Rich Sutton 早在 2001 年就寫(xiě)過(guò)這一概念。

推理數(shù)據(jù)示例:

來(lái)自開(kāi)源項(xiàng)目 General Reasoning 的完整推理數(shù)據(jù)示例。
為了進(jìn)一步探討開(kāi)發(fā)穩(wěn)健驗(yàn)證器的需求,我們需要在 DeepSeek R1 和 R1-Zero 所實(shí)現(xiàn)的基礎(chǔ)上進(jìn)行創(chuàng)新。他們的 GRPO(Group Relative Policy Optimization)設(shè)置之所以效果顯著,是因?yàn)樵S多問(wèn)題都有簡(jiǎn)單的二元驗(yàn)證(例如,數(shù)學(xué)問(wèn)題的正確答案為 1 或 0)。但如何處理更復(fù)雜、更微妙的場(chǎng)景呢?如何處理跨領(lǐng)域的請(qǐng)求獎(jiǎng)勵(lì)?在編碼任務(wù)中,我們?nèi)绾螢椴煌昝赖妮敵龇峙浞謹(jǐn)?shù),例如獎(jiǎng)勵(lì)正確的語(yǔ)法?如果領(lǐng)域本身含糊不清,我們沒(méi)有一個(gè)適合它的獎(jiǎng)勵(lì)策略,該怎么辦?模型在數(shù)學(xué)和編碼等更客觀領(lǐng)域的熟練程度,能否推廣到寫(xiě)作和語(yǔ)言等主觀領(lǐng)域?
展望未來(lái),隨著對(duì)設(shè)計(jì)最佳推理環(huán)境的進(jìn)一步探索,一定會(huì)有很多創(chuàng)新。去中心化網(wǎng)絡(luò)所固有的協(xié)作和開(kāi)放實(shí)驗(yàn)精神將是推動(dòng)這一領(lǐng)域進(jìn)步的關(guān)鍵。
總結(jié)
如果你以懷疑的眼光來(lái)看待去中心化 AI,也沒(méi)有關(guān)系 —— 這個(gè)領(lǐng)域正需要更多質(zhì)疑的聲音。
但即便你持懷疑態(tài)度,也請(qǐng)?zhí)貏e關(guān)注訓(xùn)練場(chǎng)模塊 —— 在整個(gè)強(qiáng)化學(xué)習(xí)體系中,這是最明確、最直接受益于去中心化的環(huán)節(jié)。與預(yù)訓(xùn)練或微調(diào)過(guò)程不同,去中心化在此不會(huì)引發(fā)相同的性能挑戰(zhàn)。
不過(guò),正如 Karpathy 所說(shuō),創(chuàng)建多種經(jīng)過(guò)驗(yàn)證的環(huán)境以生成強(qiáng)化學(xué)習(xí)策略的任務(wù)是高度可并行化的。
從高層次來(lái)看,基于 GRPO 的去中心化強(qiáng)化學(xué)習(xí)應(yīng)該比去中心化預(yù)訓(xùn)練更容易實(shí)現(xiàn)。
最后,去中心化 RL 的一些注意事項(xiàng)包括:
通信量:在預(yù)訓(xùn)練場(chǎng)景中,整個(gè)訓(xùn)練過(guò)程中需要計(jì)算和通信的信息量遠(yuǎn)遠(yuǎn)高于微調(diào)階段。對(duì)于預(yù)訓(xùn)練,基于每個(gè) token,你需要為每一個(gè)可能的下一個(gè) token 計(jì)算分?jǐn)?shù),并計(jì)算梯度。而在強(qiáng)化學(xué)習(xí)(RL)中,你只需要更簡(jiǎn)單地為一組完整的字符串響應(yīng)計(jì)算優(yōu)勢(shì)分?jǐn)?shù) —— 不需要在每個(gè) token 步驟上都進(jìn)行評(píng)分。這使得整個(gè)過(guò)程對(duì)內(nèi)存的需求大大減少。
GRPO 的效率:隨著 DeepSeek 展示了 GRPO 的可行性,我們擁有一種比 PPO(Proximal Policy Optimization,近端策略優(yōu)化)更適合去中心化的強(qiáng)化學(xué)習(xí)方法。我們不僅看到 GRPO 大幅減少了強(qiáng)化學(xué)習(xí)中所需的計(jì)算能力,還應(yīng)記住 DeepSeek 也摒棄了評(píng)判模型(critic model),轉(zhuǎn)而使用一個(gè)非常輕量級(jí)的獎(jiǎng)勵(lì)系統(tǒng)。這使得強(qiáng)化學(xué)習(xí)過(guò)程在去中心化過(guò)程中需要的協(xié)調(diào)工作大大減少。沒(méi)有評(píng)判模型意味著我們不需要一個(gè)去中心化網(wǎng)絡(luò)在運(yùn)行過(guò)程中同時(shí)更新策略和評(píng)判模型。而輕量級(jí)的獎(jiǎng)勵(lì)模型也意味著我們?cè)谟?xùn)練該模型時(shí)需要投入的計(jì)算資源更少。
量化:量化是一種用于減小模型大小以便于部署的過(guò)程。鑒于這一部分比前面的內(nèi)容稍顯技術(shù)性和復(fù)雜,本文把它分成三個(gè)小節(jié)來(lái)幫助解釋。
概述:量化通過(guò)使用較低精度的數(shù)據(jù)類型(如 8 位整數(shù)或 16 位浮點(diǎn)數(shù))來(lái)表示模型的權(quán)重和激活值,而不是使用 32 位浮點(diǎn)數(shù)。
為了借助一個(gè)比喻來(lái)解釋量化,如果你把模型想象成畫(huà)作,那么全精度模型就像是用藝術(shù)家完整的顏料系列(每一種色調(diào)和色相)創(chuàng)作的畫(huà)作。而量化模型就像是試圖用更受限的顏色集合來(lái)創(chuàng)作同一幅畫(huà),比如說(shuō),僅用黑白兩色。你仍然可以得到一幅能夠清晰代表原作的作品,但最終結(jié)果的保真度較低,且丟失了一些細(xì)節(jié)。
一張簡(jiǎn)單的圖像展示了量化的效果
這個(gè)比喻指出了量化中存在的一種權(quán)衡。雖然量化可以使模型變得更輕量級(jí),但你最終得到的模型可能會(huì)不夠準(zhǔn)確。如果模型的每個(gè)參數(shù)包含的信息較少,那么它執(zhí)行的數(shù)學(xué)計(jì)算自然會(huì)不夠精確。
當(dāng)前創(chuàng)新現(xiàn)狀:量化在推理中被廣泛使用,通常被認(rèn)為不適合預(yù)訓(xùn)練場(chǎng)景,并且在強(qiáng)化學(xué)習(xí)(RL)中的應(yīng)用還相對(duì)較少。然而,哈佛大學(xué)和谷歌 DeepMind 的研究人員進(jìn)行的一項(xiàng)合作研究表明,在基于 PPO(近端策略優(yōu)化)的強(qiáng)化學(xué)習(xí)中,使用 8 位量化能夠顯著加快訓(xùn)練時(shí)間。他們的基本設(shè)置是讓量化的 actor 模型生成輸出,而全精度的 learner 模型負(fù)責(zé)更新。通過(guò)這種設(shè)置,他們報(bào)告的訓(xùn)練速度比全精度訓(xùn)練快 1.5 到 2.5 倍。

QuaRL 中的學(xué)習(xí)器、量化器、參與者的設(shè)置。
除此之外,DeepSeek 實(shí)際上在 FP8 精度上訓(xùn)練了 V3 的大部分內(nèi)容,表明并非所有預(yù)訓(xùn)練操作都需要完全精度。要討論他們?nèi)绾巫龅竭@一點(diǎn)可以寫(xiě)成一大篇文章,但本質(zhì)上,DeepSeek 隔離了預(yù)訓(xùn)練的組件,其中 FP32 或 BF16 至關(guān)重要,而 FP8 的準(zhǔn)確度下降則沒(méi)問(wèn)題。
雖然有一些令人興奮的研究正在更好地將量化納入完整的 AI/ML 堆棧,但當(dāng)前的硬件限制仍然是進(jìn)步的障礙。目前,只有 4000 系列和更新的英偉達(dá) AI 卡原生支持 FP8 量化。這意味著只有更高端的消費(fèi)卡才能利用量化。不過(guò),隨著時(shí)間的推移和消費(fèi)卡中量化支持的普及,我們可以預(yù)期量化將得到更常規(guī)的利用。
要點(diǎn):雖然需要在該領(lǐng)域進(jìn)行更多研究,但早期的進(jìn)展跡象預(yù)示著去中心化將取得良好進(jìn)展。為什么?將計(jì)算分散到多樣化、異構(gòu)的計(jì)算網(wǎng)絡(luò)中通常意味著并非計(jì)算網(wǎng)絡(luò)中的每個(gè)參與者都會(huì)擁有多個(gè) GPU 集群,也不必是最先進(jìn)的單個(gè) GPU。在這里,內(nèi)存限制會(huì)發(fā)揮作用,那些硬件有限的人可能會(huì)被排除在網(wǎng)絡(luò)參與之外。然而,有了量化的能力,我們可以實(shí)現(xiàn)更快的性能,同時(shí)還可以將模型縮小到更小的尺寸,更好地促進(jìn)內(nèi)存受限硬件的個(gè)體參與研究。
分布式通信技術(shù)
與預(yù)訓(xùn)練相比,RL 具有更輕量的特性,因此分散微調(diào)過(guò)程應(yīng)該是完全有可能的。
在非常高的層次上,在分散的 RL 訓(xùn)練網(wǎng)絡(luò)中,你可以擁有非常輕量級(jí)的「推理節(jié)點(diǎn)」,然后與更強(qiáng)大的「工作節(jié)點(diǎn)」進(jìn)行協(xié)作。如果實(shí)施模型并行方法,推理節(jié)點(diǎn)可以是在本地下載小型量化模型的單個(gè)參與者,甚至可以下載模型的片段。這些節(jié)點(diǎn)可以運(yùn)行推理并計(jì)算獎(jiǎng)勵(lì),然后以不頻繁的間隔將結(jié)果發(fā)送回訓(xùn)練模型,然后訓(xùn)練模型將進(jìn)行更多計(jì)算密集型梯度更新。在處理跨龐大的并行工作器網(wǎng)絡(luò)的部署時(shí),大部分工作將集中在隔離如何以及何時(shí)協(xié)調(diào)策略更新。
為了實(shí)現(xiàn)這一點(diǎn),一個(gè)有效的路由方案對(duì)于將請(qǐng)求路由到全球各地的推理節(jié)點(diǎn)至關(guān)重要。一種現(xiàn)有的方法是 Ryabinin 等人提出的 SWARM 并行框架,在預(yù)訓(xùn)練環(huán)境中,該框架能夠在為地理分散的 GPU 提供訓(xùn)練工作時(shí)考慮地理距離和特定節(jié)點(diǎn)的計(jì)算效率。
同樣,關(guān)鍵是設(shè)計(jì)一種極其高效的路由算法,該算法可以確保不會(huì)使特定工作者超載,調(diào)整以平衡工作者完成時(shí)間,處理容錯(cuò),當(dāng)然還有一種同步算法,可以大大減少優(yōu)勢(shì)和梯度同步的頻率。這絕不是一個(gè)簡(jiǎn)單的挑戰(zhàn),但它比預(yù)訓(xùn)練更容易解決。
以下是針對(duì)微調(diào)設(shè)置量身定制的三種方法:
PETALS
PETALS 提出了一種有趣的方法,通過(guò)協(xié)作推理和微調(diào)使大型語(yǔ)言模型的訪問(wèn)變得平民化。該系統(tǒng)的開(kāi)發(fā)是為了解決 LLM 領(lǐng)域的一個(gè)關(guān)鍵挑戰(zhàn):雖然已有高性能的開(kāi)源模型可供下載,但通常推理內(nèi)存(以及用于微調(diào)的內(nèi)存)使大多數(shù)研究人員和從業(yè)者望而卻步。
PETALS 通過(guò)將計(jì)算分布在多個(gè)參與者之間來(lái)實(shí)現(xiàn)大型模型的協(xié)作使用。在這個(gè)系統(tǒng)中,有兩個(gè)主要參與者:服務(wù)器和客戶端。每個(gè)服務(wù)器存儲(chǔ)模型層的子集(通常是連續(xù)的轉(zhuǎn)換器塊)并處理來(lái)自客戶端的請(qǐng)求。

PETALS 中的圖表顯示了模型在各個(gè)服務(wù)器上的拆分情況。
客戶端可以調(diào)用管道并行服務(wù)器鏈來(lái)對(duì)整個(gè)模型進(jìn)行推理,每個(gè)服務(wù)器僅保存其可用 GPU 內(nèi)存允許的塊數(shù)。

來(lái)自客戶端的請(qǐng)求通過(guò)一系列服務(wù)器進(jìn)行路由。
該系統(tǒng)的架構(gòu)在處理推理和訓(xùn)練方面特別巧妙。在推理過(guò)程中,客戶端僅在本地存儲(chǔ)模型的標(biāo)記嵌入(占總參數(shù)的一小部分),并依靠服務(wù)器來(lái)處理轉(zhuǎn)換器塊。當(dāng)客戶端啟動(dòng)推理會(huì)話時(shí),它首先建立一個(gè)服務(wù)器鏈,這些服務(wù)器共同保存所有模型層。然后,客戶端使用其本地嵌入層來(lái)處理輸入標(biāo)記,通過(guò)服務(wù)器鏈發(fā)送結(jié)果向量,并接收最終輸出表示以計(jì)算下一個(gè)標(biāo)記概率。
PETALS 的一項(xiàng)關(guān)鍵創(chuàng)新是其微調(diào)方法。PETALS 不需要完整的模型實(shí)現(xiàn),而是支持分布式參數(shù)高效訓(xùn)練,其中客戶端「擁有」其訓(xùn)練過(guò)的參數(shù),而服務(wù)器托管原始的預(yù)訓(xùn)練層。服務(wù)器可以通過(guò)其層執(zhí)行反向傳播并返回與激活相關(guān)的梯度,但它們不會(huì)更新服務(wù)器端參數(shù)。這樣,多個(gè)客戶端就可以在同一組服務(wù)器上同時(shí)運(yùn)行不同的訓(xùn)練任務(wù),而不會(huì)相互干擾。
為了提高效率,PETALS 采用了多項(xiàng)優(yōu)化措施。它使用動(dòng)態(tài)分塊量化將管道階段之間的通信緩沖區(qū)壓縮為 8 位,從而降低帶寬要求,而不會(huì)明顯影響生成質(zhì)量。該系統(tǒng)還采用了復(fù)雜的路由算法,幫助客戶端找到最佳服務(wù)器鏈,同時(shí)考慮了網(wǎng)絡(luò)延遲和服務(wù)器負(fù)載等因素。
在實(shí)踐中,PETALS 在交互式使用方面取得了令人印象深刻的性能 - 在消費(fèi)者 GPU 上以每秒約 1 步(前向傳遞)的速度運(yùn)行 176B 模型的推理。這使得它適用于許多交互式應(yīng)用程序,同時(shí)保持了研究人員訪問(wèn)模型內(nèi)部和試驗(yàn)微調(diào)方法所需的靈活性。
DiPaCo
另一種與 MoE 模型特別相關(guān)的有前途的方法是 Google DeepMind 研究人員提出的分布式路徑組合 DiPaCo。它引入了一種分發(fā)和微調(diào) MoE 模型的新方法,這對(duì)去中心化網(wǎng)絡(luò)尤其有價(jià)值。傳統(tǒng)的 MoE 訓(xùn)練要求每個(gè)節(jié)點(diǎn)將整個(gè)模型存儲(chǔ)在內(nèi)存中 - 對(duì)于參與者資源有限的去中心化網(wǎng)絡(luò)來(lái)說(shuō),這是一個(gè)重大障礙。DiPaCo 采取了不同的方法,將模型分解為 “路徑”。每條路徑代表一條精心構(gòu)建的網(wǎng)絡(luò)路線,其中包括來(lái)自每個(gè) MoE 層的專家模塊子集,以及相應(yīng)的路由組件和必要的層規(guī)范化組件。
DiPaCo 的關(guān)鍵創(chuàng)新在于它如何處理訓(xùn)練和推理。在訓(xùn)練期間,數(shù)據(jù)會(huì)按路徑預(yù)先分片和分發(fā),這意味著每個(gè)工作者只需要通過(guò)其特定的路徑配置處理數(shù)據(jù)。這是通過(guò)在文檔級(jí)別而不是每個(gè)標(biāo)記上做出路由決策來(lái)實(shí)現(xiàn)的,允許對(duì)序列的所有標(biāo)記進(jìn)行批處理計(jì)算,而無(wú)需交換模塊。每條路徑都設(shè)計(jì)得足夠小(大約 150M 個(gè)參數(shù)),以適應(yīng)中等規(guī)模的 GPU 硬件,從而可以更廣泛地參與去中心化網(wǎng)絡(luò)。

DiPaCo 的圖表顯示了數(shù)據(jù)分片通過(guò)地理上分散的 GPU 上托管的相關(guān)路徑進(jìn)行路由。
在 DeepMind 的實(shí)驗(yàn)中,DiPaCo 表現(xiàn)出了卓越的效率 - 一個(gè)由 256 條路徑和 1.5 億參數(shù)組成的網(wǎng)絡(luò)能夠匹配密集的 13 億參數(shù)模型的性能,同時(shí)所需的訓(xùn)練時(shí)間減少了 45%。然而,另一方面,這種方法被證明是極其低效的 FLOP;DiPaCo 需要更多的計(jì)算才能實(shí)現(xiàn)與相同密集模型相似的困惑度分?jǐn)?shù)。
不過(guò),DiPaCo 對(duì)分散實(shí)施有著有趣的影響。在 DiPaCo 中,無(wú)論是在訓(xùn)練期間還是在評(píng)估時(shí),整個(gè)網(wǎng)絡(luò)都不需要在一個(gè)地方實(shí)現(xiàn)。完整模型僅作為分散硬件上路徑的虛擬組合而存在,每條路徑都可以獨(dú)立提供服務(wù)。此外,DiPaCo 的架構(gòu)自然支持異構(gòu)硬件(實(shí)驗(yàn)中使用了美國(guó)、日本和英國(guó)的 A100 和 TPU 的混合體),允許彈性資源利用,并通過(guò)路徑冗余提供內(nèi)置容錯(cuò)能力。按路徑分配計(jì)算的基本原理對(duì)于分散式網(wǎng)絡(luò)可能很有價(jià)值,因?yàn)樵诜稚⑹骄W(wǎng)絡(luò)中,以有限的硬件資源和最小的通信開(kāi)銷(xiāo)參與的能力至關(guān)重要。
Gensyn AI 團(tuán)隊(duì)開(kāi)發(fā)的 RL Swarm
RL Swarm 由領(lǐng)先的去中心化 AI 公司 Gensyn 的研究人員開(kāi)發(fā),是一種分布式強(qiáng)化學(xué)習(xí)的協(xié)作方法,直接建立在 DeepSeek 的 R1 GRPO 流程之上,目前已在 Gensyn 的測(cè)試網(wǎng)上上線。我們已經(jīng)強(qiáng)調(diào) DeepSeek 展示了模型可以在沒(méi)有 SFT 或批評(píng)模型的情況下通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行自我改進(jìn),但 RL Swarm 通過(guò)使多個(gè)策略模型能夠在分布式環(huán)境中協(xié)作學(xué)習(xí),進(jìn)一步推進(jìn)了這一概念。
RL Swarm 的關(guān)鍵創(chuàng)新在于其點(diǎn)對(duì)點(diǎn)學(xué)習(xí)結(jié)構(gòu),其中模型不僅可以自我評(píng)估,還可以評(píng)估和學(xué)習(xí)彼此的推理過(guò)程。這使 RL 動(dòng)態(tài)從一項(xiàng)單獨(dú)的努力轉(zhuǎn)變?yōu)橐豁?xiàng)協(xié)作努力,其中模型受益于同行的探索和見(jiàn)解。
Gensyn 為 RL Swarm 設(shè)置的實(shí)驗(yàn)利用了較小的 Qwen-2.5b-1.5B 模型,并在數(shù)學(xué)推理數(shù)據(jù)集 (GMS8K) 上進(jìn)行了訓(xùn)練。其遵循一個(gè)三步流程,正如 Gensyn 團(tuán)隊(duì)所強(qiáng)調(diào)的那樣,該流程反映了一個(gè)協(xié)作研究小組:
- 回答階段:將多個(gè)策略模型加載到單獨(dú)的硬件中,然后這些模型獨(dú)立生成對(duì)給定提示的多個(gè)響應(yīng)(通常每個(gè)問(wèn)題有八個(gè)答案),計(jì)算獎(jiǎng)勵(lì),確定優(yōu)勢(shì),計(jì)算損失,并按照 GRPO 方法執(zhí)行梯度更新。完成這些單獨(dú)的工作后,每個(gè)模型都會(huì)與群中的其他模型分享其最佳答案。
- 批評(píng)階段:模型檢查同行提供的答案并提供結(jié)構(gòu)化反饋。這創(chuàng)造了一種動(dòng)態(tài),激勵(lì)模型既能提供高質(zhì)量的答案,又能培養(yǎng)評(píng)估他人回答的技能。
- 解決階段:每個(gè)模型都會(huì)投票選出最佳答案。然后基于這種集體評(píng)估,模型會(huì)針對(duì)原始提示生成最終的修訂答案。

RL Swarm 的三步流程。
與單獨(dú)訓(xùn)練的模型相比,RL Swarm 方法展示了幾項(xiàng)改進(jìn)。首先,實(shí)驗(yàn)表明,在 RL Swarm 中訓(xùn)練的模型通常比單獨(dú)訓(xùn)練的模型獲得更高的獎(jiǎng)勵(lì)(例如,它們始終產(chǎn)生更優(yōu)的輸出)。其次,同行評(píng)審過(guò)程始終產(chǎn)生更多人性化的輸出,正如 swarm 訓(xùn)練的模型所證明的那樣,它們產(chǎn)生的響應(yīng)更具人性化,推理更深入。具體而言,Swarm 模型產(chǎn)生了更長(zhǎng)、更結(jié)構(gòu)化的響應(yīng),格式更好,包括正確使用項(xiàng)目符號(hào)、間距和 LaTeX 進(jìn)行數(shù)學(xué)符號(hào)表示。這表明協(xié)作評(píng)審過(guò)程創(chuàng)造了一種新行為,其中模型不僅針對(duì)正確性進(jìn)行優(yōu)化,還針對(duì)清晰度和可理解性進(jìn)行優(yōu)化。

RL Swarm 論文中的一張圖表顯示了 RL Swarm 訓(xùn)練模型和單獨(dú)訓(xùn)練模型之間的響應(yīng)長(zhǎng)度差距。
鑒于模型之間所需的通信輕量級(jí)特性以及消除復(fù)雜的批評(píng)網(wǎng)絡(luò),RL Swarm 代表了一種有前途的方法,可以在保持訓(xùn)練效率的同時(shí)擴(kuò)展分布式強(qiáng)化學(xué)習(xí)。同伴學(xué)習(xí)框架是開(kāi)源的并且已經(jīng)上線,利用 Ryabinin 等人的 Hivemind 庫(kù)來(lái)處理跨節(jié)點(diǎn)通信。雖然 RL Swarm 還處于發(fā)展初期,但它對(duì)于領(lǐng)域內(nèi)來(lái)說(shuō)已相當(dāng)令人興奮 —— 它是我們今天擁有的最具體的分布式 RL 框架。
未來(lái)的探索領(lǐng)域
在最近一次 Dwarkesh Patel 播客中,谷歌傳奇程序員 Jeff Dean 和 Noam Shazeer 推測(cè)了未來(lái)構(gòu)建高度模塊化模型的方法。他們的一些想法對(duì)于分散訓(xùn)練和微調(diào)的應(yīng)用非常有吸引力。而且由于分散訓(xùn)練領(lǐng)域還很年輕,我想將其中一些推測(cè)納入本報(bào)告,它或許可以作為我們想構(gòu)建哪種類型的網(wǎng)絡(luò)的有用指南。
在談話的最后,Dean 和 Shazeer 討論了 AI/ML 發(fā)展的未來(lái)狀態(tài)。似乎受到他們?cè)?Pathways 上工作的影響,他們想象了一個(gè)世界,其中稀疏的 MoE LLM 可以分成專家的模塊化細(xì)分,每個(gè)部分都可以單獨(dú)進(jìn)行訓(xùn)練和改進(jìn)。然后可以將這些部分交換到更大的模型中以擴(kuò)展其功能。
雖然這在今天絕對(duì)不可能實(shí)現(xiàn),但它描繪了一個(gè)令人興奮的未來(lái),你可以將一個(gè)模型拆分成更小的專家部分,使用強(qiáng)化學(xué)習(xí)使這些專家塊更好地完成一項(xiàng)任務(wù),然后將它們重新組合成一個(gè)更大的模型。這個(gè)過(guò)程將是高度可并行的,因?yàn)槭澜绺鞯氐娜藗兛梢酝瑫r(shí)致力于改進(jìn)和更新模塊。這顯然可以很好地轉(zhuǎn)化為大規(guī)模的分散強(qiáng)化學(xué)習(xí)。
Gensyn 朝著實(shí)現(xiàn)這一未來(lái)邁出了一步。在他們最近的論文《HDEE: Heterogeneous Domain Expert Ensemble》中,他們展示了你可以并行訓(xùn)練小型、異構(gòu)和模塊化專家模型,然后通過(guò)一種名為 ELMForest 的技術(shù)將它們連接到一個(gè)集成中。研究人員表明,這些集成雖然推理效率較低,但優(yōu)于用較少異構(gòu)性訓(xùn)練的模型。
這并不是 Dean 和 Shazeer 夢(mèng)想的實(shí)現(xiàn) —— 最終的集成不是一個(gè)單一的模型,而是產(chǎn)生獨(dú)立輸出的獨(dú)立網(wǎng)絡(luò),這些輸出在推理后組合成統(tǒng)一的答案。雖然全面深入探討差異和未來(lái)方向超出了本文的范圍,但這是一個(gè)相當(dāng)令人興奮的發(fā)展,并且引出了一個(gè)問(wèn)題,即它是否可以與 RL Swarm 合并以創(chuàng)建更高效的領(lǐng)域?qū)<?。我非常期待想看到這項(xiàng)研究隨著時(shí)間的推移將如何發(fā)展。
展望未來(lái)
雖然圍繞去中心化強(qiáng)化學(xué)習(xí)的某些工作似乎有些牽強(qiáng),但令人興奮的探索已經(jīng)開(kāi)始。Hugging Face 正在開(kāi)發(fā) Open R1,這是一個(gè)旨在構(gòu)建完全開(kāi)源版本 R1、數(shù)據(jù)集、訓(xùn)練程序等的項(xiàng)目。Prime Intellect 已經(jīng)在努力通過(guò)他們的 SYNTHETIC-1 運(yùn)行以半分布式方式復(fù)制 DeepSeek-R1 的訓(xùn)練。他們已經(jīng)完成了分布式數(shù)據(jù)收集并正在進(jìn)入訓(xùn)練階段。
本文的開(kāi)頭討論了 DeepSeek 如何引起人們對(duì)基于 GRPO 的強(qiáng)化學(xué)習(xí)中一種新的擴(kuò)展方法的關(guān)注。雖然有一些開(kāi)創(chuàng)性的論文為訓(xùn)練和 TTC 的特定、普遍認(rèn)可的擴(kuò)展原則奠定了基礎(chǔ),但我們?nèi)圆恢罃U(kuò)展強(qiáng)化學(xué)習(xí)的局限性。需要多少數(shù)據(jù)和什么類型的數(shù)據(jù)才能獲得最有效的 SFT?可以將基于 GRPO 的強(qiáng)化學(xué)習(xí)擴(kuò)展到多大規(guī)模以將模型性能推向極限?基礎(chǔ)模型的性能必須有多好才能獲得強(qiáng)化學(xué)習(xí)的好處?我們尚不確定這些問(wèn)題的答案,但我們已在進(jìn)入人工智能創(chuàng)新的新階段,這將在 LLM 擴(kuò)展中對(duì) RL 進(jìn)行測(cè)試。
而去中心化、眾包激勵(lì)的網(wǎng)絡(luò)將在其中發(fā)揮作用。
熱門(mén)跟貼