打開網(wǎng)易新聞 查看精彩圖片

新智元報道

編輯:英智 好困

【新智元導(dǎo)讀】全球首個去中心化強化學(xué)習(xí)訓(xùn)練的32B模型震撼發(fā)布!無需授權(quán),就能用自家異構(gòu)計算資源參與其中,讓編碼、數(shù)學(xué)與科學(xué)領(lǐng)域的推理性能邁向新高度。

最近,全球第一個用去中心化強化學(xué)習(xí)訓(xùn)練的32B模型——INTELLECT-2正式發(fā)布!

任何人都能用自己的異構(gòu)計算資源參與,無需授權(quán)。

這種全新的范式,讓去中心化訓(xùn)練在編碼、數(shù)學(xué)和科學(xué)領(lǐng)域,邁向前沿的推理性能。

打開網(wǎng)易新聞 查看精彩圖片

INTELLECT-2是大規(guī)模去中心化強化學(xué)習(xí)的開端,他們的下一步計劃是用強化學(xué)習(xí)訓(xùn)練端到端智能體。

去中心化強化學(xué)習(xí)正處于起步階段,若能匯聚社區(qū)和各方貢獻,開源AI有望超越閉源實驗室。

AI社區(qū)對這項工作給出了非常積極的肯定。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

隨著OpenAI o1和DeepSeek R1的發(fā)布,出現(xiàn)了預(yù)訓(xùn)練以外的擴展范式,借助RL進行優(yōu)化,讓模型有更多時間進行推理。

之前發(fā)布的成果曾探討,為何通過RL訓(xùn)練的推理模型,相比標(biāo)準(zhǔn)的LLM預(yù)訓(xùn)練,更適合去中心化訓(xùn)練。

INTELLECT-2將有力地證實這一觀點。

打開網(wǎng)易新聞 查看精彩圖片

博客鏈接:https://www.primeintellect.ai/blog/intellect-2

全球首個去中心化強化學(xué)習(xí)32B模型

過去一年,研究者致力于構(gòu)建所有關(guān)鍵的開源組件,讓INTELLECT-2具備前沿的推理性能,支持異構(gòu)計算節(jié)點,并允許無需授權(quán)的貢獻,能對32B參數(shù)模型進行去中心化RL訓(xùn)練:

  • prime-RL:新推出的開源庫,用于完全異步的去中心化RL,基于具備容錯的去中心化訓(xùn)練框架prime開發(fā)。

  • SYNTHETIC-1 & GENESYS:用于RL任務(wù)眾包和驗證環(huán)境的庫。

  • TOPLOC:實現(xiàn)高效、可驗證的推理方法,用于驗證INTELLECT-2中所有去中心化rollout節(jié)點的計算。

  • 協(xié)議測試網(wǎng):提供基礎(chǔ)設(shè)施和經(jīng)濟激勵,用于聚合和協(xié)調(diào)全球計算資源,打造真正自主的開源AI生態(tài)系統(tǒng)。

打開網(wǎng)易新聞 查看精彩圖片

Prime-RL:去中心化訓(xùn)練框架

INTELLECT-2基礎(chǔ)設(shè)施主要由三個組件構(gòu)成:

  • 推理采樣節(jié)點(Inference Rollout Workers):一組去中心化節(jié)點,用最新的策略模型,從環(huán)境中收集推理軌跡(reasoning rollouts),并計算相應(yīng)的獎勵。

  • TOPLOC驗證節(jié)點(TOPLOC Validators):負(fù)責(zé)高效驗證無需授權(quán)的rollout工作節(jié)點的推理計算,打造無需信任的系統(tǒng)。

  • GRPO訓(xùn)練節(jié)點(GRPO Training Workers):從去中心化推理采樣節(jié)點收集到新生成的數(shù)據(jù)后,采用DeepSeek的GRPO訓(xùn)練方法進行訓(xùn)練。訓(xùn)練完成后,這些訓(xùn)練節(jié)點會通過Shardcast庫,將更新后的權(quán)重廣播給所有推理節(jié)點,以啟動下一輪數(shù)據(jù)收集。

該基礎(chǔ)設(shè)施具備以下特性:

  • 完全消除通信開銷:通過異步強化學(xué)習(xí),新策略模型的廣播與正在進行的推理和訓(xùn)練完全重疊,通信不再成為瓶頸。

  • 支持異構(gòu)推理節(jié)點:允許任何人按自己的節(jié)奏生成推理軌跡(reasoning traces),跨節(jié)點處理速度沒有統(tǒng)一要求。

  • 資源需求低:在這種訓(xùn)練設(shè)置中,占計算資源大頭的推理節(jié)點可以在消費級GPU上運行。例如,配備4塊RTX 3090 GPU的機器,足以支持32B參數(shù)模型的訓(xùn)練。

  • 實現(xiàn)高效驗證:推理計算的驗證過程,不會引入訓(xùn)練瓶頸。

異步強化學(xué)習(xí)

RL在本質(zhì)上比傳統(tǒng)的LLM預(yù)訓(xùn)練更具異步性。在去中心化RL中,數(shù)據(jù)收集和網(wǎng)絡(luò)訓(xùn)練可以分開進行。

多個節(jié)點在并行環(huán)境中運行,各自異步收集經(jīng)驗數(shù)據(jù),中央學(xué)習(xí)器負(fù)責(zé)接收和處理這些數(shù)據(jù)。

由于經(jīng)驗數(shù)據(jù)到達的時間不同,且來自狀態(tài)空間的不同部分,每個步驟的發(fā)生速率也有所不同。

異步強化學(xué)習(xí)在Tulu 3和Llama 4中得到了成功應(yīng)用,采用單步異步強化學(xué)習(xí)方法,提升了訓(xùn)練效率。

消融實驗表明,即使采用四步異步訓(xùn)練(即推理節(jié)點使用的策略模型落后四步),也能復(fù)現(xiàn)DeepScaleR的結(jié)果,且不會降低模型性能。

這樣的異步程度,在去中心化RL訓(xùn)練中,即使全局互聯(lián)較弱,也能將通信時間完全隱藏在計算過程中。

打開網(wǎng)易新聞 查看精彩圖片

同步DeepScaleR訓(xùn)練與異步Prime-RL的比較:即使延遲增加(最多四步),Prime-RL的性能仍能與同步基線媲美

此外,異步強化學(xué)習(xí)不僅實現(xiàn)了去中心化訓(xùn)練設(shè)置,還通過分別優(yōu)化訓(xùn)練和推理引擎,進一步提高了效率。

例如,在prime-rl庫中,rollout節(jié)點可以利用vLLM,及全套推理優(yōu)化技術(shù)。

完全異步的在線RL訓(xùn)練框架prime-rl已開源,任何人都能借此開啟全球去中心化RL訓(xùn)練。

Shardcast

基礎(chǔ)設(shè)施中的一個關(guān)鍵組件,Shardcast是能盡快將新策略模型從訓(xùn)練節(jié)點廣播到所有去中心化推理節(jié)點的機制。

Shardcast是一個通過基于HTTP的樹狀拓?fù)渚W(wǎng)絡(luò)分發(fā)大型文件的庫,由以下部分組成:

  • 源服務(wù)器(Origin Server):作為根節(jié)點,將大文件分片,并通過HTTP提供分片服務(wù)。

  • 中間節(jié)點(Middle Nodes):作為中間服務(wù)器,從上游服務(wù)器下載分片,并以流水線方式轉(zhuǎn)發(fā)。

  • 客戶端節(jié)點(Client Nodes):下載分片并重新組裝成原始文件。

打開網(wǎng)易新聞 查看精彩圖片

TOPLOC驗證

TOPLOC是一種用于可驗證推理的局部敏感哈希方案,旨在檢測推理過程中的惡意修改。

它能實現(xiàn)以下功能:

  • 檢測推理過程中對模型、提示或精度的修改。

  • 有效應(yīng)對GPU硬件的不確定性,這是可驗證計算中的主要挑戰(zhàn)之一。TOPLOC在不同類型的GPU、張量并行配置和注意力內(nèi)核上都能可靠運行。

  • 驗證速度比生成速度快得多。

在INTELLECT-2中對TOPLOC進行生產(chǎn)環(huán)境測試,任何人都能以無需授權(quán)的方式貢獻GPU資源。

打開網(wǎng)易新聞 查看精彩圖片

協(xié)議測試網(wǎng)

幾周前,團隊宣布了公共協(xié)議測試網(wǎng)的啟動,旨在實現(xiàn)真正自主的開源AI生態(tài)系統(tǒng)。

今天,首個無需授權(quán)的計算池開放,任何人都能在自己的GPU上運行協(xié)議測試網(wǎng)節(jié)點。

注冊、計算資源驗證、對惡意行為的懲罰等操作,都在公共以太坊Base測試網(wǎng)上完成。這帶來了諸多好處:

  • 全球規(guī)模的計算資源聚合:節(jié)點設(shè)計允許任何人在全球任何計算設(shè)備上運行,加入去中心化網(wǎng)絡(luò),并最終因節(jié)點所做的貢獻獲得獎勵。這有助于擴展規(guī)模,無授權(quán)地整合來自全球的數(shù)據(jù)中心資源。

  • 為完全去中心化訓(xùn)練奠定基礎(chǔ):所有加入計算池的節(jié)點都以點對點(peer-to-peer)的方式進行通信和協(xié)調(diào)。這為完全去中心化、無授權(quán)地訓(xùn)練和微調(diào)開源模型奠定了基礎(chǔ),對構(gòu)建真正自主的開源AI生態(tài)系統(tǒng)至關(guān)重要。

打開網(wǎng)易新聞 查看精彩圖片

除了對基礎(chǔ)設(shè)施進行多項改進,在協(xié)議層面也有其他關(guān)鍵進展。

  • 檢測和防范攻擊與欺詐的機制:將TOPLOC驗證集成到節(jié)點中,實現(xiàn)高效驗證,有助于識別偽造GPU或污染數(shù)據(jù)集的行為。

  • 鼓勵誠實行為的激勵:為減少不誠信行為,嘗試采用經(jīng)濟激勵,抑制偽造GPU或提交虛假數(shù)據(jù)等惡意行為。具體做法是要求節(jié)點預(yù)先抵押一定的資金,如果節(jié)點被認(rèn)定存在不誠信行為,這些抵押資金將被扣除。

此外,團隊為節(jié)點的工作設(shè)定了24小時的驗證期,期間若發(fā)現(xiàn)問題,節(jié)點工作將被判定無效并扣除相應(yīng)獎勵。如果節(jié)點出現(xiàn)惡意行為或試圖鉆機制的空子,最多會扣除24小時的獎勵。

模型訓(xùn)練詳情

INTELLECT-2的目標(biāo)是訓(xùn)練出一個具有可控思考預(yù)算的前沿推理模型。

用戶和開發(fā)者可通過系統(tǒng)提示詞,指定模型在得出最終解決方案前,對一個問題應(yīng)思考的token數(shù)量。

這種方法能讓訓(xùn)練出的模型在實際應(yīng)用中更加高效。

近期的研究(如ThinkPrune、L1和Deepscaler)表明,經(jīng)過專門訓(xùn)練、在嚴(yán)格約束下進行推理訓(xùn)練的模型,幾乎能解決所有無約束推理模型可解決的問題,且速度更快,推理成本也更降低。

通過提示控制推理預(yù)算,用戶既能利用這一優(yōu)勢,又能在遇到極具挑戰(zhàn)性的問題時,選擇更長的推理時間。

打開網(wǎng)易新聞 查看精彩圖片

「L1:利用RL控制推理模型的思考時長」的研究結(jié)果表明,推理模型可以被訓(xùn)練來遵循其提示詞中指定的token數(shù)量,且模型性能會隨推理預(yù)算的增加而可預(yù)測地提升;團隊用自研框架prime-rl獨立復(fù)現(xiàn)了論文結(jié)果

為訓(xùn)練出這樣的模型,團隊以QwQ-32B為基模型,遵循Deepseek-R1的方法,應(yīng)用GRPO算法,結(jié)合數(shù)學(xué)和編程領(lǐng)域的可驗證獎勵。

在初步實驗中,以下幾個部分對控制模型思考預(yù)算、提升模型性能起到了重要作用:

通過長度獎勵實現(xiàn)可控思考預(yù)算

除了根據(jù)輸出的正確性給予任務(wù)獎勵外,還引入了長度獎勵,以引導(dǎo)模型遵循提示詞中指定的思維預(yù)算。

團隊參考了L1的研究思路,從指定范圍內(nèi)采樣目標(biāo)長度,將其加入提示詞,根據(jù)目標(biāo)長度與實際響應(yīng)長度的差異來分配獎勵。

與L1不同,團隊沒有從一個連續(xù)的值范圍中采樣目標(biāo)長度,而是從一小組預(yù)定義的值中采樣,更有利于模型學(xué)習(xí)。

通過長度控制進行訓(xùn)練,不僅讓模型更實用,還能更高效地利用異構(gòu)推理硬件。

對于每個rollout過程,為GPU顯存和算力較低的推理節(jié)點分配較小的思考預(yù)算,為計算能力更強的節(jié)點分配較大的思考預(yù)算。

這樣,可以在較慢的節(jié)點設(shè)置較低的最大生成長度,從而在使用異構(gòu)硬件時,各個rollout的處理時間基本一致。

離線數(shù)據(jù)過濾

實驗中發(fā)現(xiàn)仔細(xì)篩選數(shù)據(jù)對模型性能至關(guān)重要。

用原始的Deepscaler數(shù)據(jù)集和方法訓(xùn)練DeepSeek-R1-Distill-Qwen-7B模型時,模型性能并未提升。

對數(shù)據(jù)難度進行嚴(yán)格篩選,只保留模型無法100%正確解答的問題。訓(xùn)練過程中的獎勵增加,最終模型在數(shù)學(xué)基準(zhǔn)測試中的表現(xiàn)也有提高。

打開網(wǎng)易新聞 查看精彩圖片

在Deepscaler數(shù)據(jù)集的未過濾版本(左)和經(jīng)難度過濾版本(右)上訓(xùn)練DeepSeek-R1-Distill-Qwen-7B的獎勵軌跡

為篩選INTELLECT-2的訓(xùn)練數(shù)據(jù)集,用DeepSeek-R1-Distill-Qwen-7B對所有問題進行8次采樣,以評估問題的難度。為確保訓(xùn)練集中只保留具有挑戰(zhàn)性的問題,僅采用解答率為75%及以下的問題。

在線優(yōu)勢過濾:訓(xùn)練過程中,如果所有完成結(jié)果都獲得相同的獎勵,這些問題就不會產(chǎn)生訓(xùn)練信號,因為其優(yōu)勢值(以及相應(yīng)的損失)為零。

團隊會過濾掉這些問題,繼續(xù)進行推理,直到獲得一整批具有非零優(yōu)勢的問題。

這提高了訓(xùn)練效率,避免在無意義的樣本上浪費計算資源。此外,這意味著推理所需時間多于訓(xùn)練,因此非常適合用去中心化推理節(jié)點。

訓(xùn)練任務(wù)與驗證器

對于INTELLECT-2,團隊主要關(guān)注可驗證的數(shù)學(xué)和編程問題,從SYNTHETIC-1中選取了經(jīng)過嚴(yán)格質(zhì)量和難度篩選的任務(wù)子集。

完整的訓(xùn)練數(shù)據(jù)集可在Hugging Face上獲取。

打開網(wǎng)易新聞 查看精彩圖片

數(shù)據(jù)集地址:https://huggingface.co/datasets/PrimeIntellect/Intellect-2-RL-Dataset

如何貢獻計算資源

INTELLECT-2是首個真正意義上允許任何人用自己的計算資源參與的項目。

由于大家的熱情極高,計算池的容量早早就已經(jīng)滿了。

現(xiàn)在想要貢獻算力,還得提申請排隊才行。

打開網(wǎng)易新聞 查看精彩圖片

當(dāng)然,并不是隨便什么算力他們都接受——

  • GPU必須是A100(80GB),H100(80GB),H200(141GB)

  • 算力節(jié)點需要是4卡或者8卡為一組

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

訓(xùn)練進度和算力貢獻情況長這樣:

打開網(wǎng)易新聞 查看精彩圖片

儀表盤:https://app.primeintellect.ai/intelligence

總結(jié)來看,INTELLECT-2的發(fā)布是大規(guī)模去中心化強化學(xué)習(xí)的開端。

基礎(chǔ)架構(gòu)現(xiàn)已搭建完畢,接下來需要共同努力,將其擴展到更具影響力的應(yīng)用領(lǐng)域。

參考資料:

https://x.com/PrimeIntellect/status/1912266266137764307