
機(jī)器之心報(bào)道
編輯:Panda、+0
字節(jié)跳動(dòng)豆包團(tuán)隊(duì)今天發(fā)布了自家新推理模型Seed-Thinking-v1.5的技術(shù)報(bào)告。從報(bào)告中可以看到,這是一個(gè)擁有 200B 總參數(shù)的 MoE 模型,每次工作時(shí)會(huì)激活其中 20B 參數(shù)。其表現(xiàn)非常驚艷,在各個(gè)領(lǐng)域的基準(zhǔn)上都超過了擁有 671B 總參數(shù)的 DeepSeek-R1。有人猜測(cè),這就是字節(jié)豆包目前正在使用的深度思考模型。

字節(jié)近期官宣的「2025 火山引擎 Force Link AI 創(chuàng)新巡展」活動(dòng)推文中提到,4 月 17 日首發(fā)站杭州站時(shí),豆包全新模型將重磅亮相,這會(huì)是 Seed-Thinking-v1.5 的正式發(fā)布嗎?

- 報(bào)告標(biāo)題:Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning
- 項(xiàng)目地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
- 報(bào)告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf
Seed-Thinking-v1.5 是一款通過深度思考提升推理能力的模型,在多個(gè)權(quán)威基準(zhǔn)測(cè)試中展現(xiàn)出卓越性能。在具體評(píng)測(cè)中,該模型在 AIME 2024 測(cè)試中獲得 86.7 分,Codeforces 評(píng)測(cè)達(dá)到 55.0 分,GPQA 測(cè)試達(dá)到 77.3 分,充分證明了其在 STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))領(lǐng)域以及編程方面的出色推理能力。

除推理任務(wù)外,該方法在不同領(lǐng)域都表現(xiàn)出顯著的泛化能力。例如,在非推理任務(wù)中,其勝率比 DeepSeek R1 高出 8%,這表明了其更廣泛的應(yīng)用潛力。
從技術(shù)架構(gòu)看,Seed-Thinking-v1.5 采用了混合專家模型(Mixture-of-Experts,MoE)設(shè)計(jì),總參數(shù)量為 200B,實(shí)際激活參數(shù)僅為 20B,相比同等性能的其他最先進(jìn)推理模型,規(guī)模相對(duì)緊湊高效。
為全面評(píng)估模型的泛化推理能力,團(tuán)隊(duì)開發(fā)了 BeyondAIME 和 Codeforces 兩個(gè)內(nèi)部基準(zhǔn)測(cè)試,這些測(cè)試工具將向公眾開放,以促進(jìn)相關(guān)領(lǐng)域的未來研究與發(fā)展。
先來看看其具體表現(xiàn)。

在數(shù)學(xué)推理方面,在 AIME 2024 基準(zhǔn)上,Seed-Thinking-v1.5 取得了 86.7 的高分,與高計(jì)算量的 o3-mini-high 差不多。
由于 AIME 2024 已經(jīng)不足以彰顯前沿模型的差異,豆包團(tuán)隊(duì)還使用了另一個(gè)更具挑戰(zhàn)性的評(píng)估基準(zhǔn) BeyondAIME,其中所有問題都是人類專家新整理編寫的。結(jié)果可以看到,雖然 Seed-Thinking-v1.5 的成績(jī)超過了 R1 和 o1,但相比于 o3 和 Gemini 2.5 pro 還有所差距。
在競(jìng)賽編程方面,在 Codeforces 基準(zhǔn)上,該團(tuán)隊(duì)沒有采用之前的依賴 Elo 分?jǐn)?shù)的評(píng)估策略,而是采用了基于最新的 12 場(chǎng) Codeforces 競(jìng)賽的具體評(píng)估方案。
具體來說,他們報(bào)告的是 pass@1 和 pass@8 指標(biāo),其中 pass@k 表示模型能否在 k 次嘗試內(nèi)解決問題,即從 k 次生成的提交中選擇最佳結(jié)果。之所以選擇報(bào)告 pass@8,是因?yàn)槟芴峁└€(wěn)定的結(jié)果,并且更接近實(shí)際用戶提交模式。
結(jié)果來看,Seed-Thinking-v1.5 在這兩個(gè)指標(biāo)上均超過 DeepSeek-R1,不過與 o3 的差距仍舊比較明顯。該團(tuán)隊(duì)表示未來將公開發(fā)布這個(gè)評(píng)估集。
在科學(xué)問題上,Seed-Thinking-v1.5 在 GPQA 基準(zhǔn)上得分為 77.3,接近 o3 的表現(xiàn)。該團(tuán)隊(duì)表示,這一提升主要?dú)w功于數(shù)學(xué)訓(xùn)練帶來的泛化能力的提升,而非增加了特定領(lǐng)域的科學(xué)數(shù)據(jù)。
豆包也測(cè)試了 Seed-Thinking-v1.5 在非推理任務(wù)上的表現(xiàn)。這里他們使用的測(cè)試集盡力復(fù)現(xiàn)了真實(shí)的用戶需求。通過人類對(duì) Seed-Thinking-v1.5 與 DeepSeek-R1 輸出結(jié)果的比較評(píng)估,結(jié)果發(fā)現(xiàn),Seed-Thinking-v1.5 獲得的用戶積極反饋總體高出 8.0%,凸顯了其在復(fù)雜用戶場(chǎng)景處理能力方面的能力。
下面我們就來簡(jiǎn)單看看豆包是如何創(chuàng)造出 Seed-Thinking-v1.5 的。
開發(fā)高質(zhì)量推理模型有三大關(guān)鍵:數(shù)據(jù)、強(qiáng)化學(xué)習(xí)算法和基礎(chǔ)設(shè)施。為了打造出 Seed-Thinking-v1.5,該團(tuán)隊(duì)在這三個(gè)方面都進(jìn)行了創(chuàng)新。
數(shù)據(jù)
推理模型主要依賴思維鏈(CoT)數(shù)據(jù),這種數(shù)據(jù)展示逐步推理過程。該團(tuán)隊(duì)的初步研究表明,過多非思維鏈數(shù)據(jù)會(huì)削弱模型探索能力。
研究團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)訓(xùn)練中整合了 STEM 問題、代碼任務(wù)、邏輯推理和非推理數(shù)據(jù)。其中邏輯推理數(shù)據(jù)提升了 ARC-AGI 測(cè)試表現(xiàn)。而數(shù)學(xué)數(shù)據(jù)則展現(xiàn)除了優(yōu)秀的泛化能力。
另外,他們還構(gòu)建了一個(gè)新的高級(jí)數(shù)學(xué)基準(zhǔn)BeyondAIME,其中包含 100 道題,每道題的難度等于或高于 AIME 中最難的題目。與 AIME 類似,所有答案都保證為整數(shù)(不受特定數(shù)值范圍的限制),這能簡(jiǎn)化并穩(wěn)定評(píng)估過程。
強(qiáng)化學(xué)習(xí)算法
推理模型的強(qiáng)化學(xué)習(xí)訓(xùn)練常出現(xiàn)不穩(wěn)定性,尤其對(duì)未經(jīng)監(jiān)督微調(diào)的模型。為解決這一問題,研究團(tuán)隊(duì)提出了 VAPO 和 DAPO 框架,分別針對(duì)基于價(jià)值和無價(jià)值的強(qiáng)化學(xué)習(xí)范式。兩種方法均能提供穩(wěn)健的訓(xùn)練軌跡,有效優(yōu)化推理模型。參閱機(jī)器之心報(bào)道《超越 DeepSeek GRPO 的關(guān)鍵 RL 算法,字節(jié)、清華 AIR 開源 DAPO》。
獎(jiǎng)勵(lì)建模
獎(jiǎng)勵(lì)建模是強(qiáng)化學(xué)習(xí)的關(guān)鍵,它確定了策略的目標(biāo)。良好的獎(jiǎng)勵(lì)機(jī)制能在訓(xùn)練時(shí)提供準(zhǔn)確的信號(hào)。團(tuán)隊(duì)針對(duì)可驗(yàn)證和不可驗(yàn)證的問題使用不同的獎(jiǎng)勵(lì)建模方法。
1、可驗(yàn)證問題
通過適當(dāng)?shù)脑瓌t和思維軌跡,團(tuán)隊(duì)利用 LLMs 來判斷各種場(chǎng)景下的可驗(yàn)證問題。這種方法提供了超越基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)局限性的更普遍解決方案。
團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)遞進(jìn)式的獎(jiǎng)勵(lì)建模方案:Seed-VerifierSeed-Thinking-Verifier
- Seed-Verifier基于一套由人類制定的原則,利用大語(yǔ)言模型的能力評(píng)估由問題、參考答案和模型生成答案組成的三元組。如果參考答案與模型生成的答案本質(zhì)上等價(jià),它返回「YES」;否則返回「NO」。這里的等價(jià)不要求逐字匹配,而是基于計(jì)算規(guī)則和數(shù)學(xué)原理進(jìn)行深層評(píng)估,確保獎(jiǎng)勵(lì)信號(hào)準(zhǔn)確反映模型回答的本質(zhì)正確性。
- Seed-Thinking-Verifier的靈感來自人類的判斷過程,通過細(xì)致思考和深入分析得出結(jié)論。為此,團(tuán)隊(duì)訓(xùn)練了一個(gè)能夠提供詳細(xì)推理路徑的驗(yàn)證器,將其視為可驗(yàn)證任務(wù),與其他數(shù)學(xué)推理任務(wù)一起優(yōu)化。該驗(yàn)證器能夠分析參考答案與模型生成答案之間的異同,提供精確的判斷結(jié)果。
Seed-Thinking-Verifier 顯著緩解了 Seed-Verifier 存在的三個(gè)主要問題:
- 獎(jiǎng)勵(lì)欺騙(Reward Hacking):非思考型模型可能利用漏洞獲取獎(jiǎng)勵(lì),而不真正理解問題。Seed-Thinking-Verifier 的詳細(xì)推理過程使這種欺騙變得更加困難。
- 預(yù)測(cè)的不確定性:在參考答案與模型生成答案本質(zhì)相同但格式不同的情況下,Seed-Verifier 可能有時(shí)返回「YES」,有時(shí)返回「NO」。Seed-Thinking-Verifier 通過深入分析答案背后的推理過程,提供一致的結(jié)果。
- 邊界情況處理失敗:Seed-Verifier 在處理某些邊界情況時(shí)表現(xiàn)不佳。Seed-Thinking-Verifier 提供詳細(xì)推理的能力使其能夠更好地應(yīng)對(duì)這些復(fù)雜場(chǎng)景。
表 1 展示了上述兩種驗(yàn)證器的性能。結(jié)果表明,Seed-Verifier 在處理某些特殊情況時(shí)效果欠佳,而 Seed-Thinking-Verifier 展現(xiàn)出提供準(zhǔn)確判斷的卓越能力。盡管后者的思維過程消耗了大量 GPU 資源,但其產(chǎn)生的精確且穩(wěn)健的獎(jiǎng)勵(lì)結(jié)果對(duì)于賦予策略強(qiáng)大的推理能力至關(guān)重要。

2、不可驗(yàn)證問題
研究團(tuán)隊(duì)為不可驗(yàn)證問題訓(xùn)練了一個(gè)強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)模型,使用與 Doubao 1.5 Pro 相同的人類偏好數(shù)據(jù),主要覆蓋創(chuàng)意寫作和摘要生成。
團(tuán)隊(duì)采用了成對(duì)生成式獎(jiǎng)勵(lì)模型,通過直接比較兩個(gè)回答的優(yōu)劣并將「是 / 否」概率作為獎(jiǎng)勵(lì)分?jǐn)?shù)。這種方法讓模型專注于回答間的實(shí)質(zhì)差異,避免關(guān)注無關(guān)細(xì)節(jié)。
實(shí)驗(yàn)表明,此方法提高了強(qiáng)化學(xué)習(xí)的穩(wěn)定性,尤其在混合訓(xùn)練場(chǎng)景中減少了不同獎(jiǎng)勵(lì)模型間的沖突,主要是因?yàn)樗芙档彤惓7謹(jǐn)?shù)的生成,避免與驗(yàn)證器產(chǎn)生顯著的分?jǐn)?shù)分布差異。
基礎(chǔ)設(shè)施
大語(yǔ)言模型強(qiáng)化學(xué)習(xí)系統(tǒng)需要強(qiáng)大基礎(chǔ)設(shè)施支持。團(tuán)隊(duì)開發(fā)的流式推演架構(gòu)通過優(yōu)先級(jí)樣本池異步處理軌跡生成,使迭代速度提升 3 倍。系統(tǒng)還支持自動(dòng)故障恢復(fù)的混合精度訓(xùn)練,確保大規(guī)模強(qiáng)化學(xué)習(xí)運(yùn)行的穩(wěn)定性。
框架
Seed-Thinking-v1.5 采用的訓(xùn)練框架是基于 HybridFlow 編程抽象構(gòu)建的。整個(gè)訓(xùn)練工作負(fù)載運(yùn)行在 Ray 集群之上。數(shù)據(jù)加載器和強(qiáng)化學(xué)習(xí)算法在單進(jìn)程 Ray Actor(單控制器)中實(shí)現(xiàn)。模型訓(xùn)練和響應(yīng)生成(rollout)在 Ray Worker Group 中實(shí)現(xiàn)。
流式 Rollout 系統(tǒng)
其 SRS 架構(gòu)引入了流式 Rollout,可將模型演化與運(yùn)行時(shí)執(zhí)行解耦,并通過參數(shù) α 動(dòng)態(tài)調(diào)整在策略和離策略的樣本比例:
- 將完成率(α ∈ [0, 1])定義為使用最新模型版本以在策略方式生成的樣本比例。
- 將剩余的未完成片段(1- α)分配給來自版本化模型快照的離策略 rollout,并通過在獨(dú)立資源上異步延續(xù)部分生成來實(shí)現(xiàn)無縫集成。
此外,該團(tuán)隊(duì)還在環(huán)境交互階段實(shí)現(xiàn)了動(dòng)態(tài)精度調(diào)度,通過后訓(xùn)練量化和誤差補(bǔ)償范圍縮放來部署 FP8 策略網(wǎng)絡(luò)。
為了解決 MoE 系統(tǒng)中 token 不平衡的問題,他們實(shí)現(xiàn)了一個(gè)三層并行架構(gòu),結(jié)合了用于分層計(jì)算的 TP(張量并行化)、具有動(dòng)態(tài)專家分配的 EP(專家并行)和用于上下文分塊的 SP(序列并行)。這樣一來,其 kernel auto-tuner 就能根據(jù)實(shí)時(shí)負(fù)載監(jiān)控動(dòng)態(tài)選擇最佳 CUDA 核配置。
訓(xùn)練系統(tǒng)
為了高效地大規(guī)模訓(xùn)練 Seed-Thinking-v1.5 模型,該團(tuán)隊(duì)設(shè)計(jì)了一個(gè)混合分布式訓(xùn)練框架,該框架集成了先進(jìn)的并行策略、動(dòng)態(tài)工作負(fù)載平衡和內(nèi)存優(yōu)化。下面詳細(xì)介紹一下其中的核心技術(shù)創(chuàng)新:
- 并行機(jī)制:該團(tuán)隊(duì) TP(張量并行)/EP(專家并行)/CP(上下文并行)與完全分片數(shù)據(jù)并行(FSDP)相結(jié)合,用于訓(xùn)練 Seed-Thinking-v1.5。具體而言,他們將 TP/CP 應(yīng)用于注意力層,將 EP 應(yīng)用于 MoE 層。
- 序列長(zhǎng)度平衡:有效序列長(zhǎng)度可能在不同的 DP 等級(jí)上不平衡,從而導(dǎo)致計(jì)算負(fù)載不平衡和訓(xùn)練效率低下。為了應(yīng)對(duì)這一挑戰(zhàn),他們利用 KARP 算法重新排列了一個(gè) mini-batch 內(nèi)的輸入序列,使它們?cè)?mini-batch 之間保持平衡。
- 內(nèi)存優(yōu)化:他們采用逐層重新計(jì)算、激活卸載和優(yōu)化器卸載來支持更大 micro-batch 的訓(xùn)練,以覆蓋 FSDP 造成的通信開銷。
- 自動(dòng)并行:為了實(shí)現(xiàn)最佳系統(tǒng)性能,他們開發(fā)了一個(gè)自動(dòng)微調(diào)系統(tǒng),稱為 AutoTuner。具體來說,AutoTuner 可按照基于配置文件的解決方案對(duì)內(nèi)存使用情況進(jìn)行建模。然后,它會(huì)估算各種配置的性能和內(nèi)存使用情況,以獲得最佳配置。
- 檢查點(diǎn):為了以最小的開銷從不同的分布式配置恢復(fù)檢查點(diǎn),該團(tuán)隊(duì)使用了 ByteCheckpoint。這能讓用戶彈性地訓(xùn)練任務(wù)以提高集群效率。
熱門跟貼