打開網(wǎng)易新聞 查看精彩圖片

作者:高恒

在模型參數(shù)的 “軍備競賽” 陷入邊際效益遞減之際,字節(jié)跳動沒走尋常路。

4月14日,字節(jié)跳動首次公開其自研思考模型Seed-Thinking v1.5的核心技術(shù)細(xì)節(jié),宣布將在17日通過火山引擎面向企業(yè)用戶開放接口。這是字節(jié)首次在大模型技術(shù)路徑上完整亮相,也是繼 “豆包” 之后,試圖打破通用模型評價體系、重塑任務(wù)定義的又一次嘗試。

不同于GPT-4、Gemini 等以超大參數(shù)模型主導(dǎo)的路線,Seed-Thinking v1.5采用了2000 億參數(shù)規(guī)模的 MoE(混合專家)架構(gòu),但僅激活其中的10%左右,即20B專家參數(shù)進(jìn)行推理。這意味著,在保持高性能的前提下,它的單位推理成本相比DeepSeek R1降低了50%,大幅拉低了通用大模型在實際使用中的成本門檻。

成本優(yōu)化只是表象。更關(guān)鍵的是,字節(jié)用Seed-Thinking v1.5向外界釋放出一個信號:國產(chǎn)大模型的競爭,已經(jīng)從全域追趕邁入了 “專精路線”的分化階段。而Seed-Thinking v1.5想做的不是 “通吃一切” 的大一統(tǒng)模型,而是 “會思考” 的差異化代表。

01·數(shù)學(xué)、編程、科學(xué)推理:構(gòu)建 AI 的 “強(qiáng)智力肌肉”

回歸大模型的能力本質(zhì),字節(jié)的思考模型強(qiáng)調(diào)的并非語言生成能力的花哨場景,而是對可驗證推理能力的深耕,即AI是否真正 “理解” 了邏輯、規(guī)則與推導(dǎo)關(guān)系。

這一技術(shù)哲學(xué)直接體現(xiàn)在評測成績上:

· 數(shù)學(xué)推理:Seed-Thinking v1.5在AIME 2024(美國高中數(shù)學(xué)競賽)中取得86.7分,與OpenAI的o3-mini-high 相當(dāng),并獨(dú)立構(gòu)建了難度更高的BeyondAIME 數(shù)據(jù)集(100道無答案題干題目),追求評測維度的 “天花板效應(yīng)” 突破。

· 編程能力:Codeforces pass@8 得分為55%,接近Gemini 2.5 Pro;不僅能解題,還能優(yōu)化算法復(fù)雜度。

· 科學(xué)推理:GPQA 得分達(dá)到77.3%,同樣進(jìn)入全球第一梯隊。

這些任務(wù)背后,有一個共同點(diǎn):結(jié)果可以被精確驗證。這也正是Seed-Thinking v1.5真正重兵布防的方向。相比于文字潤色、詩詞創(chuàng)作、圖像描述等 “軟偏好” 任務(wù),字節(jié)跳動更關(guān)注的是模型在硬邏輯任務(wù)上的極限性能和穩(wěn)定性,這不僅是通用模型泛化能力的基石,也更適合企業(yè)級應(yīng)用的落地需求。

02·MoE之后:參數(shù)不再是王道,成本效率比才是競爭核心

在OpenAI走向GPT-5的多模態(tài)躍進(jìn)之時,國內(nèi)模型廠商普遍面臨一個兩難困局:

1. 如果繼續(xù) “拉參數(shù)、卷規(guī)?!?/strong>,云計算和算力成本將進(jìn)一步壓垮商業(yè)化路徑;

2. 如果保守壓縮模型,能力容易陷入 “知識貧瘠” 和 “邏輯跳躍” 的中庸陷阱。

而字節(jié)跳動選擇了MoE架構(gòu)這條并不新、但難度極高的 “中間道路”:既保留超大模型的知識表示能力,又通過動態(tài)激活極少專家,完成 “精而不弱” 的推理執(zhí)行。

通過張量并行、專家并行、序列并行組成的三層分布式架構(gòu),Seed-Thinking v1.5在萬億參數(shù)下實現(xiàn)了接近 95% 的訓(xùn)練穩(wěn)定性;結(jié)合 KARP 算法動態(tài)分配 GPU 負(fù)載,其推理資源效率在大模型圈內(nèi)首次達(dá)到了 “高可控+高經(jīng)濟(jì)性” 的平衡點(diǎn)。

底層的流式推理系統(tǒng)(SRS)和HybridFlow 編程框架也成為這一代模型的加速引擎,不僅支持異步推理與模型演進(jìn)解耦,還實現(xiàn)了訓(xùn)練效率的3倍提升,為未來自演化模型預(yù)留了技術(shù)接口。

在推理成本逐步?jīng)Q定大模型商業(yè)化邊界的今天,這場架構(gòu)路線的選擇,或許比模型分?jǐn)?shù)更能決定勝負(fù)。

03·雙軌訓(xùn)練:可驗證與不可驗證任務(wù)的 “范式分流”

傳統(tǒng)大模型訓(xùn)練流程中,所有數(shù)據(jù)幾乎一視同仁。但在字節(jié)跳動看來,“硬對錯” 和 “軟偏好” 本質(zhì)上不該混為一談,評估與獎勵體系也必須分別演化。

于是,Seed-Thinking v1.5首次提出了 “雙軌訓(xùn)練獎勵機(jī)制”:

· 對于數(shù)學(xué)、代碼等可驗證任務(wù),引入Seed-Verifier 2.0評估器,放棄了字符級匹配,轉(zhuǎn)而使用 “推理過程對齊” 機(jī)制來識別模型是否真正理解了問題,從而避免獎勵欺騙。

· 對于創(chuàng)意寫作、問答等軟性任務(wù),則使用pairwise對比方法,通過千萬次 A/B 測試捕捉人類情感偏好,彌補(bǔ)指標(biāo)缺失。

更關(guān)鍵的是,在混合任務(wù)場景下,字節(jié)跳動并未采取簡單加權(quán)平均策略,而是開發(fā)了一套任務(wù)類型識別機(jī)制,實現(xiàn)硬指標(biāo)與軟偏好之間的協(xié)調(diào) —— 這讓模型能更靈活地在 “絕對正確” 與 “相對優(yōu)秀” 之間切換語言模式 。

此外,其監(jiān)督微調(diào)(SFT)訓(xùn)練數(shù)據(jù)中30萬條為高質(zhì)量、可驗證實例,剩余10萬條為人工優(yōu)選創(chuàng)意數(shù)據(jù)。這一比例本身也透露了模型設(shè)計的目標(biāo)方向 —— 強(qiáng)調(diào)思維與過程,而非單純的語言 “漂亮話”。

04·字節(jié)的 “大模型方法論”:行業(yè)化、任務(wù)化、模塊化

Seed-Thinking v1.5的落地,某種意義上不是為了比肩GPT-4這樣的超級模型,而是試圖為 “模型細(xì)分場景化” 做出一種范式定義。

這種范式包含三重路徑:

· 行業(yè)化:通過在火山引擎開放接口,推動其在教育、醫(yī)療、金融等 “可驗證任務(wù)密集型” 行業(yè)率先落地;

· 任務(wù)化:將通用大模型拆解成模塊化組件,用更低成本滿足垂類需求,逐步構(gòu)建 “多任務(wù)共生模型” 體系;

· 模塊化:依托 MoE 架構(gòu)和流式推理機(jī)制,實現(xiàn)模型組件化、可組合、可升級,適配不同場景與算力環(huán)境。

與其說字節(jié)在造一個萬能的大腦,不如說它在構(gòu)建一個可控的、分布式的 “思維工廠”。在這里,每一道邏輯,每一次決策,都是在計算效率與思維路徑之間反復(fù)權(quán)衡后的產(chǎn)物。

寫在最后:參數(shù)時代的終結(jié),AI 進(jìn)入 “成本約束下的智能戰(zhàn)”

在通用大模型不斷拔高天花板之時,字節(jié)跳動用Seed-Thinking v1.5重新定義了 “模型能力” 的維度邊界:不是跑分最強(qiáng)、不是對話最順,而是最懂得 “任務(wù)分層” 和 “資源利用效率” 的那一個。

這是一次AI范式的調(diào)整:從算力驅(qū)動,走向效率導(dǎo)向;從一體化模型,走向模塊化系統(tǒng);從語言對齊,走向推理對齊。

也許未來的大模型之戰(zhàn),拼的不是誰更 “聰明”,而是誰能以更低成本、更高可靠性,把 “聰明” 變成落地價值。而這一輪產(chǎn)業(yè)升級的節(jié)奏,Seed-Thinking v1.5已經(jīng)開始奏響。