明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
千億參數(shù)內最強推理大模型,剛剛易主了。
32B——DeepSeek-R1的1/20參數(shù)量;免費商用;且全面開源——模型權重、訓練數(shù)據(jù)集和完整訓練代碼,都開源了
這就是剛剛亮相的Skywork-OR1 (Open Reasoner 1)系列模型
通用32B尺寸(Skywork-OR1-32B)完全超越同規(guī)模阿里QwQ-32B;代碼生成媲美DeepSeek-R1,但性價比更高。

△Skywork-OR1-32B-Preview
數(shù)學推理方面:7B、32B都達到同規(guī)模最優(yōu),數(shù)學專項模型(Skywork-OR1-Math-7B)表現(xiàn)更突出。

Skywork,天工是也,來自AIGC巨頭玩家昆侖萬維。
Skywork-OR1系列模型現(xiàn)已全面開源,模型權重、訓練數(shù)據(jù)集和完整訓練代碼,所有資源均已上傳至GitHub和Huggingface平臺。配套的技術博客已發(fā)布于Notion平臺,詳細闡述了數(shù)據(jù)處理流程、訓練方法和關鍵技術發(fā)現(xiàn),為社區(qū)提供了完全可復現(xiàn)的實踐參考。
- Skywork-OR1系列開源地址:https://github.com/SkyworkAI/Skywork-OR1 (包含模型,代碼,數(shù)據(jù))
- 昆侖萬維天工團隊更多開源項目:https://huggingface.co/Skywork
目前Skywork-OR1-7B和Skywork-OR1-32B的能力還在持續(xù)提升,在兩周內會發(fā)布兩個模型的正式版本,同時也會推出更為系統(tǒng)詳盡的技術報告,分享推理模型訓練中的經(jīng)驗與洞察。
3款模型全量開源
Skywork-OR1 (Open Reasoner 1)系列開源共有3款模型:
- Skywork-OR1-Math-7B:專注數(shù)學領域的專項模型,同時也具有較強的代碼能力。
- Skywork-OR1-7B-Preview:融合數(shù)學與代碼能力,兼顧通用與專業(yè)性
- Skywork-OR1-32B-Preview:面向高復雜度任務、具備更強推理能力的旗艦版本
團隊對比了Skywork-OR1系列在AIME24、AIME25、LiveCodeBench上的表現(xiàn)。
AIME24/25是美國數(shù)學邀請賽基準測試,LiveCodeBench主要評估大語言模型代碼生成和編程能力。
在評測方面,Skywork-OR1系列模型引入avg@k作為核心評估指標,用于衡量模型在進行k次嘗試時成功解決問題的平均表現(xiàn)
傳統(tǒng)的pass@k指標僅關注“至少一次成功”,相對而言avg@k更關注模型的穩(wěn)定性和整體推理能力,為模型實際落地提供更全面真實的參考。

在數(shù)學方面,通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-Preview在AIME24與AIME25數(shù)據(jù)集上均實現(xiàn)了同參數(shù)規(guī)模下最優(yōu)表現(xiàn),32B整體表現(xiàn)基本與DeepSeek-R1齊平。
編程方面,通用模型Skywork-OR1-7B-Preview與Skywork-OR1-32B-Preview在LiveCodeBench上均取得了同等參數(shù)規(guī)模下的最優(yōu)性能。
整體而言,Skywork-OR1-32B-Preview甚至與DeepSeek-R1的差距非常微小。要知道后者的參數(shù)規(guī)模是前者的20倍,這意味著Skywork-OR1能帶來更具性價比的性能表現(xiàn)。
由此綜合來看,Skywork-OR1-32B-Preview成為當前同規(guī)模最強中文推理模型,也是現(xiàn)役支持免費商用的模型中最強且最具性價比的成員之一。
此外,數(shù)學專項模型Skywork-OR1-Math-7B在AIME24/25的表現(xiàn)遠超當前主流7B級模型,甚至接近蒸餾版Deepseek-32B模型同等水平(DeepSeek-R1-Distill-Qwen-32B)。
如下為該模型在AIME24上的訓練準確率曲線。

最終模型在AIME24和AIME25上分別達到69.8%和52.3%,超越了OpenAI-o3-mini (low),達到了當前尺寸SOTA性能。與此同時,該專項模型在代碼領域也表現(xiàn)出了較好的泛化性(訓練后,Livecodebench從37.6%提升到43.6%)。

△OpenAI-o3-mini(low)的AIME24分數(shù)來自官網(wǎng),AIME25分數(shù)來自評測網(wǎng)站https://matharena.ai/
去年11月,昆侖萬維發(fā)布國內首款中文復雜推理模型Skywork-o1,Skywork-OR1系列模型正是在此基礎上迭代而來。
不同于簡單復刻OpenAI o1模型,Skywork-o1內生出了思考、計劃、反思等能力。它共包括三款模型Skywork-o1-Open、SI’m kywork-o1-Lite和Skywork-o1-Preview,分別適用于不同的應用場景,可以滿足開源到高性能推理的多樣化需求。
Skywork-OR1系列站在Skywork-o1的肩膀上有了更強基座,但想要如此強大,也離不開一系列先進技術加持。
背后秘訣:AGI技術洞藏,訓練效率提升50%
Skywork-OR1在數(shù)據(jù)處理、訓練策略等方面都做了進一步創(chuàng)新。
首先在數(shù)據(jù)方面。
為提升模型在數(shù)學和代碼方面能力,Skywork-OR1構建了一個高質量數(shù)學和代碼數(shù)據(jù)集。
團隊設計了三個標準進行數(shù)據(jù)篩選:可驗證性(Verifiable)、正確性(Correct)與挑戰(zhàn)性(Challenging),剔除無法自動驗證的證明類題目、有誤題目、和缺少unit test的代碼問題。
數(shù)學領域共計收集11萬道題目,主要依賴NuminaMath-1.5(含約89.6萬題),選用如AIME和Olympiads等較難子集,并補充了如DeepScaleR、Omni-MATH、AIME 1983-2023難題來源。
代碼領域收集了13.7k條高質量代碼問題,主要以LeetCode和TACO數(shù)據(jù)為主,保留了單元測試完整、驗證通過的問題,并進行向量級語義去重。
在數(shù)據(jù)過濾部分,團隊對每道題進行了多輪采樣并驗證答案,以避免“全對”或“全錯”現(xiàn)象對策略學習無效——模型生成全部錯誤,無法提供有效的學習信號;“全對”意味著模型已完全掌握,繼續(xù)學習會浪費計算資源。
并通過人類審核結合LLM自動判題機制,對語義不清、信息不全、格式錯誤或含有無關內容的項目進行清理。使用LLM-as-a-Judge剔除掉約1-2K道質量不達標的數(shù)學題。
其次在強化學習部分,Skywork-OR1使用GRPO(Group Relative Policy Optimization)進行訓練,并引入一系列優(yōu)化策略。
在訓練時數(shù)據(jù)優(yōu)化上,一方面采用雙重過濾策略:
- 離線過濾:訓練前使用待訓練模型評估數(shù)據(jù),剔除正確率為0或1的樣本;
- 在線過濾:每個epoch動態(tài)移除上一輪已完全掌握的數(shù)據(jù),確保模型持續(xù)面對有挑戰(zhàn)性的內容。
另一方面使用拒絕采樣(Rejection Sampling)進行更精細的實時篩選,在每個訓練步驟中動態(tài)剔除當前訓練步中采樣正確率為0或1的樣本。這樣可以維持policy loss、entropy loss和KL loss的合理比例,防止非policy loss比重異常增加導致的訓練不穩(wěn)定。
在訓練Pipeline優(yōu)化上主要做了兩方面的探索。
(1)多階段訓練(Multi Stage Training):從小窗口開始,逐步增加上下文長度(seq_len),可以促使模型在有限token內高效完成任務;隨后逐步擴展窗口大小,迭代增加生成長度,使模型逐漸掌握更復雜的長鏈思維能力。實驗證明,多階段訓練能顯著縮短訓練時間,同時完全保持模型的長度擴展能力。
(2)截斷優(yōu)勢掩碼(Truncated Advantage Mask):在多階段訓練初期,由于上下文窗口限制,復雜問題的回答可能被截斷。因此團隊研究了兩種處理窗口限制下截斷樣本的策略Adv-Mask Before(計算優(yōu)勢前排除截斷樣本)和Adv-Mask After(計算后將截斷樣本優(yōu)勢置零)。證明即使不屏蔽截斷樣本,模型也能有效適應并迅速提升性能,也證明多階段訓練框架的魯棒性。
此外,在強化學習訓練中還要保障模型的探索能力。
團隊進行了三方面探索。
第一,高溫度采樣。采用τ=1.0(高于常見的0.6)維持更高群組內多樣性,既保證足夠正確樣本提供學習信號,又允許模型探索更廣泛解決路徑。
第二,提升內在訓練多樣性。通過精細數(shù)據(jù)過濾、增加批量大小和減少數(shù)據(jù)重復使用,可以從源頭上防止模型過早優(yōu)化到單一輸出方向,同時也保持較高熵值,避免局部最優(yōu)。
第三,自適應熵控制。只有在熵值低于閾值時才提供熵增加鼓勵,設定目標熵值并動態(tài)調整損失系數(shù),同時最小化對正常訓練軌跡的干擾。
最后在保障強化學習訓練的穩(wěn)定性,團隊對損失函數(shù)進行優(yōu)化。
第一,移除KL損失。研究中發(fā)現(xiàn)即使基于高質量SFT模型訓練,KL損失仍限制性能提升。因此,除特定階段外,團隊在所有公開發(fā)布的Skywork-OR1系列模型中均未使用KL損失項,這使模型能夠更充分地探索和優(yōu)化推理能力。
第二,token級策略損失。移除了策略損失中的長度歸一化項,并將損失在訓練批次內的所有token上進行平均,以提升優(yōu)化過程的一致性與穩(wěn)定性。
(更多技術細節(jié)和實驗對比可以參照技術博客https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reaonser-Series-1d0bc9ae823a80459b46c149e4f51680,或繼續(xù)關注后續(xù)發(fā)布的技術報告。)
在此訓練策略下,Skywork-OR1-7B和Skywork-OR1-32B-Preview通用推理模型仍處于持續(xù)提升狀態(tài),本次開源是當前訓練過程中性能最佳的checkpoint。
預計兩周后,具備更全面能力提升及更強大推理能力的Skywork-OR1正式版本將與大家見面,同樣全面開源。
Hugging Face單月下載量超7萬
自2023年以來,在全面擁抱AIGC后,昆侖萬維一直堅持開源,推動技術平權。代表性動作包括:
- 2023年:開源百億級大語言模型Skywork-13B系列及600GB高質量數(shù)據(jù)集。
- 2024年:陸續(xù)開源數(shù)字智能體研發(fā)工具包AgentStudio、4000億參數(shù)MoE超級模型、Skywork-MoE、 Skywork-RM/PRM,Skywork-o1。
今年以來,開源的頻率變得更高。第一季度開源動作包括:
- 面向AI短劇生成的視頻生成模型SkyReels-V1:下載量周榜前十
- R1V視覺思維鏈推理模型:單月下載8.75k
- Skywork-OR1新系列:長思維鏈推理模型。
不難發(fā)現(xiàn),昆侖萬維開源全面且徹底,同時兼顧產(chǎn)業(yè)需求。
一方面,它的基礎模型布局非常全面,覆蓋AIGC全領域,文生文、文生視頻、文生音樂等。
另一方面,這些模型從底層設計上即考慮了實際落地的需求。提供更高性價比、更節(jié)省算力,如SkyReels-V1則是看到了垂直領域的落地前景,模型下載量迅速增長也驗證了這一市場需求。
最關鍵的是,這些模型的開源程度也相當徹底,十分利于開發(fā)者使用。
在Hugging Face上,昆侖萬維開源模型的下載量相當可觀,累計上月下載量超過7萬。

△部分展示
如今,底層模型競爭日趨白熱化,全球AI領域正以驚人的速度迭代演進,幾乎每個月都有值得關注的模型發(fā)布,這種創(chuàng)新密度前所未有。
作為國內最早All in AIGC賽道的先行者之一,昆侖萬維自2023年起便構建了全方位的前沿布局:從基礎大模型到垂直應用,從技術研發(fā)到生態(tài)建設。尤其值得注意的是,昆侖萬維持續(xù)為開發(fā)者社區(qū)提供高質量的模型和工具鏈,這種堅持普惠的技術理念也為其提供了獨特競爭力。
當前,開源生態(tài)正展現(xiàn)出前所未有的活力。
這些開源創(chuàng)新正快速滲透到互聯(lián)網(wǎng)、制造業(yè)、醫(yī)療、教育等領域,推動著AI技術真正實現(xiàn)規(guī)?;涞亍T谶@一進程中,以昆侖萬維為代表的開源踐行者的每一步探索,都將深刻影響AI產(chǎn)業(yè)的發(fā)展軌跡。
據(jù)說Skywork-OR1正式版,也已經(jīng)快馬加鞭,即將對外發(fā)布。
Skywork開源系列(2025)傳送門:
1、中文推理模型Skywork-OR1:
https://github.com/SkyworkAI/Skywork-o1
2、視覺思維鏈推理模型Skywork-R1V:
https://github.com/SkyworkAI/Skywork-R1V
3、AI短劇生成模型SkyReels-V1:
https://github.com/SkyworkAI/SkyReels-V1
熱門跟貼