繼2025年2月發(fā)布首款中文邏輯推理大模型Skywork-o1之后,昆侖萬維天工團隊在此基礎上持續(xù)迭代優(yōu)化,4月13日,重磅推出全新升級的Skywork-OR1(OpenReasoner1)系列模型。
該系列在同等參數(shù)規(guī)模下實現(xiàn)了業(yè)界領先的推理性能,進一步突破了大模型在邏輯理解與復雜任務求解方面的能力瓶頸。同時,Skywork-OR1全面開放、免費使用,以完全開源的形式回饋開發(fā)者社區(qū),堅定踐行天工團隊在推動AI技術發(fā)展上的開源路線。
此次開源涵蓋三款高性能模型,包括:Skywork-OR1-Math-7B:聚焦數(shù)學領域的專項模型,同時也具有較強的代碼能力。
- Skywork-OR1-7B-Preview:融合數(shù)學與代碼能力、兼具通用性與專業(yè)性的通用模型。
- Skywork-OR1-32B-Preview:面向更高復雜度任務、具備更強推理能力的旗艦版本。
此次發(fā)布的Skywork-OR1系列采用業(yè)界最高透明度的開源策略:不同于其他前沿開源推理模型僅開放模型權重,我們?nèi)骈_源了模型權重、訓練數(shù)據(jù)集和完整訓練代碼,所有資源均已上傳至GitHub和Huggingface平臺。
配套的技術博客已發(fā)布于Notion平臺,詳細闡述了數(shù)據(jù)處理流程、訓練方法和關鍵技術發(fā)現(xiàn),為社區(qū)提供了完全可復現(xiàn)的實踐參考。
目前Skywork-OR1-7B和Skywork-OR1-32B的能力還在持續(xù)提升,在兩周內(nèi)我們還會發(fā)布兩個模型的正式版本,同時也會推出更為系統(tǒng)詳盡的技術報告,進一步分享我們在推理模型訓練中的經(jīng)驗與洞察。我們相信,這種全方位的開源策略將有助于推動整個AI社區(qū)在推理能力研究上的共同進步。
Skywork-OR1系列開源地址:
https://github.com/SkyworkAI/Skywork-OR1
昆侖萬維天工團隊更多開源項目:
https://huggingface.co/Skywork
01模型開源與評測
在評測方面,Skywork-OR1系列模型引入了avg@k作為核心評估指標,用于衡量模型在進行k次嘗試時成功解決問題的平均表現(xiàn)。相較于傳統(tǒng)的pass@k指標僅關注是否“至少一次成功”,avg@k能更細致地捕捉模型在多輪生成過程中的穩(wěn)定性與整體推理能力,從而更全面反映其真實性能水平與實用價值。

在數(shù)學推理任務中:通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24與AIME25數(shù)據(jù)集上均實現(xiàn)了同參數(shù)規(guī)模下的最優(yōu)表現(xiàn),展現(xiàn)出強大的數(shù)學推理能力。
- 針對數(shù)學場景深度優(yōu)化的專項模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分別取得69.8與52.3的高分,遠超當前主流7B級別模型,充分驗證了其在高階數(shù)學推理任務中的專業(yè)優(yōu)勢。
- Skywork-OR1-32B-Preview在所有benchmark上均實現(xiàn)了對QwQ-32B的超越,并在更難的AIME25上基本與R1持平。
在競賽編程任務中:通用模型Skywork-OR1-7B-Preview與Skywork-OR1-32B-Preview在LiveCodeBench數(shù)據(jù)集上均取得了同等參數(shù)規(guī)模下的最優(yōu)性能。
- Skywork-OR1-32B-Preview表現(xiàn)尤為突出,其代碼生成與問題求解能力已接近DeepSeek-R1(參數(shù)規(guī)模高達671B),在大幅壓縮模型體量的同時實現(xiàn)了卓越的性價比,充分展現(xiàn)出天工團隊訓練策略的先進性。
其中Skywork-OR1-Math-7B表現(xiàn)尤為亮眼,作為一個專注于數(shù)學推理能力的7B參數(shù)模型,通過多階段GRPO訓練在復雜數(shù)學問題上實現(xiàn)了卓越表現(xiàn),同時在代碼任務上也有較強的泛化能力。下圖是該模型在AIME24上的訓練準確率曲線,清晰呈現(xiàn)了多階段訓練過程中性能的穩(wěn)定提升軌跡。
Skywork-OR1-Math-7B最終模型在AIME24和AIME24上分別達到69.8%和52.3%,超越了OpenAI-o3-mini(low),達到了當前尺寸SOTA性能。值得注意的是,盡管該模型訓練過程中未專門針對代碼能力進行優(yōu)化,但在代碼評測基準上Livecodebench從37.6%提升到43.6%,相比基線模型的顯著提升,這也表明我們的訓練方法具有較好的領域泛化性。

02技術亮點
Skywork-OR1系列模型在數(shù)學推理與代碼生成任務上實現(xiàn)的顯著性能突破,離不開天工團隊在模型后訓練階段的長期自研積累與技術深耕。更多實驗設置可參考我們的技術博客,以下為Skywork-OR1的核心技術要點:
首先在數(shù)據(jù)選擇和預處理方面,Skywork-OR1構建了一個高質(zhì)量數(shù)學和代碼數(shù)據(jù)集,用于強化學習以提升模型在數(shù)學和代碼領域的推理能力。我們采用嚴格篩選和評估機制,構建高質(zhì)量強化學習訓練集。
團隊主要根據(jù)三個標準進行初步數(shù)據(jù)篩選:可驗證性(Verifiable)、正確性(Correct)與挑戰(zhàn)性(Challenging),剔除無法自動驗證的證明類題目、有誤題目、和缺少unittest的代碼問題。
數(shù)學領域主要依賴NuminaMath-1.5(含約89.6萬題),選用如AIME和Olympiads等較難子集,并補充了如DeepScaleR、Omni-MATH、AIME1983-2023難題來源,總計約11萬道數(shù)學題目。在代碼領域,我們以LeetCode和TACO數(shù)據(jù)為主,保留了單元測試完整、驗證通過的問題,并進行向量級語義去重,最終獲得13.7K條高質(zhì)量代碼問題。
其次在數(shù)據(jù)過濾方面,為避免“全對”或“全錯”現(xiàn)象對策略學習無效,每道題進行了多輪采樣并驗證答案,并基于模型表現(xiàn)過濾難度極端的題目。在數(shù)據(jù)收集和整理過程中,我們還發(fā)現(xiàn)很多數(shù)學題存在不完整或格式不正確的問題。
為了進一步提升數(shù)學數(shù)據(jù)質(zhì)量,我們還通過人類評審結合LLM自動判題機制,對語義不清、信息不全、格式錯誤或含有無關內(nèi)容的題目進行清理。使用LLM-as-a-Judge的方式,對每題進行32次打分,設定投票門檻,剔除掉約1-2K道質(zhì)量不達標的數(shù)學題。整體流程體現(xiàn)了我們在數(shù)據(jù)質(zhì)量、模型難度匹配與效率間的深度平衡。
此外,Skywork-OR1采用了GroupRelativePolicyOptimization(GRPO)進行模型訓練,并引入了以下優(yōu)化:
1.訓練時數(shù)據(jù)優(yōu)化
Offline&OnlineFiltering:我們對采集的數(shù)據(jù)實施了雙重過濾機制,以優(yōu)化訓練效果。在訓練前(離線過濾)階段,我們利用待訓練模型對數(shù)據(jù)進行正確性評估,精確剔除了正確率為0(完全錯誤)和1(完全正確)的樣本,確保初始訓練集具有學習價值。
在訓練過程中(在線過濾),我們實現(xiàn)了動態(tài)數(shù)據(jù)篩選策略——每個epoch開始時,自動將上一個epoch模型已完全掌握(全部答對)的數(shù)據(jù)從訓練集中移除。這種漸進式過濾機制確保了模型始終面對具有學習挑戰(zhàn)的數(shù)據(jù),最大化了有效梯度的比例,從而提高訓練效率和模型性能。
RejectionSampling:在GRPO訓練實施過程中,我們引入了精細化的樣本篩選機制,動態(tài)剔除當前訓練步驟中采樣正確率為0或1的樣本。這些邊界樣本的policyloss為零,在包含entropyloss或KLloss的訓練設置下,會導致非policyloss的比重不當增加,從而引發(fā)訓練不穩(wěn)定性。
例如,在啟用entropyloss的情況下,這種失衡可能導致entropy值異常攀升。通過實時rejectionsampling,我們有效維持了各損失函數(shù)間的原始比重,確保訓練過程的穩(wěn)定性和收斂質(zhì)量。
2.訓練Pipeline優(yōu)化
MultiStageTraining:整體訓練流程上,我們采用迭代增加上下文窗口長度(seq_len)的策略,將訓練過程分為多個階段。這種方法首先在較小窗口下訓練,促使模型學會在有限token內(nèi)高效完成任務,顯著提高token效率;隨后逐步擴展窗口大小,迭代增加生成長度,使模型逐漸掌握更復雜的長鏈思維能力。
實驗證明,多階段訓練能大規(guī)??s短訓練時間,同時完全保持了模型的長度擴展能力。這種漸進式訓練方法既確保了計算效率,又不犧牲模型在復雜問題上的推理深度。
TruncatedAdvantageMask:在多階段訓練初期,由于上下文窗口限制,復雜問題的回答可能被截斷。關于是否使用這些樣本進行訓練,我們研究了兩種處理策略:Adv-MaskBefore(計算優(yōu)勢前排除截斷樣本)和Adv-MaskAfter(計算后將截斷樣本優(yōu)勢置零)。
實驗表明,這些策略能緩解響應長度衰減,但在我們的訓練框架下,即使不屏蔽截斷樣本,模型也能有效適應長度限制并在進入下一階段時迅速提升性能。雖然屏蔽有助于保持更好的test-timescaling能力,但在最大長度評估下并未有端到端性能提升,這也證明我們的多階段訓練方法具有較強魯棒性。
3.訓練時模型探索
在強化學習訓練中,保持模型的探索能力是提升性能的關鍵因素。我們將模型輸出的熵(Entropy)作為模型輸出多樣性和探索能力的一個近似指標,通過它來觀測模型的探索能力。我們的探索控制方法主要分為兩大類:一類是通過增強內(nèi)在訓練多樣性,使模型不易優(yōu)化到單一輸出方向,減緩熵衰減的速度;另一類是通過外在引導機制直接增加模型輸出多樣性,如強化學習中常見的熵損失?;谶@一分類,我們實施了多層次的探索控制策略。
HigherTemperature:在強化學習采樣時,我們采用了較高的采樣溫度τ=1.0(相比常見的0.6),以增強模型的探索能力。在GRPO框架下,我們觀察到低溫度采樣會導致模型迅速進入低熵狀態(tài),策略更新過度集中于特定token。相比之下,τ=1.0維持了更高的群組內(nèi)多樣性,既保證了足夠的正確樣本提供學習信號,又允許模型探索更廣泛的解決路徑,在我們的對比實驗中展現(xiàn)出更優(yōu)的性能表現(xiàn)。
EnhancingInternalTrainingDiversity:除了temperature之外,我們還發(fā)現(xiàn)通過精細的數(shù)據(jù)過濾、增加批量大小和減少數(shù)據(jù)重復使用等方法,可以通過增加數(shù)據(jù)多樣性方法間接增加訓練內(nèi)在多樣性,從源頭上防止模型優(yōu)化到單一輸出方向。這些措施使模型能在更長時間內(nèi)維持較高的熵值,實現(xiàn)了在保持較高探索性的同時達到同等準確率的優(yōu)勢效果,有效避免了過早陷入局部最優(yōu)。
AdaptiveEntropyControl:除了上述方法外,我們還提出了自適應熵控制(AdaptiveEntropyControl)方法作為額外的探索引導機制。盡管初期實驗中發(fā)現(xiàn)傳統(tǒng)的固定系數(shù)熵損失在參數(shù)較好的情況下能取得較好的提升,但其對訓練數(shù)據(jù)和超參數(shù)極為敏感——此前調(diào)整好的參數(shù)在后續(xù)切換數(shù)據(jù)或修改其他超參數(shù)的實驗中可能導致訓練崩潰。結合前述的多樣性控制策略,我們采取了更為謹慎的熵控制方法:只有當熵值下降到預設閾值以下時才提供熵增加的鼓勵。通過設定目標熵值并動態(tài)調(diào)整熵損失系數(shù),我們專注于防止熵值降至特定下界,同時最小化對正常訓練軌跡的干擾。
整體而言,我們認為應當更側重在內(nèi)在層面增加訓練多樣性,減少人為對訓練進程的干擾,從而保證訓練的可擴展性。
4.訓練Loss優(yōu)化
為提升強化學習訓練的穩(wěn)定性,我們對GRPO的損失函數(shù)進行了改進與優(yōu)化。
NoKLloss:近期不少從base模型開始訓練的推理模型,由于base模型輸出模式較差,自然地放棄了KL損失項。然而,對于基于精細構造的coldstartSFT模型進行訓練的情況,是否采用KL損失的研究相對較少。在我們的實驗中,我們發(fā)現(xiàn)即使是從高質(zhì)量SFT模型出發(fā),KL損失項仍會限制模型性能的進一步提升,強制將actor模型約束在原始分布附近。因此,除特定階段外,我們在所有公開發(fā)布的Skywork-OR1系列模型中均未使用KL損失項,這使模型能夠更充分地探索和優(yōu)化推理能力。
Token-levelpolicyloss:為消除原始GRPO中對生成長度的隱性偏好,我們移除了策略損失中的長度歸一化項,并將損失在訓練批次內(nèi)的所有token上進行平均,以提升優(yōu)化過程的一致性與穩(wěn)定性。
更多技術細節(jié)和實驗對比可以參照我們的技術博客:
https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reaonser-Series-1d0bc9ae823a80459b46c149e4f51680,或繼續(xù)關注后續(xù)發(fā)布的技術報告。
03堅定開源
自2023年以來,昆侖萬維堅定地開源大模型回饋開發(fā)者和行業(yè)。截至目前在HuggingFace上已上傳22個模型、6個數(shù)據(jù)集,收獲了開發(fā)者社區(qū)的好評。
2025年開源的Skywork-R1V多模態(tài)視覺推理模型、SkyReels-V1面向AI短劇創(chuàng)作的視頻生成模型、Skywork-o1推理模型以及2024年開源的Skywork-Reward獎勵模型,不僅在HuggingFace上下載數(shù)據(jù)表現(xiàn)亮點,開發(fā)者討論度和模型熱度依然居高不下。

來源:https://huggingface.co/Skywork
當前,全球人工智能領域的競爭日趨激烈,競賽的焦點正逐步從基礎模型能力擴展到推理能力的比拼。AI大模型能否有效模仿人類的思維過程、具備邏輯推理和復雜任務的求解能力,已成為衡量技術先進性與通用智能潛力的關鍵指標。
在此背景下,為打破科技巨頭對核心AI大模型技術的壟斷壁壘,推動技術自主可控發(fā)展,中國多家企業(yè)紛紛投身于開源大模型生態(tài)的建設。未來,昆侖萬維仍繼續(xù)秉持“AllinAGI與AIGC”戰(zhàn)略、“實現(xiàn)通用人工智能,讓每個人更好地塑造和表達自我”的使命,持續(xù)加大在通用大模型、開源框架和推理能力提升等方向的研究投入,力求在全球AI技術浪潮中搶占先機、塑造競爭優(yōu)勢。
熱門跟貼