4月20日,科大訊飛深度推理大模型——訊飛星火X1迎來全新升級。作為當前業(yè)界唯一基于全國產(chǎn)算力訓練的深度推理大模型,升級后的星火X1在數(shù)學、代碼、邏輯推理、文本生成、語言理解、知識問答等通用任務上效果顯著提升,在模型參數(shù)比業(yè)界同類模型小一個數(shù)量級的情況下,整體效果對標OpenAI o1和DeepSeek R1,再次證明了基于國產(chǎn)算力訓練的全棧自主可控大模型具備登頂業(yè)界最高水平的實力和持續(xù)創(chuàng)新的潛力。

星火X1除了在常見通用任務取得顯著進步之外,由于融入了更多場景復雜類型數(shù)據(jù),模型的泛化性也取得了進步,多個行業(yè)任務上展現(xiàn)出了業(yè)界領(lǐng)先的能力。在重點行業(yè)如教育、醫(yī)療、司法等進一步擴大了領(lǐng)先優(yōu)勢。
面向企業(yè)和廣大開發(fā)者,訊飛星火X1首發(fā)“快思考、慢思考統(tǒng)一模型”,全新升級模型定制優(yōu)化工具鏈,進一步降低大模型私有化部署和定制門檻;同時,訊飛星火X1 API已上線訊飛開放平臺開放服務,作為首個支持全國產(chǎn)算力微調(diào)的推理大模型,訊飛星辰MaaS平臺同步上線了星火X1微調(diào)服務。
訊飛星火X1全面升級,通用能力比肩國際頂尖模型水平
升級后的星火X1在多個任務上效果繼續(xù)突破,展現(xiàn)出優(yōu)異的性能。根據(jù)最新測試集評測結(jié)果,星火X1在通用任務效果評測中全面對標OpenAI o1和DeepSeek R1,在數(shù)學、知識問答等方面表現(xiàn)突出。

※測試集合來源:自建測試集主要來自真實的大模型請求任務數(shù)據(jù),來源分布包括訊飛星火APP、星火大模型API、業(yè)界主流任務數(shù)據(jù)等;公開測試集主要以數(shù)學、答題、推理、代碼等外部典型測試集為主。
數(shù)學答題和復雜的數(shù)理邏輯推理方面,星火X1能夠準確識別出復雜的數(shù)學公式,不僅給出完整的解題思路,輸出結(jié)果也嚴謹清晰;在邏輯推理時全方位思考,思考可能出現(xiàn)的每一種假設,表現(xiàn)出更強的嚴謹性和準確性。代碼能力上,星火X1不僅提高了代碼生成的準確率,對生成代碼邏輯理解也進一步提升,能夠應對更復雜的編程需求,思考問題的多種可能性,幫助開發(fā)者快速實現(xiàn)功能。在語言理解方面,模型輸出內(nèi)容、格式更加符合用戶指令要求,能夠給到更加準確且深度思考的結(jié)果,生成內(nèi)容更加連貫、準確。
此外,星火X1的長思維鏈能力支持圖像輸入,可以對輸入的圖像進行關(guān)聯(lián)思考,對于圖像中的多種復雜元素,探究可能的含義和目的,進行更深層次的信息整合和推理。
多個行業(yè)任務業(yè)界領(lǐng)先,訊飛星火X1部署更簡便,定制門檻更低
本次星火X1升級不僅提升了通用能力,也同步增強了面向行業(yè)的解決方案能力,助力產(chǎn)業(yè)智能化轉(zhuǎn)型。由于融入了更多場景復雜類型數(shù)據(jù),模型的泛化性也取得了進步,多個行業(yè)任務上展現(xiàn)出了業(yè)界領(lǐng)先的能力。在重點行業(yè),如教育、醫(yī)療、司法等進一步擴大了領(lǐng)先優(yōu)勢。以司法行業(yè)為例,對于行業(yè)專業(yè)需求,例如根據(jù)材料總結(jié)案件事實以及判決理由,升級后的星火X1能夠精準把握用戶指令,詳細分析爭議點,快速定位關(guān)鍵信息,并輸出準確內(nèi)容,為行業(yè)用戶提供專業(yè)、可靠的智能支持。

※測試集合來源:真實場景測試集。
值得一提的是,全新升級的訊飛星火X1在行業(yè)實際應用中具有顯著優(yōu)勢。
在技術(shù)創(chuàng)新和模型部署方面,星火X1首發(fā)“快思考、慢思考統(tǒng)一模型”,由一個模型同時支持兩種思考模式,提升了模型處理不同復雜度任務的能力,滿血版星火X1僅需4張卡(華為910B)即可部署,簡化了私有化部署流程。
同時,星火X1還全新升級了模型定制優(yōu)化工具鏈,支持SFT(監(jiān)督微調(diào))、強化學習兩種模型定制優(yōu)化方案,只需16張卡(華為910B)即可完成行業(yè)定制優(yōu)化,有效降低了企業(yè)AI的定制門檻,使各行業(yè)能更便捷地落地AI應用價值。
三大核心技術(shù)突破,國產(chǎn)AI邁向自主可控新階段
訊飛星火X1的全新升級背后,是一系列獨特的技術(shù)創(chuàng)新與理念突破。
首先,提出基于問題難度的大規(guī)模多階段強化學習方法,在復雜推理、數(shù)學、代碼、語言理解等場景全面提升模型效果及泛化性;同時提出強化學習動態(tài)更新算法,基于樣本采樣長度動態(tài)調(diào)整強化學習更新速度,進一步提升深度思考強化學習效率及效果。
其次,統(tǒng)一模型下的快慢思考混合訓練方法,充分發(fā)揮快慢思考數(shù)據(jù)相互促進作用,實現(xiàn)基于系統(tǒng)指令控制模型是否深度思考,支撐下游更高效便捷地部署使用;
第三,實現(xiàn)多項工程技術(shù)創(chuàng)新,顯存動態(tài)卸載技術(shù)大幅提升長文本推理并發(fā)、訓推共卡協(xié)同實現(xiàn)高效訓推資源轉(zhuǎn)換、推理引擎冬眠機制實現(xiàn)快速拉起和恢復,實現(xiàn)國產(chǎn)算力平臺上高效和穩(wěn)定的強化學習訓練全流程。
在中美科技競爭日趨激烈的背景下,星火X1選擇的全國產(chǎn)化技術(shù)路徑更具深遠意義。最近,科大訊飛與華為昇騰聯(lián)合團隊在前期工作基礎上再獲突破,升級MoE模型的PD分離+大規(guī)模專家并行系統(tǒng)方案,實現(xiàn)了集群推理性能翻番,包括PD分離部署提升20%+性能、MTP多token預測技術(shù)提升30%+整體性能、專家負載均衡算法優(yōu)化使集群吞吐提升30%+,以及異步雙發(fā)射技術(shù)降低服務請求調(diào)度耗時提升10%系統(tǒng)性能。堅定自主可控算法創(chuàng)新和系統(tǒng)工程創(chuàng)新,使得基于國產(chǎn)算力的星火大模型能夠快速迭代進步,在實際應用場景取得顯著效能優(yōu)勢,在當前國際形勢下也更具戰(zhàn)略韌性。
此次訊飛星火X1的全面升級,不僅展示了中國人工智能技術(shù)在國產(chǎn)算力平臺上的創(chuàng)新突破,也為各行各業(yè)數(shù)字化轉(zhuǎn)型提供了新的可能。作為基于國產(chǎn)算力訓練的大模型代表作,星火X1的表現(xiàn)證明,在技術(shù)自主可控的道路上,中國AI已具備與國際頂尖模型同臺競技的實力。
熱門跟貼