打開網(wǎng)易新聞 查看精彩圖片

在數(shù)字化轉(zhuǎn)型加速的今天,金融、通信、能源、醫(yī)療等關鍵行業(yè)對存儲系統(tǒng)提出了更嚴苛的要求:金融高頻交易需微秒級響應,醫(yī)療影像數(shù)據(jù)管理需PB級容量承載,AI大模型訓練需千萬級IOPS支撐···

這些關鍵負載場景急需性能與可靠性“雙保險”的自主可控解決方案。最近國產(chǎn)存儲技術迎來突破性進展——曙光存儲集中式全閃FlashNexus以全球頂尖性能與自主可控技術,為關鍵行業(yè)提供標桿級解決方案。

2025年2月25日,國際存儲性能委員會(SPC)公布了SPC-1 V3基準測試結果,搭載最新一代國產(chǎn)處理器的曙光存儲FlashNexus以32控架構、超3000萬IOPS性能及0.202ms時延登頂全球榜首。這一成績不僅是性能參數(shù)的突破,更標志著國產(chǎn)存儲在核心場景應用能力的全面提升。

作為存儲界“奧林匹克”的SPC-1測試,其嚴苛的斷電恢復、壓力突變等驗證流程,印證了FlashNexus在OLTP、數(shù)據(jù)庫等關鍵業(yè)務中的穩(wěn)定性。該存儲設備每千IOPS成本僅155.01美元的質(zhì)價比優(yōu)勢,更打破了“高性能必高成本”的行業(yè)桎梏,使國產(chǎn)技術成為全球數(shù)字基建的“黑土地”。這一突破不僅彰顯中國存儲在高端領域的硬實力,而且通過存算協(xié)同創(chuàng)新為各行業(yè)數(shù)字化轉(zhuǎn)型注入新動能。

3月20日,數(shù)據(jù)猿專訪了曙光存儲副總裁郭照斌。15年來,郭照斌一直從事存儲系統(tǒng)設計和研發(fā),并屢建奇功。2022年,所研發(fā)的曙光分布式存儲ParaStor系統(tǒng)率先登頂最權威的世界級存儲排行榜IO500,將存儲系統(tǒng)性能世界紀錄提高了146%。2025年2月,郭照斌帶領團隊完成曙光存儲FlashNexus SPC-1測試,再破世界紀錄,測試成績?nèi)虻谝弧?/p>

AI大模型時代數(shù)據(jù)

AI大模型時代數(shù)據(jù)

存儲要從”底層支撐“升級為”加速引擎“

存儲要從”底層支撐“升級為”加速引擎“

隨著生成式AI的崛起,企業(yè)數(shù)據(jù)存儲需求發(fā)生了顯著的變化,給傳統(tǒng)存儲模式帶來了不可回避的挑戰(zhàn)。

在工作負載特性上,傳統(tǒng)存儲采用雙態(tài)IT模式,即穩(wěn)態(tài)業(yè)務數(shù)據(jù)量與變化相對穩(wěn)定,對響應及時性要求高,如馬拉松運動員,適配集中式存儲;敏態(tài)業(yè)務規(guī)模變化大,對系統(tǒng)擴展性要求高,像短跑運動員,則由分布式存儲或云存儲來支撐。

進入到AI時代,AI業(yè)務模型涵蓋訓練與推理階段,訓練類似于敏態(tài)業(yè)務,數(shù)據(jù)量需求大,但對單筆數(shù)據(jù)延時要求相對不高;而推理階段數(shù)據(jù)量較小,卻對時延和IOPS要求極高。在一套存儲系統(tǒng)中同時滿足穩(wěn)態(tài)的高速響應與敏態(tài)的高擴展、高并發(fā)帶寬需求,極大地增加了存儲系統(tǒng)設計的難度。

從性能量化角度來看,在生成式AI爆發(fā)前,計算與存儲資源性能相對過剩,企業(yè)缺乏追求極致性能的動力。AI時代到來后,算力率先不足,大量GPU投入到AI訓練;當GPU集群規(guī)模達到一定程度時,存力就成為一大瓶頸。存儲性能的微小提升,都能顯著提高生成式AI的投資回報比,存儲需求從相對穩(wěn)定轉(zhuǎn)向追求極致性能表現(xiàn)。

目前,在大模型訓練與推理環(huán)節(jié),數(shù)據(jù)存儲面臨的挑戰(zhàn)主要集中在速度和可靠性兩大關鍵方面。

在大模型訓練與推理的速度層面,存儲系統(tǒng)的核心目標是通過縮短數(shù)據(jù)訪問耗時并降低延遲,為CPU/GPU騰出更多運算時間,避免因存儲瓶頸導致算力資源閑置。由于存儲協(xié)議遵循固定標準,其性能提升需依賴硬件加速(如全閃存架構)與軟件優(yōu)化(如多級緩存機制)的雙重路徑:通過在存儲環(huán)節(jié)引入多級緩存機制如內(nèi)存級緩存與NVMe SSD緩存結合等,可顯著降低文件序列化、小文件查詢及向量數(shù)據(jù)庫訪問的延遲;采用分布式并行寫入技術,使千億參數(shù)模型的Checkpoint耗時從分鐘級縮短至秒級。

以千億參數(shù)模型為例,其單次Checkpoint過程涉及PB級數(shù)據(jù)寫入,若存儲帶寬不足(如僅1GB/s),完成10TB Checkpoint需耗時約1000秒,導致GPU資源閑置1000秒;而采用TB級帶寬時,僅需幾秒即可完成,極大地提升訓練速度。

這種性能躍升使存儲系統(tǒng)從"基礎支撐"升級為"關鍵引擎",為AI訓練提供毫秒級響應能力,支撐萬卡集群的EB級數(shù)據(jù)處理需求。

在可靠性方面,大模型訓練不能容忍中途出現(xiàn)故障。若歷經(jīng)長時間(如一個月)的訓練,因存儲故障導致訓練中斷,那么損失將是巨大的。在大模型訓練過程中,通常會按一定時間周期(如每天或每月)生成 Checkpoint 作為訓練副本,也對存儲的可靠性提出了間接要求,即存儲不僅要快,還得穩(wěn)定可靠,確保訓練數(shù)據(jù)安全無虞。

曙光存儲全自研FlashNexus

曙光存儲全自研FlashNexus

勇破AI推理加速難題

勇破AI推理加速難題

面對這些嚴苛的挑戰(zhàn),曙光存儲系統(tǒng)積極革新,以破解AI推理加速難題。郭照斌介紹說,曙光存儲先后兩次突破存儲世界記錄,標志著國產(chǎn)存儲在核心場景應用能力的全面提升。

2022年11月16日,曙光分布式存儲系統(tǒng)ParaStor在IO500存儲性能評測中奪冠,將世界紀錄提高146%。這一成績驗證了其在數(shù)據(jù)讀寫性能和復雜應用支撐上的世界領先水平,展示了曙光在分布式存儲領域的強大競爭力。

這次登頂SPC-1的曙光存儲FlashNexus則是一款完全自主研發(fā)的端到端集中式全閃產(chǎn)品,旨在應對AGI時代海量數(shù)據(jù)帶來的性能和容量爆發(fā)式增長的挑戰(zhàn)。

在存儲領域,SPC-1標準堪稱“存儲界的奧林匹克”,權威性與含金量極高。SPC作為全球首個建立存儲行業(yè)性能標準的全球性組織,其制定的SPC-1主要衡量存儲系統(tǒng)在隨機IO業(yè)務模型或負載下的吞吐量及IOPS表現(xiàn),通過模擬數(shù)據(jù)庫、OLTP等企業(yè)關鍵業(yè)務場景,疊加八種業(yè)務至存儲隔離的三塊區(qū)域,對存儲的隨機讀寫性能及處理復雜業(yè)務請求的響應能力要求嚴苛。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

曙光此次參與SPC-1測試的產(chǎn)品FlashNexus,屬于百控級億級IOPS產(chǎn)品系列中的子型號。此次測試采用32控規(guī)模,搭配400塊盤,并非該型號產(chǎn)品擴展極限(最大可擴展至128控)。在32控下,F(xiàn)lashNexus跑出超3000萬IOPS的成績,且每個控制器平均性能不到100萬;若擴展至百控級,性能輸出可達億級IOPS。

打開網(wǎng)易新聞 查看精彩圖片

FlashNexus產(chǎn)品實測超3000萬IOPS和0.202毫秒時延,在榜單前十名中排名第一,代表了FlashNexus存儲在數(shù)據(jù)庫、交易系統(tǒng)、計費系統(tǒng)等應用中,相比其他存儲具有更快的響應速度。同時,F(xiàn)lashNexus 通過高性能、智能化管理和高可靠性,為AI推理提供了強大的加速支持,滿足AI推理對低延遲的嚴格要求,確保AI推理過程的連續(xù)性和數(shù)據(jù)安全性,提升了整體系統(tǒng)的效率和響應速度。

郭照斌介紹說,曙光存儲FlashNexus系列產(chǎn)品具備三大顯著特點:

充分運用自主處理器與介質(zhì),同時強調(diào)“盤、框、控”高效協(xié)同,提供“迅若閃電”的極致性能。采用智能硬盤框,利用其自身計算能力分擔部分原本CPU的工作,使控制器CPU專注IO調(diào)度;與主流SSD廠商深度聯(lián)動,將SSD盤內(nèi)“智能多流”“盤內(nèi)回收”等特性與存儲軟件融合,精準調(diào)度盤內(nèi)行為,發(fā)揮介質(zhì)最大性能優(yōu)勢。

打開網(wǎng)易新聞 查看精彩圖片

構建“部件級”到“系統(tǒng)級”再到“方案級”多維度可靠性設計架構,提供“安如磐石”的高可靠保障。部件級,獨創(chuàng)RAID QC“四盤校驗”技術,存儲池可同時應對四塊盤故障,保障數(shù)據(jù)與應用安全,且寫入流程采用隨機寫入數(shù)據(jù)化、滿條帶鏡像寫,降低大容量SSD時代RAID寫懲罰(Write Penalty)。方案級提供聯(lián)網(wǎng)關AA對稱雙活、異地復制方案,支持跨存儲集群保障數(shù)據(jù)可靠性,業(yè)務系統(tǒng)可跨城市部署,就近訪問存儲系統(tǒng),減少時延,還能實現(xiàn)兩地三中心或四中心多級容災。

利用AI技術,提供“智若洞見”的智能內(nèi)核驅(qū)動。內(nèi)置AI驅(qū)動性能調(diào)度引擎,實時感知系統(tǒng)負載與用戶預設業(yè)務優(yōu)先級,動態(tài)分配硬件資源,關鍵業(yè)務近乎獨占性能通道,非關鍵業(yè)務智能限流,提升資源利用率;嵌入AI異常檢測引擎,毫秒級定位系統(tǒng)故障、風險,精確預測性能波動與硬件老化,疊加數(shù)據(jù)保護與容災架構,實現(xiàn)全鏈路自愈,大幅降低系統(tǒng)故障恢復時間。

另外,曙光存儲FlashNexus在SPC - 1測試中突破3000萬IOPS和0.202毫秒時延,這一斐然成績背后是其多項關鍵技術的突破。

郭照斌介紹道,曙光存儲自研了應用于集中式全閃存儲的“超級隧道”的關鍵技術。該技術圍繞每個CPU核配備獨占資源,構建起從網(wǎng)卡到CPU再到硬盤“一桿子插到底”的“超級隧道”,可以避免資源操作沖突,去除“加鎖機制”,再配合精準的調(diào)度規(guī)則和精確的AI預測系統(tǒng),推動了集中式全閃存儲高效穩(wěn)定運行。

在國產(chǎn)存儲技術發(fā)展過程中,曙光存儲在NUMA技術上取得了顯著突破。傳統(tǒng)服務器(如英特爾的服務器)常配置單CPU,性能雖強但成本高,曙光則采用多NUMA或多CPU方式提升性能。

為了解決多NUMA或多CPU方式帶來的CPU之間或NUMA之間訪問代價大的問題,曙光存儲推出了“微控模型”以精準適配硬件特性。在硬件層面,CPU、內(nèi)存、硬盤等資源采用“分組作業(yè)”,彼此獨立運行互不干擾,從而實現(xiàn)性能翻倍提升。例如,對于網(wǎng)卡和盤的配置,若只有一個網(wǎng)卡,曙光存儲可借助虛擬化技術讓每個NUMA都感覺擁有自己的獨立網(wǎng)卡;若有多個網(wǎng)卡則進行分組處理,保證各NUMA域能在高性能模式下獲取最近的硬件資源。

在軟件邏輯層面,曙光存儲從微控視角對數(shù)據(jù)進行切分,不同邏輯空間關聯(lián)的硬件資源相互隔離,就像構建了多條垂直“隧道”。IO數(shù)據(jù)從網(wǎng)絡進入后,經(jīng)CPU處理、內(nèi)存訪問再到硬盤,整個過程都在同一“隧道”內(nèi)完成,實現(xiàn)數(shù)據(jù)就近訪問,大大提升了性能。并且,在后端采用多路徑技術,待數(shù)據(jù)邏輯請求進入時就確定歸屬的微控制器和對應的“隧道”,確保數(shù)據(jù)能始終快速傳輸直至持久化落盤。這種設計讓系統(tǒng)具備線性可擴展性,CPU數(shù)量增加時各CPU間耦合性低,打破了以往依賴單一高性能CPU來提升性能的局限,有效地降低了成本。

曙光存儲還引入了RDMA、NVMe等技術,相比傳統(tǒng)TCP、iSCSI協(xié)議更加精簡,能夠減少協(xié)議帶來的性能損耗,讓數(shù)據(jù)更直接地到達硬件。在高性能模式下,傳統(tǒng)CPU依賴中斷的方式存在多種弊端,如中斷開銷干擾正常業(yè)務運行,頻繁的上下文切換也會極大增加系統(tǒng)開銷,嚴重影響性能提升。曙光存儲采用“QP + 輪詢”機制,關閉中斷,主動查詢事件,進一步簡化協(xié)議實現(xiàn)純用戶態(tài)操作,縮短數(shù)據(jù)路徑,提高性能與可靠性。這一技術應用對硬件設計也產(chǎn)生積極影響,使硬件設計更為簡單,最終實現(xiàn)硬件、協(xié)議和執(zhí)行流程的全面優(yōu)化,顯著提高了系統(tǒng)可靠性與性能。

曙光存儲獨有的XIO技術(XNIO/XDIO)在FlashNexus的優(yōu)異性能中也發(fā)揮了重要作用。該技術融合了無鎖輪詢與RTC處理,實現(xiàn)數(shù)據(jù)傳輸“一鍵直達”。

在任務處理方面,XIO技術的協(xié)程切換速度極快,僅需0.0000002秒(200納秒),能夠輕松應對百萬級高并發(fā)需求,確保任務瞬間切換無卡頓。

在數(shù)據(jù)傳輸上,XIO技術省去很多中間步驟,與傳統(tǒng)傳輸方式相比,傳輸效率提升10倍。而且在數(shù)據(jù)傳輸過程中可以同步進行問題排查且不影響性能,為系統(tǒng)穩(wěn)定高效運行提供了有力保障。

正是這些技術協(xié)同作用,共同推動FlashNexus突破3000萬IOPS,在SPC - 1測試中勇奪全球性能第一。

前瞻布局

前瞻布局

錨定數(shù)據(jù)存儲未來新航道

錨定數(shù)據(jù)存儲未來新航道

郭照斌表示,在AI大模型時代,數(shù)據(jù)存儲技術可能會發(fā)生顛覆性的變化,主要體現(xiàn)在以下三個方面:

首先,數(shù)據(jù)存儲會朝著綠色節(jié)能方向發(fā)展。隨著超算中心的不斷發(fā)展以及數(shù)據(jù)量呈爆炸式增長,特別是大模型訓練在音頻、視頻等領域興起,存儲規(guī)模也在不斷擴大,功耗問題日益凸顯。未來采用低功耗存儲介質(zhì)和技術,如藍光存儲、SCM(存儲級內(nèi)存)等,以減少能源消耗和碳排放。而綠色節(jié)能符合國家“雙碳”要求,必然會成為數(shù)據(jù)存儲技術的一個重要發(fā)展趨勢。

其次,大容量、低功耗存儲介質(zhì)亟待創(chuàng)新。目前硬盤的容量存在一定限制,難以滿足日益增長的數(shù)據(jù)存儲需求。在未來,發(fā)展更大容量、更低功耗的存儲介質(zhì),如大容量SSD(如122TB及以上)、QLC SSD等,以提高存儲密度和能效比。

最后,存儲與應用融合將更為緊密。隨著開源模式或者大模型的興起,數(shù)據(jù)存儲需要與應用實現(xiàn)更好的契合和更深度的融合。例如,存儲廠商需要打破標準存儲協(xié)議的限制,提供滿足應用需求的非標準接口,像針對文件的階段性刪除等特殊功能提供專門的接口,以滿足特定應用需求,也是存儲行業(yè)發(fā)展需要努力的方向。

未來高端存儲技術將在松耦合的多控制器架構、存儲虛擬化、高性能、加強數(shù)據(jù)安全性、提高用戶使用體驗和管理效率的智能化等方面發(fā)展。

郭照斌指出,在國內(nèi)存儲領域,硬件核心部件容易被國外“卡脖子”。以前,諸如HDD硬盤這類關鍵部件,國內(nèi)沒有生產(chǎn)能力,只能從國外進口。不過,隨著國內(nèi)產(chǎn)業(yè)不斷發(fā)展,現(xiàn)在閃存盤以及相關的顆粒、工藝等國內(nèi)已經(jīng)能夠生產(chǎn),這意味著國內(nèi)存儲領域的硬件國產(chǎn)化水平有了一定提升。

在當下“AI大模型話語權爭奪戰(zhàn)”的時代背景下,中國存儲若要爭奪國際話語權,可從以下多方面發(fā)力:

一是夯實產(chǎn)業(yè)基礎。存儲系統(tǒng)集CPU、網(wǎng)卡、硬盤等眾多部件于一身,中國現(xiàn)已構建起完備且豐富的生產(chǎn)鏈條,各部件的技術能力也不斷提升。以閃存盤領域為例,國內(nèi)不僅能夠提供優(yōu)質(zhì)產(chǎn)品,還掌握了顆粒生產(chǎn)及相關工藝技術,為打造高性能存儲產(chǎn)品筑牢了根基。接下來,持續(xù)強化各部件的研發(fā)與制造實力,確保產(chǎn)業(yè)鏈的自主可控和強大競爭力,是至關重要的基礎工作。

二是強化技術創(chuàng)新。存儲行業(yè)存在純自研和基于開源組件兩條發(fā)展陣營。以分布式存儲領域為例,像曙光、華為等采用純自研流派的廠商,通過逐行編寫代碼,經(jīng)過長時間的精心打磨與積累,其產(chǎn)品具有較高的穩(wěn)定性和性能;而像浪潮、新華三等基于開源組件快速推出產(chǎn)品的陣營,雖然能夠迅速切入市場,不過在穩(wěn)定性和可靠性方面存在一定差距。

在AI大模型時代,面對復雜數(shù)據(jù)處理帶來的對存儲性能和穩(wěn)定性的超高要求,堅持純自研無疑有助于推出契合市場需求的高端產(chǎn)品,助力中國存儲在國際競爭中嶄露頭角。

另一方面,聚焦根技術,促使企業(yè)加大研發(fā)投入,深入探究底層技術邏輯,掌握核心技術,構筑自主知識產(chǎn)權體系。唯有如此,才能為提升中國存儲的國際話語權提供堅實有力的技術支撐。

第三,優(yōu)化市場競爭策略。當下國內(nèi)存儲市場競爭存在一些亂象,部分企業(yè)通過低價競爭搶奪市場份額。這種方式雖能短期內(nèi)會打開市場,但往往卻犧牲了產(chǎn)品質(zhì)量和服務交付水平,最終會損害整個行業(yè)的利益。中國存儲企業(yè)理應摒棄單純的價格競爭模式,轉(zhuǎn)向以技術、性能、服務和專業(yè)性為核心的競爭路徑,以此提升產(chǎn)品的附加值和品牌形象。

最后,軟件層面的人才對于存儲技術的發(fā)展起著決定性作用。中國在軟件人才培養(yǎng)方面雖已取得一定的成果,但仍需持續(xù)發(fā)力。一方面,高校和職業(yè)院校應及時更新相關專業(yè)設置,緊密貼合行業(yè)發(fā)展需求,培育適應時代的專業(yè)人才;另一方面,企業(yè)要營造良好的發(fā)展環(huán)境,制定具有吸引力的激勵機制,吸引國內(nèi)外優(yōu)秀人才投身中國存儲產(chǎn)業(yè),為中國存儲產(chǎn)業(yè)的技術創(chuàng)新和產(chǎn)品研發(fā)注入源源不斷的活力 。

此外,郭照斌還介紹了曙光存儲在集中式全閃存儲領域的未來發(fā)展布局。曙光存儲一直致力于實現(xiàn)硬件與硬件的深度融合,通過減少軟件在數(shù)據(jù)訪問環(huán)節(jié)的參與,進一步優(yōu)化存儲性能。例如,在發(fā)展歷程中,曙光存儲逐漸過渡到如今的軟硬結合模式,并且未來還期望達成硬件之間的數(shù)據(jù)交互速度,如同消息在交換機上的快速傳遞一般,使存儲性能提升至20微秒以內(nèi)。

曙光存儲秉持開放合作的態(tài)度,構建開放的存儲生態(tài)體系,發(fā)展軟件定義存儲(SDS)、容器化存儲編排等技術,支持多協(xié)議的數(shù)據(jù)互通和共享,提升存儲資源的利用率和管理效率,推動存儲產(chǎn)業(yè)的協(xié)同發(fā)展。在硬件組件選型上,曙光存儲熱忱歡迎國內(nèi)生態(tài)合作伙伴共同參與,同時歡迎與合作伙伴在網(wǎng)絡芯片、PCI交換芯片等多個領域展開合作,攜手打造深度耦合的存儲產(chǎn)品形態(tài)。