
AI時代,存儲不僅是數(shù)據(jù)的棲息之地,更是AI模型訓(xùn)練、落地過程中的堅實(shí)底座。
在AI開啟的存儲行業(yè)新周期中,眾多廠商已將帶寬等性能指標(biāo)卷至新的高度。然而,這種追求似乎將AI這一復(fù)雜應(yīng)用場景簡單地“存儲化”了。
實(shí)際上,AI對存儲的需求遠(yuǎn)不止于性能這一維度本身,更需要讓存儲“AI化”,關(guān)注整體存儲解決方案與AI應(yīng)用場景的契合度。這一點(diǎn),也是全球唯一的AI/ML存儲基準(zhǔn)測試——MLPerf所關(guān)注的本質(zhì)。
MLPerf存儲基準(zhǔn)測試面向AI/ML用戶的痛點(diǎn),即存儲和計算的平衡及兩者的有效利用。然而測試中存儲架構(gòu)的多樣與存算節(jié)點(diǎn)的非標(biāo)準(zhǔn)化,導(dǎo)致性能數(shù)據(jù)本身的參考價值有所下降。
在性能數(shù)據(jù)之外,有無另一指標(biāo)可以更為準(zhǔn)確地反映存儲系統(tǒng)在AI場景的表現(xiàn)呢?MLPerf存儲基準(zhǔn)測試要求加速器利用率需達(dá)到90%或70%,在這一區(qū)間內(nèi)考核節(jié)點(diǎn)所能支持的最大加速卡數(shù),測試其能否盡可能跑滿每個客戶端的理論帶寬,以實(shí)現(xiàn)最佳存儲性能。
在MLPerf存儲基準(zhǔn)測試中,由于理論帶寬是統(tǒng)一的,因此所有廠商的解決方案均可歸一化到網(wǎng)絡(luò)利用率這一指標(biāo)上,進(jìn)行相對客觀的評估。網(wǎng)絡(luò)利用率的提高意味著成本的降低,算力潛能的更充分釋放,存儲與AI應(yīng)用場景的契合度也越高。
今年9月,新一輪MLPerf存儲基準(zhǔn)測試成績發(fā)布,其中,中國企業(yè)浪潮信息的分布式存儲平臺AS13000G7,在圖像分割模型3D-UNet和天文學(xué)模型CosmoFlow共計8項(xiàng)測試中斬獲5項(xiàng)最佳成績。這一平臺在網(wǎng)絡(luò)利用率上展現(xiàn)出20%左右的優(yōu)勢,斷層領(lǐng)先。
值得一提的是,本次MLPerf存儲基準(zhǔn)測試已升級至1.0版本,這一升級提出了哪些新的要求,浪潮信息又是如何憑借其技術(shù)積淀與整體解決方案,獲得新版測試中的多項(xiàng)最佳成績的呢?
一、MLPerf測試迎升級,存儲助力AI算天文分圖像
2018年,圖靈獎得主大衛(wèi)·帕特森(David Patterson)聯(lián)合斯坦福、哈佛等頂尖學(xué)術(shù)機(jī)構(gòu)和谷歌、百度等AI行業(yè)頭部企業(yè),共同發(fā)起了MLCommons協(xié)會,同年推出首款測試套件MLPerf,目前,該測試是影響力最廣的國際AI性能基準(zhǔn)評測之一。

▲圖靈獎得主大衛(wèi)·帕特森(圖源:ACM)
MLPerf系列測試套件得到學(xué)界和產(chǎn)業(yè)界的廣泛認(rèn)可。其中,MLPerf存儲基準(zhǔn)測試是專門用于AI復(fù)雜負(fù)載下存儲系統(tǒng)性能的測試套件,最大程度地模擬了AI任務(wù)的真實(shí)負(fù)載,數(shù)據(jù)訪問的pipeline、架構(gòu)、軟件棧均與實(shí)際訓(xùn)練程序無異,已成為AI/ML模型開發(fā)者選擇存儲解決方案的權(quán)威參考依據(jù)。
▲浪潮信息是MLCommons的創(chuàng)始成員之一(圖源:MLCommons官網(wǎng))
本次MLPerf存儲基準(zhǔn)測試1.0版本測試吸引了全球13家領(lǐng)先存儲廠商和研究機(jī)構(gòu)的參與,測試內(nèi)容也迎來重大升級,回應(yīng)了當(dāng)下復(fù)雜AI應(yīng)用場景對存儲提出的新需求。
一方面,存儲系統(tǒng)的帶寬峰值處理能力迎來新的挑戰(zhàn),測試特別關(guān)注了在高性能GPU達(dá)到一定使用率的情況下,存儲系統(tǒng)能為AI集群提供的整體帶寬和單個節(jié)點(diǎn)的帶寬。
另一方面,測試還強(qiáng)化了對分布式訓(xùn)練的考察,特別關(guān)注每個存儲節(jié)點(diǎn)能夠支持的GPU數(shù)量,以此來衡量用戶在AI存儲方面的投資效益。
在本次測試中,浪潮信息使用3臺AS13000G7平臺搭建分布式存儲集群,并配備ICFS自研分布式文件系統(tǒng),參與了3D-UNet和CosmoFlow兩個單項(xiàng)的測試。

作為圖像分割領(lǐng)域最具影響力的AI模型,3D-UNet模型的測試中使用了海量的圖像類非結(jié)構(gòu)化數(shù)據(jù),要求存儲平臺具備高帶寬、低時延的特點(diǎn),才能保證GPU的高效利用。CosmoFlow宇宙學(xué)分析模型參數(shù)量僅有10萬-20萬,如此之小的模型對時延提出了更高的要求。二者都是典型的數(shù)據(jù)密集型應(yīng)用。
在3D-UNet多客戶端2評測任務(wù)中,浪潮信息的存儲平臺服務(wù)于10個客戶端264個加速器,集群聚合帶寬達(dá)到360GB/s,單個存儲節(jié)點(diǎn)的帶寬高達(dá)120GB/s。
在宇宙學(xué)分析CosmoFlow單客戶端2和多客戶端2評測任務(wù)中,浪潮信息的存儲平臺分別提供了18 GB/s和52 GB/s的帶寬最佳成績。
二、契合AI使用場景,兼顧性能、效率、韌性
浪潮信息多項(xiàng)最佳成績的背后,是其面向AI時代,提升存儲平臺性能、效率和韌性的努力。
性能層面,浪潮自研分布式軟件棧中的全新數(shù)控分離架構(gòu)解決了分布式存儲數(shù)據(jù)流在節(jié)點(diǎn)間流轉(zhuǎn)的轉(zhuǎn)發(fā)問題,減少東西向(節(jié)點(diǎn)間)數(shù)據(jù)轉(zhuǎn)發(fā)量80%。這一性能的提升能幫助客戶節(jié)省大量的存儲成本,系統(tǒng)性價比也相應(yīng)改善。
效率層面,浪潮信息通過多協(xié)議數(shù)據(jù)融合技術(shù),解決了AI應(yīng)用場景使用多種數(shù)據(jù)接入?yún)f(xié)議造成的存儲效率問題,最高可節(jié)省50%的數(shù)據(jù)存儲空間。
韌性層面,為滿足AI業(yè)務(wù)對持續(xù)性的要求,浪潮信息的可靠性主動管理技術(shù)、AIOps系統(tǒng)故障預(yù)測算法和勒索軟件檢測技術(shù),有效預(yù)防了設(shè)備故障和數(shù)據(jù)安全問題的出現(xiàn)。相關(guān)技術(shù)對硬盤故障的預(yù)測準(zhǔn)確率達(dá)到98%,對勒索軟件的檢測漏報率僅有0.029%。
如何將技術(shù)整合落地,將技術(shù)指標(biāo)轉(zhuǎn)化為實(shí)際效果,最終形成完整且適配AI場景的解決方案,則是真正造福AI行業(yè)客戶的關(guān)鍵。
浪潮信息與AI場景緊密契合,憑借其產(chǎn)品場景化定制能力與成熟的AI場景解決方案能力,打造出了真正貼合AI需求的存儲產(chǎn)品,為AI場景構(gòu)建堅實(shí)的數(shù)據(jù)支撐平臺。
以本次測試中3D-UNet加速器H多客戶端下的測試結(jié)果為例,浪潮信息的多路并發(fā)透傳技術(shù)有效減少了I/O操作中頻繁的上下文切換,降低單次I/O時延50%。本次測試的3D-UNet場景中,3節(jié)點(diǎn)存儲支撐了1430個高并發(fā)讀線程,計算節(jié)點(diǎn)網(wǎng)絡(luò)利用率達(dá)到了72%。

網(wǎng)絡(luò)利用率的提高有效降低了網(wǎng)絡(luò)資源的浪費(fèi)。在客戶端配置雙網(wǎng)卡情況下,部分參賽解決方案僅有50%的網(wǎng)絡(luò)利用率,意味著整套方案實(shí)質(zhì)上浪費(fèi)了近乎一整張網(wǎng)卡資源,大大增加了總體成本。
若在大模型訓(xùn)練的萬卡集群下,低網(wǎng)絡(luò)利用率造成的網(wǎng)卡資源的浪費(fèi)可能高達(dá)數(shù)千萬級別,更不必說設(shè)備擴(kuò)容所引發(fā)的算力利用率下降、連接線增加、運(yùn)維復(fù)雜度提升等連鎖成本效應(yīng)。
對于本就成本高昂的AI基礎(chǔ)設(shè)施而言,任何可以削減的開支都顯得尤為關(guān)鍵。浪潮信息存儲解決方案在網(wǎng)絡(luò)利用率上的明顯優(yōu)勢,證明了相關(guān)方案對AI場景的高度適配。
在實(shí)踐中,浪潮信息的存儲解決方案已經(jīng)在互聯(lián)網(wǎng)企業(yè)大模型訓(xùn)練推理場景、大型AI算力中心與某國家重點(diǎn)實(shí)驗(yàn)室中落地。
例如,在大模型場景訓(xùn)練中,浪潮信息通過增加全閃存儲幫助客戶實(shí)現(xiàn)效率提升,將斷電續(xù)訓(xùn)時間降低到分鐘級別。新增20臺全閃存儲提升的效率,相當(dāng)于新增了10多臺GPU服務(wù)器,從投資角度上來看,每100萬存儲投資相當(dāng)于300萬的GPU服務(wù)器投資。
而針對大模型推理場景中多文件協(xié)議特點(diǎn),浪潮信息的融合存儲方案讓客戶節(jié)省了協(xié)議轉(zhuǎn)化的時間,使得數(shù)據(jù)匯集準(zhǔn)備時間節(jié)省30%,存儲空間也大幅節(jié)省。
結(jié)語:生成式AI步入下半場,存儲成AI向?qū)嶊P(guān)鍵
據(jù)工信部測算,到2035年,中國生成式AI的市場規(guī)模將突破30萬億元,制造業(yè)、醫(yī)療健康、電信行業(yè)和零售業(yè)對生成式AI技術(shù)的采用率迎來較快增長。
2024年,生成式AI正以前所未有的速度走入千行百業(yè)。AI行業(yè)已經(jīng)由百模大戰(zhàn)時期的“卷模型”,轉(zhuǎn)變?yōu)椤熬韴鼍?、卷?yīng)用”,或?qū)⒂瓉硐掳雸龅慕侵稹?/p>
在AI向?qū)嵃l(fā)展的進(jìn)程中,數(shù)據(jù)是連接物理世界與數(shù)字世界的重要橋梁,而存儲作為數(shù)據(jù)的載體,持續(xù)在AI落地的實(shí)踐中發(fā)揮關(guān)鍵作用。
熱門跟貼