通信世界網(wǎng)消息(CWW)隨著人工智能、元宇宙、工業(yè)互聯(lián)網(wǎng)等新興技術(shù)的迅猛發(fā)展,算力已成為繼電力、網(wǎng)絡(luò)之后新的核心生產(chǎn)力,新業(yè)務(wù)對(duì)算力資源的高效供給、靈活調(diào)度及跨域協(xié)同提出了前所未有的要求。傳統(tǒng)算力架構(gòu)受限于資源孤島化、調(diào)度粗放化、服務(wù)靜態(tài)化等瓶頸,難以滿足低時(shí)延、高可靠、泛在化的智能服務(wù)要求。在此背景下,構(gòu)建以“全局互聯(lián)、智能協(xié)同、場(chǎng)景驅(qū)動(dòng)”為核心的算力智聯(lián)網(wǎng),成為破解算力供需失衡困局、釋放數(shù)字經(jīng)濟(jì)潛能的關(guān)鍵路徑。

本文聚焦算力智聯(lián)網(wǎng)的核心技術(shù)挑戰(zhàn),提出“標(biāo)準(zhǔn)-通道-調(diào)度-網(wǎng)關(guān)-服務(wù)”五位一體的技術(shù)方案:通過構(gòu)建統(tǒng)一算力互聯(lián)網(wǎng)標(biāo)準(zhǔn)體系,解決多廠商設(shè)備兼容與跨域互操作難題;設(shè)計(jì)基于全光網(wǎng)絡(luò)和“SRv6+FlexE”的跨域高速算力互聯(lián)通道,實(shí)現(xiàn)微秒級(jí)時(shí)延保障與帶寬按需切片;創(chuàng)新算網(wǎng)一體化智能管控架構(gòu),深度融合SDN網(wǎng)絡(luò)與算力編排引擎,實(shí)現(xiàn)算網(wǎng)資源的智能調(diào)度;研發(fā)智能算力網(wǎng)關(guān),提供協(xié)議轉(zhuǎn)換、算力封裝與可信交易功能,形成“用戶-算力-網(wǎng)絡(luò)”的價(jià)值閉環(huán);最終面向模型訓(xùn)練、AI應(yīng)用、工業(yè)互聯(lián)等典型場(chǎng)景,構(gòu)建場(chǎng)景化算網(wǎng)服務(wù)引擎,實(shí)現(xiàn)“算力即服務(wù)”的按需供給。本文旨在為算力互聯(lián)網(wǎng)的體系化建設(shè)提供理論支撐與實(shí)踐參考,助力我國在全球算力競(jìng)爭(zhēng)中占據(jù)戰(zhàn)略制高點(diǎn)。

構(gòu)建全國一體化算力網(wǎng)的必要性

黨的十八大以來,國家高度重視算力網(wǎng)等新型基礎(chǔ)設(shè)施 建設(shè)。2022年“東數(shù)西算”工程正式全面啟動(dòng),打造全國算力“一張網(wǎng)”。2023年12月25日,國家發(fā)展改革委、國家數(shù)據(jù)局、中央網(wǎng)信辦、工業(yè)和信息化部、國家能源局五部門聯(lián)合印發(fā)《關(guān)于深入實(shí)施“東數(shù)西算”工程 加快構(gòu)建全國一體化算力網(wǎng)的實(shí)施意見》。

算力網(wǎng)是將全國范圍的通用計(jì)算、智能計(jì)算、超級(jí)計(jì)算等大型異構(gòu)算力資源與數(shù)據(jù)資源進(jìn)行互聯(lián)互通的數(shù)字基礎(chǔ)設(shè)施。算力網(wǎng)將算力節(jié)點(diǎn)互連,就能充分發(fā)揮這些算力資源的作用,實(shí)現(xiàn)資源高效調(diào)度、設(shè)施綠色低碳、算力靈活供給、服務(wù)智能隨需,以算力高質(zhì)量發(fā)展賦能經(jīng)濟(jì)高質(zhì)量發(fā)展。

算力網(wǎng)價(jià)值分析

算力網(wǎng)可推動(dòng)?xùn)|西部算力協(xié)同,加強(qiáng)國家樞紐節(jié)點(diǎn)與非國家樞紐節(jié)點(diǎn)地區(qū)聯(lián)動(dòng),促進(jìn)跨區(qū)域、多層次算力高速直聯(lián)網(wǎng)絡(luò)建設(shè),依托新興網(wǎng)絡(luò)技術(shù)提升網(wǎng)絡(luò)傳輸效能,降低東西部地區(qū)數(shù)據(jù)傳輸成本,切實(shí)解決海量數(shù)據(jù)傳輸技術(shù)問題,加強(qiáng)算力與數(shù)據(jù)、算法融合創(chuàng)新,探索算力市場(chǎng)交易結(jié)算機(jī)制。

算力網(wǎng)有利于釋放數(shù)據(jù)要素的創(chuàng)新活力,通過算力網(wǎng)將全國范圍的算力、數(shù)據(jù)等資源匯聚共享,可顯著降低數(shù)據(jù)傳輸成本,切實(shí)解決海量數(shù)據(jù)傳輸技術(shù)問題,推動(dòng)算力與數(shù)據(jù)、算法融合創(chuàng)新,催生更多新的應(yīng)用場(chǎng)景和商業(yè)模式。

算力網(wǎng)有利于引導(dǎo)和推動(dòng)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),統(tǒng)籌通、智、超算力協(xié)同計(jì)算,幫助傳統(tǒng)產(chǎn)業(yè)通過數(shù)據(jù)分析、數(shù)據(jù)建模等實(shí)施更精準(zhǔn)的生產(chǎn)策略,推動(dòng)算力、數(shù)據(jù)、算法協(xié)同應(yīng)用,促進(jìn)產(chǎn)業(yè)全要素的互聯(lián)互通;同時(shí)在人工智能方面,算力網(wǎng)能夠?yàn)槿斯ぶ悄芴峁┓涸诜植嫉乃懔?、豐富的數(shù)據(jù),形成“人工智能+”的產(chǎn)業(yè)賦能新范式。

此外,算力網(wǎng)是落實(shí)“雙碳”戰(zhàn)略的必要環(huán)節(jié),能夠充分發(fā)揮西部地區(qū)氣候、能源、環(huán)境等方面優(yōu)勢(shì),引導(dǎo)數(shù)據(jù)中心向西部資源豐富地區(qū)聚集。通過算電協(xié)同調(diào)度,算力網(wǎng)可以統(tǒng)籌算力、電力協(xié)同布局,促進(jìn)算力與電力相互支撐和協(xié)同發(fā)展,促進(jìn)可再生能源(如風(fēng)、光、綠電)的就近消納。

業(yè)界共推統(tǒng)一算力互聯(lián)網(wǎng)建設(shè)

當(dāng)前,全球范圍內(nèi)算力互聯(lián)網(wǎng)的探索已進(jìn)入實(shí)踐攻堅(jiān)階段。中國信息通信研究院率先發(fā)布《算力網(wǎng)絡(luò)技術(shù)白皮書》,推動(dòng)算力標(biāo)識(shí)、服務(wù)分級(jí)等標(biāo)準(zhǔn)體系構(gòu)建;在三大運(yùn)營商中,中國移動(dòng)依托“算力網(wǎng)絡(luò)試驗(yàn)網(wǎng)”實(shí)現(xiàn)“云邊端”資源動(dòng)態(tài)編排,中國聯(lián)通提出“算網(wǎng)一體”架構(gòu)強(qiáng)化異構(gòu)算力納管能力,中國電信以“東數(shù)西算”樞紐為核心布局跨域資源池化;鵬城實(shí)驗(yàn)室則通過“中國算力網(wǎng)”大科學(xué)裝置,在智算集群聯(lián)邦調(diào)度與光網(wǎng)絡(luò)協(xié)同優(yōu)化領(lǐng)域取得突破。然而,各主體在技術(shù)路線、接口規(guī)范及生態(tài)協(xié)同上的碎片化問題,制約了算力互聯(lián)網(wǎng)的規(guī)?;l(fā)展。

中國信息通信研究院早在2019年便正式啟動(dòng)算力網(wǎng)絡(luò)相關(guān)研究,堅(jiān)持倡導(dǎo)算力互聯(lián)互通,基于“先互聯(lián)、再成網(wǎng)、同步建市場(chǎng)”的推進(jìn)思路,推動(dòng)算力互聯(lián)網(wǎng)實(shí)現(xiàn)了從理論探索到實(shí)踐應(yīng)用的深度跨越;2023年,中國信息通信研究院發(fā)布了算力互聯(lián)互通驗(yàn)證平臺(tái),與眾多算力服務(wù)商開展了深度對(duì)接和聯(lián)調(diào)工作;2024年12月,中國信息通信研究院發(fā)布了《算力互聯(lián)互通標(biāo)準(zhǔn)體系1.0》,為算力互聯(lián)網(wǎng)發(fā)展提供指導(dǎo)框架。

中國信息通信研究院著重推動(dòng)實(shí)踐創(chuàng)新和應(yīng)用落地,聯(lián)合產(chǎn)業(yè)各方開展多個(gè)主題活動(dòng),規(guī)劃了“1+M+N”算力互聯(lián)網(wǎng)業(yè)務(wù)網(wǎng),與企業(yè)共同開展新技術(shù)、新模式、新業(yè)態(tài)試點(diǎn)試驗(yàn),推動(dòng)算力互聯(lián),協(xié)調(diào)供需匹配,實(shí)現(xiàn)算力跨域調(diào)度。

中國移動(dòng)將“算力網(wǎng)絡(luò)”作為重大戰(zhàn)略發(fā)展方向,努力推動(dòng)建設(shè)統(tǒng)一算力網(wǎng)絡(luò)成為產(chǎn)業(yè)共識(shí)。在2024年中國移動(dòng)算力網(wǎng)絡(luò)大會(huì)上,中國移動(dòng)聚焦算力、算網(wǎng)、算數(shù)、算腦四個(gè)方面,正式發(fā)布“一體化算力網(wǎng)絡(luò)領(lǐng)航數(shù)智產(chǎn)業(yè)行動(dòng)計(jì)劃”。

中國移動(dòng)積極構(gòu)建“N+X”大規(guī)模智算基礎(chǔ)設(shè)施,已打造一批萬卡級(jí)、千卡級(jí)智算集群,在呼和浩特投產(chǎn)的超大規(guī)模單體液冷智算中心入選“央企十大超級(jí)工程”;建設(shè)高速算間網(wǎng)絡(luò),2024年3月貫通全球首條商用400G全光網(wǎng)鏈路,建成全球領(lǐng)先的SRv6承載網(wǎng),全面貫通八大算力樞紐節(jié)點(diǎn),打造“1—5—20ms”三級(jí)時(shí)延圈,夯實(shí)算網(wǎng)智聯(lián)底座;創(chuàng)新打造數(shù)聯(lián)網(wǎng)(DSSN),全面構(gòu)建數(shù)據(jù)流通基礎(chǔ)設(shè)施,提供一站式申請(qǐng)、開通數(shù)據(jù)流通專屬算力網(wǎng)絡(luò)功能,落地國家數(shù)據(jù)要素綜合試驗(yàn)區(qū)“中國數(shù)谷”;創(chuàng)新打造算網(wǎng)大腦,實(shí)現(xiàn)智能編排,統(tǒng)一調(diào)度“通、智、超、量”多樣化算力,突破億級(jí)每日調(diào)度能力,打造長(zhǎng)三角樞紐算力調(diào)度平臺(tái)標(biāo)桿,助力“東數(shù)西算”工程落地。

中國聯(lián)通大力推動(dòng)一體化算力網(wǎng)構(gòu)建,在中國聯(lián)通2024 年合作伙伴大會(huì)上發(fā)布了算力智聯(lián)網(wǎng)AINET,針對(duì)智算時(shí)代多元化業(yè)務(wù)互聯(lián)需求,通過網(wǎng)絡(luò)架構(gòu)、組網(wǎng)和設(shè)備技術(shù)創(chuàng)新,實(shí)現(xiàn)“高通量、高性能、高智能”三大核心能力?;贏INET,中國聯(lián)通開展了從上海到寧夏3000千米長(zhǎng)距RDMA流量傳輸驗(yàn)證,通過無損流控、端網(wǎng)協(xié)同、擁塞控制等技術(shù),端口帶寬利用率從20%提升到90%。2022年中國聯(lián)通研發(fā)并上線了算網(wǎng)一體化編排調(diào)度平臺(tái),推動(dòng)?xùn)|西部國家樞紐節(jié)點(diǎn)算力一體調(diào)度,打造國家樞紐節(jié)點(diǎn)算力服務(wù)和調(diào)度典型示范,以算網(wǎng)調(diào)度平臺(tái)為核心,實(shí)現(xiàn)面向多種應(yīng)用場(chǎng)景的算網(wǎng)一體化融合服務(wù)。

中國電信聚焦算力建設(shè)和調(diào)度,以此構(gòu)建一體化算力網(wǎng)。2024年天翼云作為“國家云框架”全面邁向智能云發(fā)展的新階段,在北京和上海建設(shè)國內(nèi)領(lǐng)先的萬卡全液冷智算集群。在算力廣泛布局的基礎(chǔ)上,中國電信打造的天翼云算力分發(fā)網(wǎng)絡(luò)平臺(tái)“息壤”,以構(gòu)建全國一體化算力網(wǎng)為目標(biāo),接入合作伙伴算力達(dá)27EFlops,能夠助力跨地域算力靈活調(diào)度,有效整合各方異構(gòu)算力資源,向全社會(huì)提供標(biāo)準(zhǔn)化算力服務(wù),并實(shí)現(xiàn)了規(guī)模商用。以“息壤”為核心的一體化智算服務(wù)平臺(tái),憑借強(qiáng)大的智算能力,深度賦能千行百業(yè)數(shù)字化轉(zhuǎn)型,并成功入選2024年國家數(shù)據(jù)局發(fā)布的首批25個(gè)“全國一體化算力網(wǎng)應(yīng)用優(yōu)秀案例”,成為首批算力網(wǎng)建設(shè)的先進(jìn)性、創(chuàng)新性代表。

2024年12月,鵬城實(shí)驗(yàn)室與新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟聯(lián)合發(fā)布中國算力網(wǎng)(C2Net)開源開放試驗(yàn)場(chǎng)最新科技成果。鵬城實(shí)驗(yàn)室牽頭建設(shè)的E級(jí)智能算力大科學(xué)裝置“鵬城云腦”構(gòu)建了一站式開源平臺(tái),通過算力網(wǎng)以云際互聯(lián)的方式接入30多個(gè)分布在全國的公共算力集群,兼容了12種異構(gòu)算力芯片,搭建了面向人工智能協(xié)同開發(fā)的軟件工具鏈,服務(wù)開源社區(qū)各種差異化需求。2025年中國算力網(wǎng)還將聚焦強(qiáng)化開放算力供給、推出易用組件工具、共享海量?jī)?yōu)質(zhì)數(shù)據(jù)、落地多樣運(yùn)營活動(dòng)等方面,進(jìn)一步推動(dòng)創(chuàng)新與發(fā)展。

算力互聯(lián)網(wǎng)面臨四大挑戰(zhàn)

算力互聯(lián)網(wǎng)的核心目標(biāo)是實(shí)現(xiàn)跨域互聯(lián)、異構(gòu)算力資源的高效協(xié)同與智能調(diào)度,從而滿足日益復(fù)雜的計(jì)算需求。然而,算力互聯(lián)網(wǎng)仍面臨著諸多技術(shù)挑戰(zhàn)和攻關(guān)難點(diǎn)。

一是算力互聯(lián)網(wǎng)的相關(guān)標(biāo)準(zhǔn)體系建設(shè)滯后,算力度量、接 口規(guī)范等標(biāo)準(zhǔn)尚處草案階段,跨廠商設(shè)備互通率不足60%。跨域資源統(tǒng)一標(biāo)識(shí)與管理是關(guān)鍵難題,由于不同機(jī)構(gòu)或區(qū)域的算力資源具有異構(gòu)性,其硬件配置、軟件環(huán)境和服務(wù)能力各不相同,如何為這些算力資源建立統(tǒng)一的標(biāo)識(shí)體系并實(shí)現(xiàn)高效管理,是構(gòu)建算力互聯(lián)網(wǎng)的前提。

二是高效低時(shí)延傳輸技術(shù)是算力互聯(lián)網(wǎng)面臨的一大挑戰(zhàn)。大規(guī)模計(jì)算任務(wù)的跨域調(diào)度需要依賴高速網(wǎng)絡(luò)支撐,但在實(shí)際應(yīng)用中,數(shù)據(jù)傳輸?shù)难舆t、帶寬瓶頸以及網(wǎng)絡(luò)擁塞等問題仍然制約著算力資源的有效利用。如何在復(fù)雜的網(wǎng)絡(luò)環(huán)境下實(shí)現(xiàn)高吞吐量、低時(shí)延的數(shù)據(jù)傳輸,并確保服務(wù)的穩(wěn)定性與可靠性,是未來技術(shù)攻關(guān)的重點(diǎn)。

三是智能調(diào)度算法的優(yōu)化與擴(kuò)展也是迫切需要解決的問題。算力互聯(lián)網(wǎng)的核心價(jià)值在于通過智能調(diào)度實(shí)現(xiàn)算力資源的最優(yōu)配置,但現(xiàn)有算法在面對(duì)海量異構(gòu)資源和復(fù)雜任務(wù)需求時(shí),往往面臨計(jì)算效率低下、資源分配不均衡以及動(dòng)態(tài)適應(yīng)性不足等問題。如何設(shè)計(jì)更具普適性和高效性的調(diào)度策略,并結(jié)合人工智能技術(shù)提升系統(tǒng)的自學(xué)習(xí)能力,是未來研究的重要方向。

四是針對(duì)不同業(yè)務(wù)場(chǎng)景,算力互聯(lián)服務(wù)也不盡相同。由于實(shí)際場(chǎng)景的計(jì)算任務(wù)可能涉及多種類型的數(shù)據(jù)(如圖像、視頻、文本等),這些數(shù)據(jù)的處理需要不同類型的算力資源協(xié)同工作,特別是算力和網(wǎng)絡(luò)資源的融合調(diào)度和協(xié)同,是提升系統(tǒng)整體性能的關(guān)鍵。

此外,算力互聯(lián)及算網(wǎng)融合的商業(yè)模式目前還不清晰,83%的企業(yè)擔(dān)憂跨域計(jì)費(fèi)結(jié)算體系缺失,因此應(yīng)盡快構(gòu)建算力期貨等新型交易機(jī)制。

綜上所述,算力互聯(lián)網(wǎng)的未來發(fā)展需要在跨域資源管理、高效傳輸技術(shù)、智能調(diào)度算法、場(chǎng)景化算網(wǎng)融合服務(wù)等方面進(jìn)行深入研究和突破。只有攻克這些技術(shù)難點(diǎn),才能真正實(shí)現(xiàn)算力資源的全局優(yōu)化配置,為產(chǎn)業(yè)發(fā)展提供堅(jiān)實(shí)的技術(shù)支撐。

算力互聯(lián)網(wǎng)的關(guān)鍵技術(shù)及方案

構(gòu)建統(tǒng)一算力互聯(lián)網(wǎng)標(biāo)準(zhǔn)體系

目前,國際標(biāo)準(zhǔn)化組織IEEE已經(jīng)組建P2301、P2302等 工作組,持續(xù)推動(dòng)算力互聯(lián)和互操作技術(shù)的標(biāo)準(zhǔn)制定工作。國內(nèi)也已成立算網(wǎng)融合產(chǎn)業(yè)及標(biāo)準(zhǔn)推進(jìn)委員會(huì)(CCNIS),旨在推動(dòng)算網(wǎng)融合技術(shù)和產(chǎn)業(yè)發(fā)展。目前國內(nèi)推動(dòng)算力標(biāo)準(zhǔn)制定的力量,主要來自運(yùn)營商、算力服務(wù)商、網(wǎng)絡(luò)設(shè)備商,具有權(quán)威性和普適性的標(biāo)準(zhǔn)體系還未形成,對(duì)算力網(wǎng)的產(chǎn)業(yè)化發(fā)展提出挑戰(zhàn)。因此,建議優(yōu)先構(gòu)建算力網(wǎng)標(biāo)準(zhǔn)體系,在以下四方面加快推動(dòng)權(quán)威性標(biāo)準(zhǔn)的制定。

一是制定算力并網(wǎng)標(biāo)準(zhǔn)。我國各類算力提供主體超5000 家,由于主體多元化、區(qū)域分割、基礎(chǔ)架構(gòu)差異、調(diào)用接口私有化等問題,算力互聯(lián)呈現(xiàn)“局域網(wǎng)”現(xiàn)象,未能形成全域、跨服務(wù)商的統(tǒng)一接入標(biāo)準(zhǔn),缺乏統(tǒng)一的算力資源和網(wǎng)絡(luò)資源感知能力,算力的標(biāo)識(shí)符各不相同,給算力在網(wǎng)關(guān)、應(yīng)用側(cè)的解析帶來問題。

二是制定算力度量標(biāo)準(zhǔn)。算力目前缺乏牽引產(chǎn)業(yè)公正性和權(quán)威性的“標(biāo)尺”,各類專用芯片的異構(gòu)算力無法進(jìn)行統(tǒng)一度量,無法適應(yīng)多樣性算網(wǎng)協(xié)同平臺(tái)發(fā)展,算力資源彼此的調(diào)度、互聯(lián)互通、快速部署等難以實(shí)現(xiàn)。

三是制定算力互聯(lián)標(biāo)準(zhǔn)。要實(shí)現(xiàn)泛在分布算力資源的標(biāo)準(zhǔn)化互聯(lián),需要統(tǒng)一算力互聯(lián)互通標(biāo)準(zhǔn),包括算力編碼、路徑、解析、協(xié)議等內(nèi)容,從而推動(dòng)數(shù)據(jù)傳輸流動(dòng)、計(jì)算任務(wù)分發(fā)部署、應(yīng)用架構(gòu)適配等關(guān)鍵環(huán)節(jié)的統(tǒng)一化,實(shí)現(xiàn)算力調(diào)度真正落地。

四是制定算網(wǎng)服務(wù)標(biāo)準(zhǔn)。在多元化算力供給的狀況下,算力沒有形成可感知和調(diào)度的標(biāo)準(zhǔn)化服務(wù),因此需要制定算網(wǎng)服務(wù)標(biāo)準(zhǔn),從而通過算力互聯(lián)網(wǎng)找到位置、成本、性能均合適的算力資源,提升算力交易、人工智能、模型訓(xùn)練、智算平臺(tái)、云渲染、視頻編解碼等算力服務(wù)的兼容性和協(xié)同性。

建立跨域高速算力互聯(lián)通道

為構(gòu)建全國一體化的算力網(wǎng),承接國家“東數(shù)西算”工程,跨域高速算力互聯(lián)通道一方面可依托國內(nèi)運(yùn)營商已有網(wǎng)絡(luò)基礎(chǔ)與優(yōu)勢(shì),構(gòu)建低時(shí)延、廣連接、智能化、便捷化的“云網(wǎng)邊”多級(jí)算力承載網(wǎng);另一方面可以結(jié)合算力樞紐節(jié)點(diǎn)分布情況,構(gòu)建東西部之間的專用網(wǎng)絡(luò)通道(如圖1所示)。如構(gòu)建高速骨干直聯(lián)網(wǎng)絡(luò),滿足算力高效聯(lián)網(wǎng)調(diào)度,以及算力資源間快速、穩(wěn)定、彈性的數(shù)據(jù)傳輸需求。

打開網(wǎng)易新聞 查看精彩圖片

圖1 算力互聯(lián)專用網(wǎng)網(wǎng)絡(luò)架構(gòu)

基于互聯(lián)網(wǎng)通道的算力互聯(lián)網(wǎng)可以承載to C用戶訪問算力的業(yè)務(wù)流量,廣泛接入全國IDC資源,提供差異化保障服務(wù),保障算力應(yīng)用的時(shí)延要求。企業(yè)用戶專網(wǎng)可以承載to B用戶訪問算力及東西向算力互訪業(yè)務(wù)流量,廣泛接入公有云服務(wù)商、IDC、運(yùn)營商等算力資源,提供異構(gòu)算力的安全連接能力。算力互聯(lián)網(wǎng)依托運(yùn)營商城域網(wǎng)可以提供to C、to B、邊緣算力的綜合接入,承載云邊互訪流量,實(shí)現(xiàn)云邊統(tǒng)一調(diào)度和業(yè)務(wù)協(xié)同。打造全國一體化的算力互聯(lián)專用網(wǎng)絡(luò)可以提供算力節(jié)點(diǎn)間的高速專用運(yùn)力通道,特別是智算、超算節(jié)點(diǎn)之間需要的高通量、低時(shí)延、確定性網(wǎng)絡(luò)服務(wù)。同時(shí),應(yīng)結(jié)合400Gbit/s和800Gbit/s全光傳輸網(wǎng)絡(luò),以及“SRv6+FlexE”的IP技術(shù)。

實(shí)現(xiàn)算網(wǎng)一體化管控和調(diào)度

算網(wǎng)一體化調(diào)度需要算力和網(wǎng)絡(luò)資源無縫對(duì)接、資源池化,構(gòu)建統(tǒng)一的資源視圖,實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)?、帶寬、流量、算力和存力等?shí)時(shí)呈現(xiàn),從而實(shí)現(xiàn)算網(wǎng)資源統(tǒng)一納管、業(yè)務(wù)自動(dòng)開通、故障實(shí)時(shí)監(jiān)測(cè)等一體化調(diào)度。

針對(duì)智算資源和模型訓(xùn)練對(duì)網(wǎng)絡(luò)傳輸?shù)男滦枨?,只有確保廣域間智算算力的高速傳輸,才能滿足各級(jí)時(shí)延圈要求,實(shí)現(xiàn)基于互聯(lián)網(wǎng)、企業(yè)專用網(wǎng)、智算直聯(lián)網(wǎng)絡(luò)的高效互聯(lián)、靈活配置、彈性調(diào)度。在資源調(diào)度過程中,需要對(duì)跨算力節(jié)點(diǎn)、跨異構(gòu)平臺(tái)的任務(wù)快速分發(fā)。算網(wǎng)一體化調(diào)度技術(shù)架構(gòu)如圖2所示。

打開網(wǎng)易新聞 查看精彩圖片

圖2 算網(wǎng)一體化調(diào)度技術(shù)架構(gòu)

在構(gòu)建算力互聯(lián)網(wǎng)絡(luò)連接時(shí),一要快速建立算力連接,基于全域網(wǎng)絡(luò)的智能化SDN管控,實(shí)現(xiàn)跨域智算網(wǎng)絡(luò)連接的敏捷拆建和可靠連接;二是根據(jù)時(shí)延要求選路,根據(jù)業(yè)務(wù)的時(shí)延要求,提供智能選路和低時(shí)延隧道的動(dòng)態(tài)連接;三是彈性帶寬調(diào)整,根據(jù)業(yè)務(wù)流量趨勢(shì),提供彈性、分時(shí)段調(diào)整的網(wǎng)絡(luò)帶寬,滿足業(yè)務(wù)靈活配置需求;四是業(yè)務(wù)快速開通,實(shí)現(xiàn)算網(wǎng)資源的一體協(xié)同調(diào)度,“跨中心智算資源+網(wǎng)絡(luò)連接”能夠分鐘級(jí)自動(dòng)開通。

同時(shí),跨平臺(tái)智算調(diào)度和任務(wù)分發(fā)網(wǎng)絡(luò)通過對(duì)接多個(gè)智算節(jié)點(diǎn)、AI訓(xùn)練平臺(tái),實(shí)現(xiàn)直接提交AI 任務(wù)和開通裸金屬智算資源兩個(gè)層級(jí)的調(diào)度。這需要將多個(gè)智算中心能力統(tǒng)一進(jìn)行封裝和標(biāo)準(zhǔn)化,構(gòu)建統(tǒng)一AI訓(xùn)練平臺(tái),并根據(jù)用戶模型特點(diǎn)、算力需求,調(diào)度最合適的智算中心資源,完成任務(wù)的自動(dòng)部署、資源的自動(dòng)開通。

打造自主感知算力的智能網(wǎng)關(guān)

目前互聯(lián)網(wǎng)應(yīng)用主要集中在OTT廠商,運(yùn)營商主要采用IDC資源機(jī)架出租模式,短視頻、電商購物、搜索引擎等跨數(shù)據(jù)中心數(shù)據(jù)同步或計(jì)算的場(chǎng)景目前沒有完善的解決方案。在通算、智算、超算、量子計(jì)算等一體化算力協(xié)同時(shí)代,運(yùn)營商可以建設(shè)專用的DCI互聯(lián)網(wǎng),以及算力直連網(wǎng)絡(luò),提高算力節(jié)點(diǎn)間的連接能力。與此同時(shí),為了實(shí)現(xiàn)用戶的業(yè)務(wù)快速接入和體驗(yàn)增強(qiáng),運(yùn)營商可以在算力節(jié)點(diǎn)的DC(數(shù)據(jù)中心)出口,構(gòu)建一臺(tái)用來連接算力和用戶接入的綜合網(wǎng)關(guān)設(shè)備,兼容業(yè)務(wù)接入和DC互聯(lián)。

以公眾互聯(lián)網(wǎng)為例,其可以構(gòu)建兩級(jí)算力網(wǎng)關(guān),即用于用戶業(yè)務(wù)接入的算力接入網(wǎng)關(guān)和用于算力連接的智算網(wǎng)關(guān),算力智能網(wǎng)關(guān)布局如圖3所示。算力接入網(wǎng)關(guān)對(duì)接運(yùn)營商骨干網(wǎng)的PE 路由器,承載用戶訪問公有云資源的南北流量。鑒于單用戶流量少、用戶并發(fā)數(shù)大的特點(diǎn),業(yè)界一般采用商用路由器產(chǎn)品,其所支持的路由表項(xiàng)、ACL數(shù)量、QoS策略數(shù)量多。智算網(wǎng)關(guān)類似DCI路由器,用于數(shù)據(jù)中心互連,承載公有云內(nèi)部服務(wù)器之間的數(shù)據(jù)同步、大數(shù)據(jù)分析、容災(zāi)備份、虛擬機(jī)遷移等東西流量。由于單條流帶寬大,流量并發(fā)數(shù)小,初期可基于商用路由器,之后可逐步過渡到自研白盒路由器,以簡(jiǎn)化功能、降低成本。

打開網(wǎng)易新聞 查看精彩圖片

圖3 算力智能網(wǎng)關(guān)布局

對(duì)于企業(yè)用戶專網(wǎng)和算力直聯(lián)網(wǎng)絡(luò)來說,智算網(wǎng)關(guān)是算力中心的統(tǒng)一出口和算力專網(wǎng)的核心設(shè)備,主要完成訓(xùn)練、推理數(shù)據(jù)的傳輸承載,為算力資源的智能 調(diào)度提供必要的數(shù)據(jù)傳輸能力和解析能 力。算力樞紐、智算中心等算力資源節(jié)點(diǎn) 通過智算網(wǎng)關(guān)接入骨干直聯(lián)網(wǎng),為用戶 提供大容量、安全可靠的數(shù)據(jù)傳輸和跨 域協(xié)同訓(xùn)練。因此,智算網(wǎng)關(guān)的技術(shù)要求 相對(duì)較高,主要包括數(shù)據(jù)傳輸承載、算力 資源調(diào)度、跨域協(xié)同訓(xùn)練三個(gè)方面。

一是數(shù)據(jù)傳輸承載。設(shè)備支持高密度100Gbit/s和400Gbit/s端口,滿足基礎(chǔ)大模型及增量訓(xùn)練的高通量數(shù)據(jù)傳輸要求。支持“IP+光技術(shù)”,實(shí)現(xiàn)跨層、跨域端到端光數(shù)統(tǒng)一控制和一體化調(diào)度。

二是算力資源調(diào)度。設(shè)備北向支持通過RESTful API接收算力信息通告,基于空閑算力資源實(shí)現(xiàn)算力尋址,創(chuàng)建滿足需求的SRv6 隧道;支持隨流檢測(cè)功能,實(shí)現(xiàn)流量調(diào)優(yōu)。

三是跨域協(xié)同訓(xùn)練。設(shè)備端口支持高速、大容量緩 存,滿足廣域RDMA協(xié)同 訓(xùn)練的網(wǎng)絡(luò)無損要求;支持 PFC、ECN、Fast CNP等流控技術(shù),保障網(wǎng)絡(luò)能快速感知擁塞,防止訓(xùn)練中斷。

提供場(chǎng)景化的算網(wǎng)融合服務(wù)

算力互聯(lián)網(wǎng)建設(shè)的最終目的是能夠跨域、跨網(wǎng)調(diào)度位于各層級(jí)的算力資源,并提供算力間的專有服務(wù)通道,實(shí)現(xiàn)算力間數(shù)據(jù)的高效流轉(zhuǎn),從而為新型計(jì)算任務(wù)提供精細(xì)化、場(chǎng)景化的算力服務(wù)。算力服務(wù)商面向用戶可提供算力交易服務(wù);算力互聯(lián)網(wǎng)運(yùn)營商構(gòu)建并運(yùn)營算力資源互聯(lián)互通和調(diào)度平臺(tái),同時(shí)整合算力資源,提供算力互聯(lián)以及計(jì)量結(jié)算服務(wù);算力提供商通過統(tǒng)一算力標(biāo)識(shí)體系上報(bào)算力資源以開展算力資源服務(wù);網(wǎng)絡(luò)運(yùn)營商提供彈性的差異化網(wǎng)絡(luò)服務(wù),滿足用戶差異化計(jì)算任務(wù)所需的運(yùn)力資源。

結(jié)合目前主流的業(yè)務(wù)需求,本文提出聚焦三大場(chǎng)景打造新型算網(wǎng)融合產(chǎn)品及服務(wù),如“東數(shù)西備”服務(wù)、AI模型訓(xùn)練調(diào)度服務(wù)、視頻算網(wǎng)產(chǎn)品、數(shù)據(jù)快遞產(chǎn)品等,提供“算力即服務(wù)”,實(shí)現(xiàn)算網(wǎng)融合的高效賦能,推動(dòng)產(chǎn)業(yè)構(gòu)建算網(wǎng)融合生態(tài)。

一是提供訓(xùn)推協(xié)同場(chǎng)景服務(wù)?;谒憔W(wǎng)平臺(tái)的多元異構(gòu)算力高效供給能力,以及基礎(chǔ)網(wǎng)絡(luò)廣泛接入的覆蓋優(yōu)勢(shì), 訓(xùn)推 協(xié)同可依托集約化管理能力實(shí)現(xiàn)“算力產(chǎn)品化供給+廣域協(xié)同 調(diào)度”的云網(wǎng)一體新特色,支撐“中訓(xùn)邊推”“西訓(xùn)東推”等訓(xùn) 推協(xié)同場(chǎng)景。

算網(wǎng)協(xié)同可實(shí)現(xiàn)算力智能調(diào)度。通過時(shí)延優(yōu)先、成本優(yōu)先、位置優(yōu)先、負(fù)載優(yōu)先、數(shù)據(jù)優(yōu)先等編排策略,實(shí)現(xiàn)智算任務(wù)在私有智算、政府智算、公有云商智算等異構(gòu)泛在智算云池最優(yōu)算力節(jié)點(diǎn)的智能調(diào)度。

泛在分布的云邊智算資源池可構(gòu)建訓(xùn)推協(xié)同的算網(wǎng)融合服務(wù),實(shí)現(xiàn)“中心—骨干—邊緣”三級(jí)深度協(xié)同,將智算任務(wù)分配到最合理的資源節(jié)點(diǎn);通過一鍵下發(fā)AI模型到一個(gè)或多個(gè)邊緣推理側(cè)節(jié)點(diǎn),實(shí)現(xiàn)訓(xùn)推之間的自主閉環(huán),支撐“中訓(xùn)邊推”“西訓(xùn)東推”等場(chǎng)景。AI訓(xùn)練與推理一體化協(xié)同架構(gòu)如圖4所示。

打開網(wǎng)易新聞 查看精彩圖片

圖4 AI訓(xùn)練與推理一體化協(xié)同架構(gòu)

二是提供通智協(xié)同場(chǎng)景服務(wù)。通智協(xié)同是指通算、智算資源在同一個(gè)業(yè)務(wù)場(chǎng)景下,基于算力互聯(lián)網(wǎng)絡(luò)實(shí)現(xiàn)跨架構(gòu)、跨地域的資源協(xié)同;基于網(wǎng)絡(luò)互聯(lián)、模型遷移適配,融合適合邏輯處理的通用算力、適合智能化數(shù)據(jù)分析的智算算力,完成通智算力一體化,共同支撐高性能業(yè)務(wù)場(chǎng)景。

基于通智一體的車輛識(shí)別網(wǎng)絡(luò)架構(gòu)如圖5所示。

打開網(wǎng)易新聞 查看精彩圖片

圖5 基于通智一體的車輛識(shí)別網(wǎng)絡(luò)架構(gòu)

三是提供資源彈性伸縮服務(wù)。跨服務(wù)商、跨地域的智算資源可提供分布式推理分發(fā)能力,實(shí)現(xiàn)將AI模型自動(dòng)分發(fā)到一個(gè)或多個(gè)資源節(jié)點(diǎn),支持人工指定和基于策略智能調(diào)度部署節(jié)點(diǎn);實(shí)時(shí)感知AI模型推理服務(wù)的資源及SLA指標(biāo),配置彈性伸縮策略,結(jié)合實(shí)際的請(qǐng)求情況動(dòng)態(tài)調(diào)整推理服務(wù)部署,實(shí)現(xiàn)智算資源及智算服務(wù)的最優(yōu)化配置。分布式算網(wǎng)資源彈性伸縮架構(gòu)如圖6所示。

打開網(wǎng)易新聞 查看精彩圖片

圖6 分布式算網(wǎng)資源彈性伸縮架構(gòu)

總結(jié)

本文闡述了構(gòu)建算力互聯(lián)網(wǎng)的目標(biāo)、路徑以及多種場(chǎng)景 化的算網(wǎng)融合服務(wù)方案,希望通過技術(shù)創(chuàng)新和服務(wù)模式優(yōu)化,實(shí)現(xiàn)跨域、跨網(wǎng)算力資源的高效調(diào)度與利用,為新型計(jì)算需求提供精細(xì)化、場(chǎng)景化的算力支持。在“東數(shù)西算”背景下,算力互聯(lián)網(wǎng)的發(fā)展前景廣闊,通過持續(xù)的技術(shù)創(chuàng)新和模式探索,算力資源的利用效率將進(jìn)一步提升,從而更好地滿足多樣化的業(yè)務(wù)需求,并推動(dòng)我國數(shù)字化轉(zhuǎn)型邁向更高水平。