通信世界網(wǎng)消息(CWW)追溯算力網(wǎng)絡的提法,與很多新技術(shù)的歷程一樣,首先會在標準領(lǐng)域,比如CCSA、ITU-T看到端倪,2019年8月第一篇算力網(wǎng)絡相關(guān)文稿在CCSA立項。經(jīng)過幾年不斷的討論,業(yè)界已經(jīng)達成了一定共識,目前算力網(wǎng)絡已經(jīng)成為國家戰(zhàn)略性新興產(chǎn)業(yè)研究的方向之一。

從技術(shù)角度剖析算力網(wǎng)絡的產(chǎn)生必然性,必定先從云開始談起。毋庸置疑,云計算的確改變了企業(yè)和個人的工作方式,提供了一種彈性靈活、易維易建且性價比高的新選擇。云計算最開始就是以一種集中的形態(tài)出現(xiàn)的,云服務商把數(shù)以千萬計的服務器集中在一個地理區(qū)域內(nèi),以資源池化、可高度復用共享的方式提供各類IaaS、PaaS、SaaS服務。這的確很宏大,但在發(fā)展過程中也不斷暴露出一些問題,其中一點就是集中高掛的云資源池并不適用于所有用戶,比如對低時延、大帶寬有訴求的用戶。云服務商意識到了這個問題,開始向“集中-邊緣”協(xié)同的架構(gòu)演進,在邊緣機房不斷增設邊緣云,與中心云一起對外提供云服務。云既然分成不同層級,提供的云服務也相應分級,集中云可以提供大通量的高算力服務,邊緣云可以提供低時延、大帶寬、低算力服務。如何同時兼顧云提供的算力能力和接入點到云的網(wǎng)絡指標,給用戶選擇最合適的云,算力網(wǎng)絡技術(shù)就是一種非常合適的選擇。

在算力網(wǎng)絡概念提出之前,已經(jīng)有了云網(wǎng)融合的提法,云網(wǎng)融合更側(cè)重于云,網(wǎng)絡在其中是提供可達性的一種手段。而算力網(wǎng)絡則是強調(diào)將算力和網(wǎng)絡并列,同時兼顧。算力網(wǎng)絡和云網(wǎng)融合之間既有共同點,也有一定的區(qū)別。

算力網(wǎng)絡本質(zhì)上是一個生態(tài)系統(tǒng),涵蓋用戶、應用、算力、網(wǎng)絡等多個要素,通過算網(wǎng)調(diào)度平臺(或者“算網(wǎng)大腦”)把各要素串聯(lián)起來。作為算力供給方和算力需求方之間的橋梁,這個平臺要真正發(fā)揮作用,必須得有豐富的應用生態(tài)、明確的算網(wǎng)度量、動態(tài)的調(diào)度策略,否則算力網(wǎng)絡就是空中樓閣,難以發(fā)揮作用。算力網(wǎng)絡架構(gòu)(如圖1所示)可以劃分為三層,最底層是算力網(wǎng)絡基礎設施層,提供算力基礎設施和網(wǎng)絡基礎設施。算力一般先支持自有的算力系統(tǒng),后續(xù)不斷擴展,對三方算力進行納管,提供更豐富、覆蓋面更廣的算力服務。網(wǎng)絡則從骨干網(wǎng)/城域網(wǎng)向下不斷滲透,將各類接入網(wǎng)納入管轄范疇,提供端到端的網(wǎng)絡服務。

打開網(wǎng)易新聞 查看精彩圖片

圖1 算力網(wǎng)絡架構(gòu)

中間是算力網(wǎng)絡控制層,起到承上啟下的作用,一方面將算力信息和網(wǎng)絡信息存儲起來;另一方面根據(jù)應用需求、調(diào)度策略的配置對算網(wǎng)進行綜合決策,選擇合適的算力資源池,并打通網(wǎng)絡路徑。

最上層是算力網(wǎng)絡服務層,提供開放能力給各類算網(wǎng)應用,對應用的算網(wǎng)需求進行語義解析,調(diào)用網(wǎng)絡控制層為各類應用提供滿足要求的算網(wǎng)服務。

算力網(wǎng)絡架構(gòu)

按算網(wǎng)調(diào)度決策的位置是集中還是分散,算力網(wǎng)絡可以劃分為集中式和分布式兩種架構(gòu)。

集中式算力網(wǎng)絡中算網(wǎng)調(diào)度平臺是中樞,由它來分別獲取算力使用、網(wǎng)絡拓撲及質(zhì)量情況,在內(nèi)部通過數(shù)據(jù)庫存儲算網(wǎng)關(guān)鍵信息。當應用有算網(wǎng)請求時,由算網(wǎng)調(diào)度平臺進行集中決策,兼顧應用的算力請求和網(wǎng)絡要求,選擇合適的云資源池,并打通網(wǎng)絡承載路徑,將應用流量引導過來。分布式算力網(wǎng)絡中算網(wǎng)調(diào)度平臺(如圖2所示)功能弱化,更側(cè)重運維和分析功能。網(wǎng)絡邊緣節(jié)點會感知下掛的云資源池內(nèi)算力使用情況,并通過IBGP/EBGP在網(wǎng)絡域進行通告,這樣整網(wǎng)的網(wǎng)絡設備都有了算網(wǎng)關(guān)鍵信息。當應用有算網(wǎng)請求時,用戶側(cè)網(wǎng)絡設備就可以快速根據(jù)本地存儲的信息進行決策,選擇合適的云資源池并打通網(wǎng)絡承載路徑。

打開網(wǎng)易新聞 查看精彩圖片

圖2 分布式算力網(wǎng)絡中算網(wǎng)調(diào)度平臺

一般把分布式架構(gòu)下網(wǎng)絡設備上新增的功能稱為算力路由功能(如圖3所示),此時可以看到網(wǎng)絡設備不再是單純的網(wǎng)絡流量承載,在其上已經(jīng)融合進了算力的因素。正如任何技術(shù)都有正反面一樣,集中式和分布式各有優(yōu)劣:集中式方案相對簡單,網(wǎng)絡承載設備沒有額外要求,網(wǎng)絡并不感知算力,但算網(wǎng)調(diào)度平臺作為方案的核心,系統(tǒng)重載,在大規(guī)模算網(wǎng)部署時將成為性能瓶頸,同時對于算網(wǎng)服務請求的響應相對緩慢;分布式方案中網(wǎng)絡感知了算力,算力和網(wǎng)絡是一體內(nèi)生的,對于算網(wǎng)請求的響應會相對快速實時,但同時也要求網(wǎng)絡承載設備改變轉(zhuǎn)發(fā)邏輯,能夠感知算力、同步算力并支持對算網(wǎng)服務請求的響應,增加了網(wǎng)絡承載設備的技術(shù)難度。目前集中式架構(gòu)的算力網(wǎng)絡方案相對成熟,運營商均有類似的自研產(chǎn)品,一些產(chǎn)學研項目也在開發(fā)“算網(wǎng)大腦”來集中管控算力和網(wǎng)絡。分布式架構(gòu)的探索還在進行中,目前在標準領(lǐng)域、原型方面有一定成果。

圖3 分布式架構(gòu)算力路由

算力網(wǎng)絡關(guān)鍵技術(shù)

算力網(wǎng)絡依賴一些關(guān)鍵技術(shù)(如圖4所示),這些技術(shù)之間環(huán)環(huán)相扣,協(xié)同支撐算力網(wǎng)絡體系的實現(xiàn)。其中算網(wǎng)度量是最基礎的,相當于定義了供需雙方溝通的語言。明確好度量定義后,通過算網(wǎng)感知獲取系統(tǒng)中的算力信息和網(wǎng)絡信息,形成內(nèi)部的決策依據(jù)。之后算網(wǎng)應用會發(fā)出算網(wǎng)請求,平臺進行算網(wǎng)調(diào)度提供合適的算網(wǎng)服務。算網(wǎng)度量:作為一個拉通供需雙方的平臺,首先要有一套雙方均認可的度量標準,供給方需要遵循度量標準表述自己能提供的服務能力,請求方也需要遵循同樣的標準說明自身需要什么樣的服務能力。網(wǎng)絡類的度量比較容易定義,網(wǎng)因子可以包括帶寬、時延、抖動、丟包率、可靠性等。算力類的算因子度量指標要按服務層次進一步劃分,IaaS類算力可以通過CPU核數(shù)、內(nèi)存可用容量、存儲可用容量等指標衡量。PaaS類算力提供的服務類型有差異,需要定義不同的度量指標,比如數(shù)據(jù)庫通過QPS/TPS、消息隊列通過每秒處理的消息數(shù)來衡量等。SaaS類則提供的服務更抽象,度量也要按服務類型細分,如音頻編解碼能力、視頻編解碼能力、業(yè)務會話數(shù)、業(yè)務繁忙狀態(tài)等。算網(wǎng)度量是算力網(wǎng)絡的基石,目前在標準領(lǐng)域已開展若干研究,算力度量更偏重于IaaS層,PaaS和SaaS層度量需要不斷豐富。

集中式和分布式架構(gòu)均采用相同的算網(wǎng)度量標準,但其他關(guān)鍵技術(shù)在集中式或分布式架構(gòu)下有不同的實現(xiàn)方式。

算網(wǎng)感知:算力網(wǎng)絡需要對算力信息和網(wǎng)絡信息進行感知并記錄,作為決策時的參考依據(jù)。

集中式架構(gòu)下,算網(wǎng)調(diào)度平臺需要獲取云內(nèi)算力使用信息,可以采用訂閱式的被動方式獲取,也可以采用周期性主動方式獲?。煌瑫r算網(wǎng)調(diào)度平臺也可以從網(wǎng)絡域獲取到網(wǎng)絡拓撲信息,在平臺內(nèi)部創(chuàng)建算網(wǎng)地圖,保存算力供給信息和網(wǎng)絡狀態(tài)信息。對于跨域場景,集中式架構(gòu)支持相對簡單,調(diào)度平臺可以同時獲取多域內(nèi)的算力和網(wǎng)絡信息,在平臺內(nèi)部進行信息構(gòu)建。如果算網(wǎng)規(guī)模較大,一方面可以通過調(diào)度平臺彈性可擴展的架構(gòu)來支撐,另一方面可以按多級調(diào)度平臺方式部署,依靠軟件實現(xiàn)的功能相對靈活。

分布式架構(gòu)下,與云資源池接口的網(wǎng)絡設備首先獲取到云內(nèi)的算力使用情況,然后通過IBGP等協(xié)議在域內(nèi)進行泛洪,將算力信息同步至域內(nèi)的每臺網(wǎng)絡設備上。此時網(wǎng)絡設備相互傳遞的不再僅限于網(wǎng)絡拓撲信息、路由可達信息、網(wǎng)絡鏈路信息,還額外增加了算力信息,網(wǎng)絡設備轉(zhuǎn)發(fā)的依據(jù)也不再僅是報文的目的地址,而是到目的地的網(wǎng)絡情況和目的云資源池的算力滿足情況。對于跨域場景,需要在域間ASBR通過EBGP向?qū)Χ税l(fā)布本域內(nèi)的算網(wǎng)信息,考慮到算網(wǎng)信息的龐雜性,一般會在ASBR處先做域內(nèi)算網(wǎng)信息的聚合,再對外發(fā)布,以減少信息交互量和對網(wǎng)絡設備的處理壓力。

算網(wǎng)請求:算力網(wǎng)絡供給側(cè)信息收集后,誰來使用?一定是對算力和網(wǎng)絡同時有訴求的算網(wǎng)應用。需要澄清的是,不是所有的應用都需要算力網(wǎng)絡,對時延、帶寬不敏感的應用完全可以按原有的模式構(gòu)建在云計算之上,網(wǎng)絡只是作為可達性配套而已。算網(wǎng)應用在表述算力網(wǎng)絡需求時應遵循算網(wǎng)度量指標,與供給側(cè)相匹配。

集中式架構(gòu)下,算網(wǎng)請求由算網(wǎng)應用向算網(wǎng)調(diào)度平臺發(fā)起,兩者之間一般通過RestAPI接口交互,接口中明確定義了應用關(guān)注的算力信息和網(wǎng)絡信息應如何攜帶。從根本上說,只有應用才清楚自己對算力網(wǎng)絡的訴求,因此算力網(wǎng)絡需要應用深入?yún)⑴c,應用是有一定改造工作量的。

分布式架構(gòu)下,算網(wǎng)請求直接包含在應用的流量中,攜帶算網(wǎng)請求可以有不同的實現(xiàn)方式,如果應用能加以改造,應用可以通過擴展頭的方式攜帶算力和網(wǎng)絡訴求,但此類改造需要操作系統(tǒng)的配合,有一定技術(shù)難度。另一種方式可以預先定義若干算網(wǎng)服務模板,以不同的服務ID對外提供,應用攜帶不同的服務ID表述自己的算網(wǎng)請求。

算網(wǎng)調(diào)度:算力網(wǎng)絡收到應用發(fā)起的算網(wǎng)請求后,結(jié)合算網(wǎng)感知階段收集到的算力信息和網(wǎng)絡信息,結(jié)合動態(tài)配置的調(diào)度策略(如云資源負載均衡策略、就近服務策略等),選擇最匹配的云資源池。

集中式架構(gòu)下,算網(wǎng)調(diào)度平臺解析算網(wǎng)請求,進行算網(wǎng)決策,選擇最匹配的云資源池,打通應用接入點到云資源池之間的承載路徑,同時通過各種引流技術(shù)將應用流量引入承載網(wǎng)絡中。

分布式架構(gòu)下,應用發(fā)起算網(wǎng)請求后,用戶側(cè)網(wǎng)絡邊緣節(jié)點解析應用流量攜帶的算網(wǎng)請求,在內(nèi)部首先做服務ID到算網(wǎng)請求明細需求的映射,然后進行算網(wǎng)決策,選擇最匹配的云資源池,打通應用接入點到云資源池之間的承載路徑,同時通過各種引流技術(shù)將應用流量引入承載網(wǎng)絡中。

算力網(wǎng)絡展望

算力網(wǎng)絡是螺旋式發(fā)展的,穩(wěn)態(tài)和動態(tài)并存,當前已經(jīng)有了集中式算力網(wǎng)絡的原型,能夠配合特定應用提供算網(wǎng)服務,同時算力網(wǎng)絡的研究還在向更深、更廣、更完善的方向延伸。

算力方面,從集中式云計算到云邊協(xié)同的邊緣計算,不同層級的云資源池共同提供算網(wǎng)服務。未來算力可能再往下延伸到端側(cè),各類泛在算力的存在可以作為現(xiàn)有云邊資源的補充,算力網(wǎng)絡也可以相應向下延展,但端側(cè)算力的可信、度量、認證需要持續(xù)分析,避免引入安全風險。另外,算力度量在IaaS層比較容易達成共識,但在PaaS和SaaS層由于服務類型多樣、服務特征不同,度量指標需要算網(wǎng)調(diào)度平臺和應用共同制定,還會經(jīng)過較長周期。

網(wǎng)絡方面,目前開發(fā)重點集中在城域核心之上的網(wǎng)絡,未來算力網(wǎng)絡要繼續(xù)向下管理到接入網(wǎng)、城域網(wǎng)等,同時基于IBGP或者EBGP發(fā)布算力信息是一個基本共識。但要想實現(xiàn)多廠家網(wǎng)絡設備之間的互通,需要運營商牽頭定義好詳細的協(xié)議報文格式,比如復用原有地址族還是新定義地址族、明確TLV字段的含義、如何避免動態(tài)與頻繁的算力變化影響相對穩(wěn)定的BGP協(xié)議,都需要經(jīng)過業(yè)界的充分討論。

生態(tài)方面,算力網(wǎng)絡是應用的支撐平臺,沒有應用,算力網(wǎng)絡就沒有生命。但如何讓應用愿意基于算力網(wǎng)絡做定制開發(fā),需要有對應用足夠的利益驅(qū)動,這不僅是一個技術(shù)問題,更是一個生態(tài)問題,如何讓各方在算力網(wǎng)絡的演進中持續(xù)共贏是一個需要長期推動、重點關(guān)注的方向。

IETF作為IP網(wǎng)絡領(lǐng)域最權(quán)威的標準組織,去年成立了CATS工作組并專注于算力路由的研究,新華三也積極參與標準的寫作和推進,將在標準領(lǐng)域發(fā)出更多聲音。