機(jī)器之心發(fā)布
機(jī)器之心編輯部
AI 大模型的爆發(fā)帶動(dòng)了 GPU 的強(qiáng)勁需求,從云端到邊緣滲透的 AI 應(yīng)用也將帶動(dòng)邊緣 AI 服務(wù)器及加速處理器的需求。通過對(duì)比 GPGPU、FPGA、NPU 和 ASIC,可重構(gòu)計(jì)算架構(gòu) CGRA 成為最適合邊緣 AI 的并行計(jì)算架構(gòu)。由芯動(dòng)力提出的可重構(gòu)并行處理器(RPP)是比傳統(tǒng) CGRA 更適合大規(guī)模并行處理的計(jì)算架構(gòu),這不但通過試驗(yàn)評(píng)測(cè)得到證實(shí),而且也通過 ISCA 會(huì)議得到國際學(xué)術(shù)權(quán)威的認(rèn)可?;?RPP 架構(gòu)的 R8 芯片及后續(xù)更高性能的迭代芯片將是邊緣 AI 服務(wù)器和 AI PC 的理想 AI 加速處理器選擇。
目錄
一、什么是邊緣 AI?
二、邊緣 AI 服務(wù)器市場(chǎng)趨勢(shì)
三、適合邊緣 AI 的理想計(jì)算架構(gòu)
四、RPP 架構(gòu)詳解
五、RPP 處理器 R8 能效對(duì)比
六、RPP 處理器到國際學(xué)術(shù)權(quán)威認(rèn)可
七、結(jié)語
一、什么是邊緣 AI?
邊緣 AI(AI Edge)是人工智能 (AI) 與邊緣計(jì)算交叉的先進(jìn)技術(shù),這一概念源于 AI 從云端向邊緣下沉的分布式計(jì)算范式轉(zhuǎn)變。邊緣 AI 的核心是將 AI 算法直接嵌入到產(chǎn)生大量數(shù)據(jù)的本地環(huán)境中,例如智能手機(jī)、物聯(lián)網(wǎng)設(shè)備或本地服務(wù)器,通過位于網(wǎng)絡(luò) “邊緣”(即更靠近數(shù)據(jù)源)的設(shè)備和系統(tǒng)進(jìn)行實(shí)時(shí)數(shù)據(jù)處理和分析。
相對(duì)于傳統(tǒng)的數(shù)據(jù)中心或云計(jì)算平臺(tái)的 AI 訓(xùn)練或推理,邊緣 AI 的主要優(yōu)勢(shì)在于 “就地處理”,大大減少了數(shù)據(jù)傳輸和處理的延遲,這在智能監(jiān)控、自動(dòng)駕駛、實(shí)時(shí)醫(yī)療診斷或工業(yè)自動(dòng)化控制等應(yīng)用場(chǎng)景中尤其重要。
實(shí)現(xiàn)邊緣 AI 計(jì)算的設(shè)備和系統(tǒng)主要包括:
- 智能終端:主要用于產(chǎn)生或收集數(shù)據(jù)的設(shè)備,如智能傳感器、智能手機(jī)、AI PC 或物聯(lián)網(wǎng)設(shè)備等;
- 邊緣 AI 服務(wù)器:直接對(duì)所收集數(shù)據(jù)進(jìn)行處理和分析的邊緣設(shè)備及軟硬件系統(tǒng),比如專用的大語言模型(LLM)AI 推理服務(wù)器、智能駕駛區(qū)域計(jì)算中心服務(wù)器等;
- 通信網(wǎng)絡(luò)設(shè)備:盡管邊緣 AI 應(yīng)用對(duì)通信網(wǎng)絡(luò)的帶寬和速率要求沒有云端那么高,但也必須提供可靠的高速連接才能達(dá)到邊緣 AI 所需的低延遲和實(shí)時(shí)性要求。
本文主要討論邊緣 AI 服務(wù)器及其市場(chǎng)發(fā)展趨勢(shì)、對(duì) AI 加速處理器的要求,以及適合邊緣 AI 應(yīng)用的并行計(jì)算架構(gòu)和處理器實(shí)現(xiàn)。
二、邊緣 AI 服務(wù)器市場(chǎng)趨勢(shì)
AI 服務(wù)器是指專為人工智能應(yīng)用而設(shè)計(jì)的高性能計(jì)算機(jī)設(shè)備,能夠支持大規(guī)模數(shù)據(jù)處理、模型訓(xùn)練、推理計(jì)算等復(fù)雜任務(wù)。AI 服務(wù)器通常配備高性能的處理器、高速內(nèi)存、大容量高速存儲(chǔ)系統(tǒng),以及高效的散熱系統(tǒng),以滿足 AI 算法對(duì)計(jì)算資源的極高需求。按不同的分類標(biāo)準(zhǔn),AI 服務(wù)器可以大致分為訓(xùn)練服務(wù)器、推理服務(wù)器、GPU 服務(wù)器、FPGA 服務(wù)器、CPU 服務(wù)器、云端 AI 服務(wù)器,以及邊緣 AI 服務(wù)器等。
據(jù) Gartner 預(yù)測(cè),從現(xiàn)在到 2027 年,AI 服務(wù)器市場(chǎng)規(guī)模將保持高速增長(zhǎng),年復(fù)合增長(zhǎng)率高達(dá) 30%。該機(jī)構(gòu)發(fā)布的《2024 年第一季度全球服務(wù)器市場(chǎng)報(bào)告》顯示,今年 Q1 全球服務(wù)器市場(chǎng)銷售額為 407.5 億美元,同比增長(zhǎng) 59.9%;出貨量為 282.0 萬臺(tái),同比增長(zhǎng) 5.9%。在眾多 AI 服務(wù)器供應(yīng)商中,浪潮信息蟬聯(lián)全球第二,中國第一,其服務(wù)器出貨量在全球市場(chǎng)占比 11.3%,同比增長(zhǎng) 50.4%,在 TOP5 廠商中增速第一。
另據(jù)中商產(chǎn)業(yè)研究院發(fā)布的《2024-2029 年中國服務(wù)器行業(yè)需求預(yù)測(cè)及發(fā)展趨勢(shì)前瞻報(bào)告》,2022 年末,國內(nèi)市場(chǎng)總規(guī)模超過 420 億元,同比增長(zhǎng)約 20%;2023 年約為 490 億元,市場(chǎng)增速逐步放緩;預(yù)計(jì) 2024 年市場(chǎng)規(guī)模將達(dá) 560 億元。從出貨量來看,2022 年中國 AI 服務(wù)器市場(chǎng)出貨量約 28.4 萬臺(tái),同比增長(zhǎng)約 25.66%;2023 年約為 35.4 萬臺(tái),預(yù)計(jì) 2024 年將達(dá)到 42.1 萬臺(tái)。
在 AI 大模型發(fā)展早期,AI 服務(wù)器需求以模型訓(xùn)練為主,因而訓(xùn)練型服務(wù)器占據(jù)市場(chǎng)主導(dǎo)地位。目前,AI 服務(wù)器市場(chǎng)中 57.33%為訓(xùn)練型服務(wù)器,推理型服務(wù)器占比達(dá) 42.67%。然而,隨著生成式 AI 應(yīng)用往邊緣端滲透,預(yù)計(jì)未來推理型服務(wù)器將逐漸成為市場(chǎng)主流,邊緣 AI 服務(wù)器從出貨量上將超過云端訓(xùn)練和推理服務(wù)器。
IDC 最新發(fā)布的《中國半年度邊緣計(jì)算市場(chǎng)(2023 全年)跟蹤》報(bào)告數(shù)據(jù)顯示,2023 年中國邊緣計(jì)算服務(wù)器市場(chǎng)繼續(xù)保持穩(wěn)步上升,同比增長(zhǎng) 29.1%。IDC 預(yù)測(cè),到 2028 年,中國邊緣計(jì)算服務(wù)器市場(chǎng)規(guī)模將達(dá)到 132 億美元。
作為邊緣計(jì)算的重要組成部分,2023 年定制邊緣服務(wù)器規(guī)模已達(dá) 2.4 億美元,相較 2022 年增長(zhǎng) 16.8%。從廠商銷售額角度來看,邊緣定制服務(wù)器市場(chǎng)中占比較大的廠商分別是浪潮信息、聯(lián)想、華為、新華三。隨著邊緣計(jì)算應(yīng)用的多樣化發(fā)展,新興服務(wù)器廠商在車路協(xié)同、邊緣 AI 和智能終端等業(yè)務(wù)場(chǎng)景和應(yīng)用市場(chǎng)將有較大突破,使得邊緣服務(wù)器市場(chǎng)呈現(xiàn)出多樣化格局。
三、適合邊緣 AI 的理想計(jì)算架構(gòu)
PC 時(shí)代由 WINTEL(微軟 Windows + 英特爾 CPU)聯(lián)盟主導(dǎo)、智能手機(jī)時(shí)代由 Android+Arm 聯(lián)盟主導(dǎo),AI 時(shí)代將由哪個(gè)聯(lián)盟主導(dǎo)呢?一個(gè)新的聯(lián)盟正初露端倪,那就是由英偉達(dá)和臺(tái)積電組成的 NT 聯(lián)盟(Nvidia+TSMC)。據(jù)華爾街投資專家預(yù)測(cè),2024 年 NT 聯(lián)盟總營收預(yù)計(jì)將達(dá)到 2000 億美元,總凈利潤 1000 億美元,總市值有望突破 5 萬億美元。由云端 AI 訓(xùn)練和 AI 大模型應(yīng)用驅(qū)動(dòng)的英偉達(dá) GPU 和臺(tái)積電 AI 芯片制造業(yè)務(wù)將成為今年最大的贏家。
盡管英偉達(dá)在云端 AI 訓(xùn)練和推理市場(chǎng)占據(jù)了絕對(duì)主導(dǎo)地位,但在邊緣 AI 應(yīng)用場(chǎng)景中英偉達(dá)的 GPGPU 卻不是最佳選擇,因?yàn)槠溆?jì)算架構(gòu)固有的高功耗和高成本問題限制了其在更為廣泛而分散的邊緣 AI 應(yīng)用中的作用。計(jì)算機(jī)架構(gòu)領(lǐng)域的學(xué)者專家都在尋求能夠替代 GPGPU 的高能效并行技術(shù)架構(gòu),基于特定域?qū)S眉軜?gòu)(DSA)的 ASIC 設(shè)計(jì)是一種可行的關(guān)鍵思路,比如谷歌的張量處理單元 (TPU) ,這種專為加速機(jī)器學(xué)習(xí)工作負(fù)載而設(shè)計(jì)的處理器采用脈動(dòng)陣列架構(gòu),可高效執(zhí)行乘法和累加運(yùn)算,主要面向數(shù)據(jù)中心應(yīng)用。另外一個(gè)思路是以三星為代表的神經(jīng)處理單元 (NPU) ,它專為移動(dòng)場(chǎng)景而設(shè)計(jì),具有節(jié)能的內(nèi)積引擎,可利用輸入特征圖稀疏性來優(yōu)化深度學(xué)習(xí)推理的性能。
雖然 TPU 和 NPU 都能夠提供部分替代 GPGPU 的高性能和節(jié)能解決方案,但它們的專用設(shè)計(jì)屬性限制了其多功能性和廣泛的適用性。總部位于美國加州且在臺(tái)灣和大陸都有研發(fā)中心的邊緣 AI 芯片初創(chuàng)公司耐能(Kneron)提出了可重構(gòu) NPU 的方案,使得 NPU 芯片有 ASIC 高性能而又不犧牲數(shù)據(jù)密集型算法的可編程性。憑借獨(dú)特創(chuàng)新的架構(gòu)和優(yōu)異的性能,耐能團(tuán)隊(duì)獲得 IEEE CAS 2021 年 Darlington 最佳論文獎(jiǎng)。耐能第 4 代可重構(gòu) NPU 可以支持同時(shí)運(yùn)行 CNN 和 Transformer 網(wǎng)絡(luò),既可做機(jī)器視覺,也可運(yùn)行語義分析。與僅面向特定應(yīng)用的普通 AI 模型不同,耐能的可重構(gòu)人工神經(jīng)網(wǎng)絡(luò)(RANN)技術(shù)更加靈活,可滿足不同應(yīng)用需求并適應(yīng)各種計(jì)算體系架構(gòu)。據(jù)該公司宣稱,其邊緣 GPT AI 芯片 KL830 可應(yīng)用于 AI PC、USB 加速棒和邊緣服務(wù)器,當(dāng)與 GPU 配合使用時(shí),NPU 可將設(shè)備能耗降低 30%。
可重構(gòu)硬件是另一種可提供高性能和節(jié)能計(jì)算的解決方案,現(xiàn)場(chǎng)可編程門陣列 (FPGA) 是可重構(gòu)硬件計(jì)算的代表,其特點(diǎn)是細(xì)粒度可重構(gòu)性。FPGA 利用具有可編程互連的可配置邏輯塊來實(shí)現(xiàn)自定義計(jì)算內(nèi)核。這種定制的計(jì)算能力使得基于 FPGA 的加速器能夠部署在金融計(jì)算、深度學(xué)習(xí)和科學(xué)仿真等廣泛的大規(guī)模計(jì)算應(yīng)用中。然而,F(xiàn)PGA 提供的位級(jí)可重構(gòu)性會(huì)帶來明顯的面積和功率額外開銷,而且沒有規(guī)模成本效益,這極大地限制了其在需要低功耗和小尺寸的應(yīng)用場(chǎng)景中的適用性。
粗粒度可重構(gòu)架構(gòu) (CGRA) 代表另一類可重構(gòu)硬件。與 FPGA 相比,CGRA 提供粗粒度的可重構(gòu)性,例如字級(jí)可重構(gòu)功能單元。由于 CGRA 內(nèi)部的 ALU 模塊已經(jīng)構(gòu)建完成,且其互聯(lián)也要比 FPGA 更簡(jiǎn)單、規(guī)模更小,因此其延時(shí)和性能要顯著好于在門級(jí)上進(jìn)行互連形成組合計(jì)算邏輯的 FPGA。CGRA 更適合 word-wise 類型 (32bit 為單位) 的可重構(gòu)計(jì)算,而且可以緩解 FPGA 存在的時(shí)序、面積和功率開銷問題,是未來邊緣 AI 的理想高性能并行計(jì)算架構(gòu)。
下面我們大致梳理一下 CGRA 的發(fā)展歷程:
- 早在 1991 年,國際學(xué)術(shù)界就開啟了可重構(gòu)芯片的研究;
- 2003 年,歐洲宇航防務(wù)集團(tuán) (EADS) 率先在衛(wèi)星上采用可重構(gòu)計(jì)算芯片;
- 2004 年,歐洲 IMEC 提出動(dòng)態(tài)可重構(gòu)結(jié)構(gòu) ADRES,在三星的生物醫(yī)療、高清電視等系列產(chǎn)品中得到應(yīng)用,日本的瑞薩科技也采用這種架構(gòu)。
- 2006 年,清華大學(xué)微電子所魏少軍教授帶領(lǐng)的可重構(gòu)計(jì)算團(tuán)隊(duì)開始進(jìn)行可重構(gòu)計(jì)算理論和架構(gòu)研究;
- 2017 年,美國國防高級(jí)研究計(jì)劃局(DARPA)宣布啟動(dòng)電子復(fù)興計(jì)劃(Electronics Resurgence Initiative,簡(jiǎn)稱 ERI),將 “可重構(gòu)計(jì)算” 技術(shù)列為美國未來 30 年的戰(zhàn)略技術(shù)之一;
- 2018 年,基于清華大學(xué)可重構(gòu)計(jì)算技術(shù)的清微智能成立,正式開啟商業(yè)化進(jìn)程。2019 年,清微智能量產(chǎn)全球第一款可重構(gòu)智能語音芯片 TX210,證明了可重構(gòu)計(jì)算的商業(yè)價(jià)值。2020 年,清微智能獲得中國電子學(xué)會(huì)技術(shù)發(fā)明一等獎(jiǎng);2023 年,國家大基金二期投資清微智能。目前,清微智能共有邊緣端 TX2、TX5 系列芯片,以及用于服務(wù)器領(lǐng)域的 TX8 系列三大芯片產(chǎn)品。其中,TX2 和 TX5 系列芯片已應(yīng)用于智能安防、金融支付、智能穿戴,智能機(jī)器人等多個(gè)領(lǐng)域;面向云端市場(chǎng)的 TX8 高算力芯片主要應(yīng)用場(chǎng)景是 AI 大模型的訓(xùn)練和推理。
- 國內(nèi)另一家基于可重構(gòu)計(jì)算技術(shù)的 AI 芯片初創(chuàng)公司珠海芯動(dòng)力于 2017 年成立,其可重構(gòu)并行處理器(RPP)架構(gòu)是改進(jìn)版的 CGRA。2021 年首顆芯片 RPP-R8 成功流片,2023 年進(jìn)入金融計(jì)算、工業(yè)攝像和機(jī)器人等邊緣 AI 應(yīng)用市場(chǎng),并與浪潮信息達(dá)成戰(zhàn)略合作進(jìn)入邊緣 AI 服務(wù)器市場(chǎng)。
國際計(jì)算機(jī)學(xué)術(shù)界和高科技產(chǎn)業(yè)界已形成共識(shí),基于 CGRA 架構(gòu)的可重構(gòu)計(jì)算芯片具備廣泛的通用計(jì)算能力,可以應(yīng)用于各種邊緣 AI 計(jì)算場(chǎng)景,是解決通用高算力和低功耗需求的必由之路。
四、RPP 處理器架構(gòu)詳解
RPP 和 CGRA 都是屬于粗粒度的可重構(gòu)陣列,都可以達(dá)到類似 ASIC 的面積密度和功率效率,而且都是可以用軟件編程的。但是,RPP 在可重構(gòu)類型和編程模型方面跟 CGRA 還是不同的,具體表現(xiàn)為:
1. RPP 是準(zhǔn)靜態(tài)可重構(gòu)陣列,而傳統(tǒng) CGRA 一般用于動(dòng)態(tài)可重構(gòu)陣列。靜態(tài)可重構(gòu)整列是指每個(gè)指令在處理單元(PE)的執(zhí)行不隨時(shí)間變化,數(shù)據(jù)流也是不變的。對(duì)于編譯器來講,靜態(tài)的可重構(gòu)陣列不需要對(duì)指令在時(shí)間上進(jìn)行安排,這樣就可以讓 RPP 構(gòu)造更加簡(jiǎn)單,指令的分配速度很低。因此,RPP 很容易實(shí)現(xiàn)一個(gè)大型的陣列,譬如 32x32 的陣列。RPP 比傳統(tǒng) CGRA 更加適用于大規(guī)模并行計(jì)算。
2. RPP 使用的是多線程 SIMT 編程模型,而 CGRA 通常使用的是單線程語言編程。RPP 可以兼容 CUDA 語言,更加適合并行計(jì)算。CUDA 語言要求編程人員從一開始就考慮數(shù)據(jù)的并行度,把并行算法用 CUDA 語言表現(xiàn)出來;編譯器則不需要分析并行計(jì)算度,編譯器就非常簡(jiǎn)單;CUDA 語言是 SIMT 類型,只用于數(shù)據(jù)并行的計(jì)算,而且并行度在一個(gè)程序里保持不變。CGRA 則通常使用 C 語言 + 獨(dú)立的編譯器,雖然理論上可以覆蓋任意的計(jì)算類型,但是編譯器非常復(fù)雜,很難達(dá)到較高的編譯效率。
下面圖表對(duì) RPP 及幾個(gè)主流的可重構(gòu)加速架構(gòu)做了對(duì)比。
RPP 架構(gòu)的優(yōu)勢(shì)可以總結(jié)為以下四點(diǎn):
- 具有墊片暫存器(gasket memory)的環(huán)形可重構(gòu)并行處理架構(gòu),允許在不同數(shù)據(jù)流之間高效地重用數(shù)據(jù);
- 分層式內(nèi)存設(shè)計(jì)具有多種數(shù)據(jù)訪問模式、地址映射策略和共享內(nèi)存模式,可實(shí)現(xiàn)高效靈活的內(nèi)存訪問;
- 各種硬件優(yōu)化機(jī)制,如并發(fā)內(nèi)核執(zhí)行、寄存器拆分和重新填充,以及異構(gòu)標(biāo)量和向量計(jì)算,從而提高了整體硬件利用率和性能;
- 一個(gè)兼容 CUDA 的端到端完整軟件棧,具有編譯器、運(yùn)行時(shí)環(huán)境、高度優(yōu)化的 RPP 庫,可實(shí)現(xiàn)邊緣 AI 應(yīng)用的快速高效部署。
芯動(dòng)力基于 RPP 架構(gòu)提出了 RPP 硬件設(shè)計(jì)框圖,并通過 R8 芯片真實(shí)的展現(xiàn)出這種并行計(jì)算架構(gòu)的優(yōu)越性。這種硬件設(shè)計(jì)實(shí)現(xiàn)主要由一個(gè)環(huán)形可重構(gòu)處理器(Circular Reconfigurable Processor)、一個(gè)內(nèi)存單元和一個(gè)序列器組成,見下圖。
- 循環(huán)可重構(gòu)處理器是大規(guī)模并行計(jì)算的核心計(jì)算組件。
- 內(nèi)存單元被分成多個(gè)內(nèi)存組,每個(gè)內(nèi)存組都與一個(gè)緩存配對(duì),以利用程序的時(shí)間和空間局部性實(shí)現(xiàn)高效的數(shù)據(jù)重用。只有當(dāng)環(huán)形可重構(gòu)處理器內(nèi)的寄存器和緩沖區(qū)已滿時(shí),中間數(shù)據(jù)才會(huì)被傳輸并存儲(chǔ)在內(nèi)存單元中。
- 序列器用于解碼和分發(fā)指令到環(huán)形可重構(gòu)處理器,并使用緩存來存儲(chǔ)從 DDR 收到的指令。
環(huán)形可重構(gòu)處理器包括 NPU 處理單元 (PE) 和一個(gè)墊片內(nèi)存。每個(gè) PE 都配備了一個(gè)內(nèi)存端口,以方便對(duì)內(nèi)存單元進(jìn)行數(shù)據(jù)訪問。內(nèi)存端口設(shè)計(jì)有模式控制器、地址計(jì)算單元和多個(gè)多路復(fù)用器,以支持不同的數(shù)據(jù)訪問模式和共享內(nèi)存模式。為了實(shí)現(xiàn)靈活的處理器內(nèi)通信,每個(gè) PE 都集成了一個(gè)開關(guān)盒 (SB) 和一個(gè)互連開關(guān)盒 (ICSB),以實(shí)現(xiàn)高效的數(shù)據(jù)轉(zhuǎn)發(fā)。這些 PE 按線性順序連接,墊片內(nèi)存充當(dāng)?shù)谝粋€(gè)和最后一個(gè) PU 之間的橋梁,從而形成環(huán)形拓?fù)洹?/p>
環(huán)形可重構(gòu)處理器內(nèi)的數(shù)據(jù)處理從第一個(gè) PE 開始,并以流水線方式遍歷 PE,中間計(jì)算結(jié)果按順序輸出到后續(xù) PE。墊片內(nèi)存緩存最后一個(gè) PE 的輸出并將它們重新循環(huán)到第一個(gè) PE,從而最大限度地提高數(shù)據(jù)局部性并消除內(nèi)存單元的內(nèi)存流量。PE 中的關(guān)鍵計(jì)算組件是處理引擎。在每個(gè) PE 中,都有多個(gè)算術(shù)邏輯單元 (ALU),其中每個(gè) ALU 都與數(shù)據(jù)寄存器和地址寄存器耦合。這些數(shù)據(jù)寄存器聚合在一起形成一個(gè)數(shù)據(jù)緩沖區(qū),便于在每個(gè) PE 內(nèi)快速訪問數(shù)據(jù)。
此外,線性交換網(wǎng)絡(luò)和墊片存儲(chǔ)器的組合實(shí)現(xiàn)了靈活的數(shù)據(jù)流控制和高效的數(shù)據(jù)重用,同時(shí)消除了傳統(tǒng)基于網(wǎng)格的 CGRA 設(shè)計(jì)中復(fù)雜的網(wǎng)絡(luò)路由。結(jié)合對(duì)內(nèi)存單元的靈活高效數(shù)據(jù)訪問,RPP 可以優(yōu)化數(shù)據(jù)流處理,最小化內(nèi)存流量,從而最大限度地提高資源利用效率。
RPP 處理器采用 SIMT 編程模型來為靈活多線程管道啟用流式數(shù)據(jù)流處理。
為了確保與現(xiàn)有 GPGPU 軟件生態(tài)系統(tǒng)的兼容性,芯動(dòng)力的 RPP 處理器采用了擁有廣泛用戶群的 CUDA。CUDA 代碼由基于 LLVM 的前端解析,為 RPP 后端生成 PTX 代碼。RPP 編譯器將 CUDA 內(nèi)核解釋為數(shù)據(jù)流圖并將它們映射到虛擬數(shù)據(jù)路徑(VDP)。然后根據(jù)硬件約束將 VDP 分解為多個(gè)物理數(shù)據(jù)路徑(PDP),每個(gè) PDP 的配置由序列器在運(yùn)行時(shí)生成。
RPP 的軟件堆??梢灾С謴V泛的大規(guī)模并行應(yīng)用,包括機(jī)器學(xué)習(xí)、視頻 / 圖像處理和信號(hào)處理等。對(duì)于機(jī)器學(xué)習(xí)應(yīng)用,該堆棧與不同的主流框架兼容,例如 PyTorch、ONNX、Caffe 和 TensorFlow。此外,用戶可以靈活地使用 CUDA 定義他們的自定義程序。這些高級(jí)應(yīng)用程序由 RPP 框架處理,該框架包含一個(gè)編譯器和不同領(lǐng)域特定的庫。在軟件堆棧的底部,采用 RPP 運(yùn)行時(shí)環(huán)境和 RPP 驅(qū)動(dòng)程序來確保使用工具鏈編譯的程序可以在底層硬件上無縫執(zhí)行。
五、RPP 處理器 R8 能效對(duì)比
基于以上 RPP 處理器硬件設(shè)計(jì)和完整軟件堆棧實(shí)現(xiàn)的 RPP-R8 芯片在計(jì)算性能和能效上表現(xiàn)如何呢?
R8 芯片的性能參數(shù)如下表所示:
針對(duì)邊緣計(jì)算場(chǎng)景,芯動(dòng)力將 RPP-R8 芯片與兩款英偉達(dá)邊緣 GPU 進(jìn)行了比較:Jetson Nano 和 Jetson Xavier AGX。Jetson Nano 的芯片尺寸與 RPP 相似,可在物理面積限制內(nèi)提供相關(guān)比較;選擇 Jetson Xavier AGX 是基于其與 RPP-R8 相當(dāng)?shù)睦碚撏掏铝?。芯?dòng)力在 ResNet-50 推理上評(píng)估了這三個(gè) AI 加速平臺(tái),其中 Jetson Nano 的吞吐量來自基準(zhǔn)測(cè)試論文,而 Xavier AGX 的性能數(shù)據(jù)來自英偉達(dá)官方網(wǎng)站。
如上表所示,RPP-R8 的實(shí)測(cè)運(yùn)行吞吐量分別是 Jetson Nano 和 Jetson Xavier AGX 的 41.3 倍和 2.3 倍。要知道,Jetson Xavier AGX 的芯片尺寸幾乎是 R8 的三倍,工藝也更先進(jìn)(12 nm vs. 14 nm),但其性能低于 R8。在能效方面,R8 的能效分別是 Jetson Nano 和 Jetson Xavier AGX 的 27.5 倍和 4.6 倍。這些結(jié)果表明,在面積和功率預(yù)算有限的邊緣 AI 場(chǎng)景中,RPP-R8 的表現(xiàn)明顯優(yōu)于 Jetson Nano 和 Jetson Xavier AGX。
深度學(xué)習(xí)推理是一種廣受認(rèn)可的大規(guī)模并行工作負(fù)載,也是 RPP-R8 硬件的關(guān)鍵應(yīng)用。鑒于 Yolo 系列模型與 ResNet-50 等分類模型相比表現(xiàn)出更高的計(jì)算復(fù)雜度,芯動(dòng)力選擇英偉達(dá) Jeston Nano Orin 作為 GPU 平臺(tái),其峰值吞吐量比 Jetson AGX Xavier 更高,為 40 TOPS。由于 CPU 通常不是為高性能深度學(xué)習(xí)推理而構(gòu)建的,因此選擇 Jetson Xavier Nx 作為比較低端的 GPU 平臺(tái),具有 21 TOPS 的峰值吞吐量。評(píng)估批處理大小為 1、2 和 4 的工作負(fù)載,反映了真實(shí)的邊緣場(chǎng)景。上圖顯示了三個(gè)平臺(tái)的吞吐量性能比較,RPP-R8 在 Yolo-v5m 和 Yolo-v7 tiny 上展示了更高的吞吐量。在批量大小為 1 的情況下,RPP-R8 的吞吐量大約比 Jeston Nano Orin 高 1.5× ~2.5 倍,比 Jeston Xavier Nx 高 2.6× ~4.3 倍。
評(píng)估與測(cè)試結(jié)果表明,RPP 在延遲、吞吐量和能效方面優(yōu)于傳統(tǒng)的 GPU、CPU 和 DSP 等架構(gòu)。RPP 處理器的性能提升歸功于其獨(dú)特的硬件特性,主要包括:1) 循環(huán)數(shù)據(jù)流處理:中間結(jié)果流經(jīng) PE 之間的流水線寄存器和 FIFO,顯著減少了數(shù)據(jù)移動(dòng)和到遠(yuǎn)程內(nèi)存存儲(chǔ)的內(nèi)存流量;與 GPU 和 CPU 中的數(shù)據(jù)處理相比,這種模式效率更高。2) 分層內(nèi)存系統(tǒng):RPP 通過其分層內(nèi)存系統(tǒng)最大化數(shù)據(jù)局部性。RPP-R8 芯片面積的很大一部分(約 39.9%)專用于片上存儲(chǔ)器。這種設(shè)計(jì)選擇提供了廣泛的內(nèi)存容量,增強(qiáng)了數(shù)據(jù)重用并減少了頻繁訪問外部存儲(chǔ)器的需求。3) 矢量化和多線程管道:RPP 的硬件架構(gòu)和編程模型可實(shí)現(xiàn)有效的矢量化和多線程管道。這種設(shè)計(jì)充分利用了 RPP 進(jìn)行并行處理的全部計(jì)算潛力,確保其資源得到最大程度的利用,從而提高性能。
除了在能耗、延遲和吞吐量方面的優(yōu)勢(shì)外,RPP 還因其小面積而脫穎而出。只有 119 平方毫米的芯片面積消耗使得 RPP-R8 成為面積受限的邊緣計(jì)算的理想平臺(tái)。RPP 的另一個(gè)特點(diǎn)是其高可編程性,由全面的端到端軟件堆棧支持,可顯著提高部署效率。與 CUDA 的兼容性使用戶能夠利用熟悉的 CUDA 生態(tài)系統(tǒng),從而縮短學(xué)習(xí)曲線并促進(jìn)更容易的采用。支持即時(shí)編程和圖形編程模式,為用戶提供了高度的靈活性,滿足各種計(jì)算需求。包括 OpenRT 和 RPP-BLAS 在內(nèi)的不同庫支持也促進(jìn)了各種場(chǎng)景中的高性能和高效部署。全棧解決方案,包括硬件架構(gòu)和軟件支持,使 RPP 在各種邊緣計(jì)算硬件中脫穎而出。
六、RPP 架構(gòu)得到國際學(xué)術(shù)權(quán)威認(rèn)可
由芯動(dòng)力攜手英國帝國理工、劍橋大學(xué)、清華大學(xué)和中山大學(xué)等頂尖學(xué)府的計(jì)算機(jī)架構(gòu)團(tuán)隊(duì)共同撰寫的論文《Circular Reconfigurable Parallel Processor for Edge Computing》(RPP 芯片架構(gòu))已成功被第 51 屆計(jì)算機(jī)體系結(jié)構(gòu)國際研討會(huì)(ISCA 2024)的 Industry Track 收錄。芯動(dòng)力創(chuàng)始人兼 CEO 李原博士與帝國理工博士畢業(yè)生 Hongxiang Fan(現(xiàn)在英國劍橋的三星 AI 中心做研究科學(xué)家)受邀在阿根廷布宜諾斯艾利斯舉行的 ISCA 2024 會(huì)議上發(fā)表演講,與 Intel 和 AMD 等國際知名企業(yè)的專家同臺(tái)交流。
本屆 ISCA 共收到來自全球 423 篇高質(zhì)量論文投稿,經(jīng)過嚴(yán)謹(jǐn)?shù)脑u(píng)審流程,僅有 83 篇論文脫穎而出,總體接收率低至 19.6%。其中,Industry Track 的錄取難度尤為突出,接收率僅為 15.3%。
作為計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域的頂級(jí)學(xué)術(shù)盛會(huì),ISCA 由 ACM SIGARCH 與 IEEE TCCA 聯(lián)合舉辦。自 1973 年創(chuàng)辦以來,一直是推動(dòng)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)領(lǐng)域進(jìn)步的先鋒力量,其廣泛的影響力和卓越的貢獻(xiàn)使其成為谷歌、英特爾、英偉達(dá)等行業(yè)巨頭競(jìng)相展示前沿研究成果的高端平臺(tái)。ISCA 與 MICRO、HPCA、ASPLOS 并稱為四大頂級(jí)會(huì)議,而 ISCA 更是其中的佼佼者,論文錄取率常年保持在 18% 左右。多年來,眾多在 ISCA 上發(fā)表的研究成果已成為推動(dòng)半導(dǎo)體和計(jì)算機(jī)行業(yè)發(fā)展的關(guān)鍵動(dòng)力。
本次入選的可重構(gòu)并行處理器(RPP)論文為邊緣計(jì)算領(lǐng)域注入了強(qiáng)勁動(dòng)力。實(shí)驗(yàn)結(jié)果充分證實(shí),作為一款并行計(jì)算的硬件平臺(tái),RPP 的性能全面超越當(dāng)前市場(chǎng)上的 GPU,特別是在對(duì)延遲、功耗和體積有著極高要求的應(yīng)用場(chǎng)景中表現(xiàn)尤為出色。
六、結(jié)語
ChatGPT 引爆了 AI 大模型,從而帶動(dòng)了 GPU 和 AI 加速器的巨大需求。AI 應(yīng)用的發(fā)展趨勢(shì)將從云端 AI 訓(xùn)練和推理逐漸往邊緣和端側(cè) AI 滲透,為各種 AI 應(yīng)用提供軟硬件支持的 AI 服務(wù)器也同樣遵循從數(shù)據(jù)中心到邊緣計(jì)算的分布式擴(kuò)展趨勢(shì)。傳統(tǒng) GPGPU 在邊緣 AI 應(yīng)用場(chǎng)景中開始暴露出明顯的架構(gòu)缺陷,其高成本、高功耗和高延遲問題迫使業(yè)界專家尋求更為高能效的并行計(jì)算架構(gòu)。
在對(duì)比 CPU、GPU、ASIC、FPGA 和 NPU 等不同計(jì)算架構(gòu)后,我們發(fā)現(xiàn)可重構(gòu)計(jì)算架構(gòu) CGRA 是比較適合邊緣 AI 應(yīng)用的,尤其是芯動(dòng)力提出的可重構(gòu)并行處理器(RPP)。通過與英偉達(dá)同類 GPU 對(duì)比分析,基于 RPP 架構(gòu)的 R8 芯片在延遲、功耗、面積成本、通用性和快速部署方面都表現(xiàn)出色,我們認(rèn)為這是目前最理想的邊緣 AI 并行計(jì)算架構(gòu)。
在今年 7 月份阿根廷舉行的 ISCA2024 學(xué)術(shù)會(huì)議上,關(guān)于 RPP 處理器架構(gòu)的論文得到國際學(xué)術(shù)權(quán)威認(rèn)可。隨著邊緣 AI 的發(fā)展,AI 服務(wù)器和 AI PC 將迎來快速增長(zhǎng)的黃金時(shí)期,而支持這類邊緣 AI 設(shè)備的 AI 加速器也將同步增長(zhǎng)。由珠海芯動(dòng)力科技提出的 RPP 處理器芯片也將得到業(yè)界認(rèn)可,成為邊緣 AI 應(yīng)用場(chǎng)景中最為理想的 AI 加速處理器。
熱門跟貼