從2020年開始,隨著AI計算的大爆發(fā)和云計算規(guī)模持續(xù)、快速地增長,企業(yè)級用戶的需求也在快速攀升。即使在2023年,企業(yè)級處理器已經實現單路最高128核256線程的規(guī)模,但面對無盡的計算需求,企業(yè)級用戶依舊強烈渴求更快、更高效的產品。為了順應這種趨勢和滿足市場的需求,2024年10月,AMD發(fā)布了新一代EPYC 9005系列處理器,將處理器核心數量大幅度提升至最多192個,同時性能也大幅度提升。那么AMD EPYC 9005系列處理器是如何做到這一切的?本文將和你一起解讀其內部的秘密。

打開網易新聞 查看精彩圖片

0 1

3nm工藝上陣 最大192核心

EPYC 9005創(chuàng)造處理器新紀錄

EPYC 9005系列處理器有Zen 5、Zen 5c兩種版本,總計有27款產品,其中基于Zen 5c的高密度型號有5款,涵蓋了96核心~192核心的不同方案?;赯en 5架構的產品占據了最多的處理器型號數量,涵蓋了8核心~128核心的不同方案,最大核心數量為128核。其中96核心、128核心的處理器,Zen 5和Zen 5c都有相應產品推出,前者顯然是面向高性能用戶,后者的頻率和功耗更低。

打開網易新聞 查看精彩圖片

▲AMD EPYC 9005系列處理器家族

打開網易新聞 查看精彩圖片

▲AMD EPYC 9005系列處理器還特別適合搭配GPU用于AI推理和訓練,其中5GHz頻率的EPYC 9575F搭配GPU能大幅提升AI推理和訓練性能。

EPYC 9005系列處理器大幅度提升了最高頻率,基于Zen 5架構的處理器產品最高頻率達到5GHz,這在企業(yè)級產品上是首次出現如此高頻率的產品,AMD為這類產品增加了“F”后綴以表示特色和突出。不過,這類產品并非隨時都運行在這么高的頻率上,AMD特別指出,每個CCD中有1個核心可以通過Max Boost技術運行在超高頻率上,其余的核心受制于功耗無法實現如此高的頻率。另外,基于Zen 5c架構的處理器的核心數量更多、密度更大,頻率從上一代Zen 4c架構最大的3.1GHz提升到了目前的最大3.7GHz,性能明顯提升。

打開網易新聞 查看精彩圖片

▲AMD EPYC 9005系列處理器采用2種架構,分別是Zen 5和Zen 5c。

在EPYC 9005系列處理器家族中,基于Zen 5架構的產品采用4nm生產工藝,基于Zen 5c架構的產品則采用3nm生產工藝?;赯en 5和Zen 5c的產品均為相同的IOD設計,采用6nm生產工藝,不過新的IOD進行了架構上的調整和更新,規(guī)格和性能更強大。這也是AMD首次在EPYC產品上融合三種不同的生產工藝,展現了AMD在芯片設計領域的強大實力。

打開網易新聞 查看精彩圖片

▲Zen 5和Zen 5c的不同的微架構帶來了處理器不同的市場取向。

EPYC 9005系列處理器的最大TDP功耗提升到500W,官方明確標注TDP為500W的產品只有2款,分別是EPYC 9965和EPYC 9755,其余所有產品的TDP功耗都在400W以下,多數為390W和300W。不過AMD也提到,部分TDP為400W的處理器可以開啟自定義配置,將TDP提升到500W以獲取更長時間的高頻率運行,得到更顯著的性能釋放。

可能有些用戶要問,目前消費級桌面平臺已經有8核心16核心的產品,為什么EPYC家族中還有這類產品呢?這是因為整個EPYC的平臺設置、IO規(guī)格以及互聯(lián)規(guī)模等和消費級桌面平臺存在相當大的差異,比如更多的PCIe 5.0通道、更大容量的內存支持等,因此對一些計算性能要求不高,但對互聯(lián)能力、內存容量要求較高的場合,核心數量較少的產品還是非常合適的。

打開網易新聞 查看精彩圖片

AMD對EPYC 9005系列處理器寄予厚望,稱其為最好的服務器處理器。相比競爭對手的產品,EPYC 9005系列處理器的各方面表現都得到明顯提升。

打開網易新聞 查看精彩圖片

AMD在發(fā)布會上對比了一組數據:1000臺雙路英特爾至強白金8280服務器的性能和131臺雙路EPYC 9005的性能相當,但是AMD的方案使得整體電能節(jié)約了68%,服務器數量降低87%,3年的TCO耗費降低67%。這樣的整體表現更令人滿意。

0 2

Zen 5和Zen 5c架構

高性能和高密度并存

接下來看架構。Zen 5架構針對企業(yè)級產品的設計目標是提供1T和2T性能提升并成為未來計算的基礎架構。AMD特別提到通過加入對AVX-512的支持,可以進一步提高吞吐量和AI計算的性能。在平臺方面,Zen 5架構帶來了標準型Zen 5和緊湊型Zen 5c兩種規(guī)格,還支持FP512和FP256的數據路徑配置,支持整體規(guī)??s放和能源效率提升。工藝方面則為3nm和4nm進行了適配和優(yōu)化,增強了部分ISA功能。整體來看,Zen 5架構將在很長一段時間內成為AMD計算架構的基礎。

打開網易新聞 查看精彩圖片

▲Zen 5架構針對企業(yè)級產品的設計目標一覽

打開網易新聞 查看精彩圖片

▲Zen 5 CCD的設計特性情況

架構改進方面,Zen 5主要在四大方面進行了改進優(yōu)化。一是在分支預測方面,Zen 5做了極大的提升,吞吐量更大、延遲更低以及L2緩存帶寬增大等,效率得到提升;二是拓寬取指和解碼管道為雙路,每個解碼管道每周期執(zhí)行4個指令,總體來算是每周期8個操作。雙路解碼管道是AMD首次出現的設計。

第三,執(zhí)行能力方面,整數ALU加強到6個,AGU提升到4個,每周期可以執(zhí)行6個FP或者2個周期執(zhí)行1個FADD操作,完整的AVX-512也被納入架構中;四是數據流方面,4個負載管道可以執(zhí)行512bit的AVX-512計算數據流。

打開網易新聞 查看精彩圖片

▲Zen 5架構整體設計特性一覽

打開網易新聞 查看精彩圖片

▲Zen 5相比Zen 4微架構提升情況總結

Zen 5的CCD方面,核心改進主要是L1和L2緩存的性能大幅度提升,比如L2的緩存關聯(lián)性翻倍,同時L2緩存帶寬翻倍。L3方面主要是降低了命中失誤的概率,因此延遲大幅度降低。如果以Zen 4為基準對比的話,Zen 5的CCD擁有更快的L2和所有核心共享的、延遲更低的32MB L3。另外,L2的數據標簽在L3中是重復的,這意味著探測過濾和快速緩存?zhèn)鬏敿夹g能夠有效啟用并帶來更好的性能。

打開網易新聞 查看精彩圖片

▲Zen 5和Zen 5c的設計目標和整體差異

另外就是Zen 5c,AMD采用同架構核心的做法。Zen 5c和Zen 5的整個架構結構完全相同,只是Zen 5c采用較低的頻率和較高的能效比設計方案,同時降低了分配至每個核心的L3緩存容量。在Zen 5上,8個CPU核心共享32MB L3,每核心平均4MB。在Zen 5c上,16個CPU核心共享整組32MB L3,每核心2MB。在基于Zen 5c的產品上,因為每核心的L3緩存更低,這對于一些緩存敏感型的應用來講會有性能上的影響,但考慮到Zen 5c產品主要面向高密度計算類的客戶,因此這樣的設計是合理的。

在SoC層面的宏觀布局上,EPYC 9005系列處理器有兩種布局:第一種是以Zen 5架構的CCD為核心的產品,整體最多16個CCD,最多配備128個CPU核心;第二種是以Zen 5c架構的CCD為核心的產品,整體最多12個CCD。相比之下,每個Zen 5c的CCD擁有16個CPU核心,面積比Zen 5 CCD略大,因此在IOD周圍只能布局12個CCD,核心數量最多為192個。

打開網易新聞 查看精彩圖片

▲Zen 5針對能耗比方面進行了大量優(yōu)化設計

打開網易新聞 查看精彩圖片

▲在CPU的AI性能方面,Zen 5相比對比產品大幅度提升。

AMD對Zen 5架構做了大量的能耗比優(yōu)化和改進,因此Zen 5架構帶來了不錯的能耗比優(yōu)勢。比如,持續(xù)的電源門控技術的改進、減少電源進入/退出所耗費的時間、更好的分支預測等,這些優(yōu)化都進一步提高了Zen 5的能耗比。另外,整體緩存層次結構、總線結構、核心件流量的優(yōu)化也使得處理器的效率得以提升。一般來講,電源效率的提高就意味著系統(tǒng)性能的提升,因為電能被用在了其他合適的地方。在關鍵性數據上,AMD表示Zen 5架構帶來了最高17%的企業(yè)級和云計算IPC提升,以及高達37%的AI性能IPC提升。

0 3

EPYC 9005 SoC整體布局

IOD重新優(yōu)化 引入新功能

一直以來,AMD在IOD設計上都非常出色,EPYC 9005系列處理器也不例外。該系列處理器的IOD采用6nm生產工藝,與上代產品相比,多項規(guī)格進行了大幅度升級,我們列舉來看。

打開網易新聞 查看精彩圖片

▲AMD EPYC 9005系列SoC層面的宏觀布局和特性一覽

EPYC 9005系列處理器的內存規(guī)格:

●內存速率:EPYC 9005系列處理器新增了對最多12通道的DDR5 6000 ECC內存的支持。不過AMD公布的資料還顯示該系列處理器支持DDR5 6400 ECC內存,這意味著該規(guī)格可能是可配置的,用戶如需要DDR5 6400 ECC內存或許可以和具體的廠商提出需求。上代EPYC 9004系列處理器雖然也支持DDR5,但是最高只支持DDR5 4800。

●內存通道:EPYC 9005系列處理器支持2、4、6、8、10、12通道的配置,其中12通道能夠發(fā)揮出最高的性能。

●內存種類:EPYC 9005系列處理器支持RDIMM內存和3DS RDIMM內存。前者是專為服務器設計的內存,它在內存PCB上加入了專用的寄存器以減少并行傳輸的距離,提高了傳輸效率。相比普通內存,RDIMM內存效率更高、速率更快也更為穩(wěn)定。3DS RDIMM內存則是采用3D堆疊技術的RDIMM內存,容量可以提升至單條最高256GB。

●內存容量:EPYC 9005系列處理器支持每個內存通道2個DIMM的設計,最大支持每個CPU插槽6TB的內存,對應的就是每個DIMM最大256GB(恰好是3DS RDIMM最大容量)。

可見,EPYC 9005系列處理器的內存規(guī)格在當前的企業(yè)級處理器中是相當先進的,最大6TB的容量和對最多12通道DDR5 6000的支持,可以滿足絕大部分企業(yè)級應用場景的需求。如果用戶對單插槽6TB的內存容量還不滿足的話,還可以采用CXL 2.0內存擴展方案來獲取更大的內存容量。

EPYC 9005系列處理器的I/O支持也相當強悍,該系列處理器在雙路配置下支持最多160個PCIe 5.0通道,每通道最高可達32Gbps的速率,另外還有額外12個PCIe 3.0通道用于連接一些低速設備。在單路配置下,EPYC 9005系列處理器支持128個32Gbps速率的PCIe 5.0通道以及額外的8個PCIe 3.0通道。此外,EPYC 9005系列處理器的PCIe通道支持自由配置為x16、x8、x4、x2和x1規(guī)格,滿足不同設備的需求,而且本次還新增了對PCIe鏈路加密的支持。

打開網易新聞 查看精彩圖片

▲AMD EPYC 9005系列處理器在1P和2P布局情況下配置情況一覽

EPYC 9005系列處理器采用和上代EPYC 9004系列處理器一樣的SP5封裝,因此之前的主板也可以支持新的處理器,不過需要更新到最新的BIOS版本。對企業(yè)來講,只需要更換CPU就可以得到性能上的提升,無疑大大節(jié)約了設備采購費用。另外,EPYC 9005系列處理器的安全特性進一步升級,不僅支持可信任IO(Trusted IO)技術,配備增強的專用安全子系統(tǒng),還新增密文隱藏能力,可采用多種手段阻止對密文的非法訪問。

0 4

EPYC 9005 SoC設計解析

更大帶寬 更多實用設計

在了解整個EPYC 9005系列處理器的SoC宏觀設計之后,我們再來詳細解讀該系列處理器的一些重要部分。

●采用統(tǒng)一32MB L3緩存 CCD的寬配置和窄配置

Chiplet架構設計是決定EPYC處理器具備高密度、高性能特點的重要因素。EPYC 9005系列處理器在設計上的主要改進也體現在不斷優(yōu)化的CCD和IOD上,AMD稱之為IOD和CCD的封裝協(xié)同設計。通過這個協(xié)同設計,AMD可以在EPYC 9005系列處理器的高密度版本中帶來更多的核心數量。另外,AMD提到的CCD改進主要是針對Zen 5c CCD的改進,其L3緩存從前代產品的2個16MB的搭配改進為整體的32MB。更大的一體式L3緩存在很大程度上降低了由于L3緩存容量不足帶來的性能下降,畢竟對一個16核心的CCD來說,并非每個核心都需要不停地使用2MB L3緩存。在這種情況下,部分高負載核心有機會使用更大的緩存從而擁有更好的性能。

打開網易新聞 查看精彩圖片

▲AMD在整個Chiplet層面做出了很多改進,比較值得注意的是采用統(tǒng)一32MB緩存以及CCD的寬配置和窄配置。

在CCD和IOD的配置方面,AMD依舊使用GMI3總線連接CCD和IOD,并且維持之前的寬配置和窄配置方案。根據AMD介紹,處理器CCD數量>8個時,將啟用窄置方案,此時系統(tǒng)中的每個CCD和IOD的連接采用1條GMI3總線。反之,當CCD數量≤8個時,每個CCD可以使用2條GMI3總線連接IOD。在上代EPYC 9004系列處理器中,寬配置和窄配置的分界點為4個CCD,本代由于CCD數量大增,因此分界點變成8個CCD。

AMD還提到,EPYC 9005系列處理器在CCD到IOD的數據連接方面予以增強?,F在針對CCD到IOD的探測響應數據(probe-response data)提升到每周期32B(讀取),密集的寫入工作則提升到每周期16B。能耗方面,現在GMI總線可以根據能源管理單元的控制使用減半帶寬,而不是在空閑或者較輕負載時還運行在高速率上。

●內存配置速率提升 延遲維持不變

前文已經介紹了EPYC 9005系列處理器在內存方面的提升,這里介紹一下更細節(jié)的信息,比如12通道DDR5 6000配置下,單個處理器插槽擁有576GB/s的峰值吞吐帶寬。在ECC內存支持方面,EPYC 9005系列處理器同時支持x72和x80兩種規(guī)格,這兩種規(guī)格的差異在于前者使用EC4校驗而后者使用EC8校驗。AMD提到,EPYC 9005系列處理器在內存方面設計的重點是提高DRAM ECC位的錯誤檢測和數據校準能力,并且優(yōu)化了Dual-Rank和Single-Rank內存的帶寬和效率,使得整個系統(tǒng)的TCO都有更好的表現。

打開網易新聞 查看精彩圖片

▲AMD EPYC 9005系列處理器的內存整體性能得到了很大提升

此外,AMD還對比了1Rx8和2Rx4的性能。這種配置中,2R的性能往往相比1R更差,因為其擁有2個通道,內存控制器需要2次才能訪問完所有的DRAM空間。不過AMD優(yōu)化后,除了在內存復制的部分性能上損失了10%之外,其余以及綜合表現性能差異都在5%以內。對企業(yè)級用戶來說,2R內存容量更大,在大量容量優(yōu)先的場合下更值得選擇。AMD在EPYC 9005中的優(yōu)化使得2R內存的整體性能表現和1R內存基本相當,這對于企業(yè)級用戶來說還是很有意義的。

在內存管理方面,EPYC 9005系列處理器帶來了內存分區(qū)功能。EPYC處理器的內存采用NUMA架構,這意味著延遲可能因處理器核心與內存和I/O控制器的接近程度而異。使用同一NUMA節(jié)點內的資源可以提供更好的性能,而使用不同節(jié)點中的資源則會增加延遲。為了滿足不同用戶的需求,AMD帶來了內存分區(qū)功能,給出NPS1、NPS2和NPS4三種分區(qū)方式,在不同情況下可以應對不同的配置方案。

打開網易新聞 查看精彩圖片

▲AMD對比了1Rx8和2Rx4的內存性能,經過AMD優(yōu)化,2Rx4相比1Rx8除了在內存復制的部分性能上損失10%之外,其余以及綜合表現性能差異都在5%以內。

簡單來說,選擇NPS1的時候,12個通道只要是單通道或者任意偶數配置均為平衡配置。選擇NPS2時,單通道為不平衡配置。選擇NPS4時,由于此時有4個NUMA節(jié)點,因此只有4個通道、8個通道和12個通道的配置為平衡配置,性能不受影響,其余的比如1通道、2通道、6通道、10通道均會造成性能損失,這一點和EPYC 9004系列處理器相同。由于不同用戶遇到的情況不同,而且內存通道配置對設備最終性能影響很大,因此建議用戶在遇到類似問題的時候聯(lián)系設備企業(yè)或者AMD解決。

●IO性能為AI優(yōu)化 引入SDCI功能

考慮到AI應用的需求,AMD在IO方面對AI計算進行了優(yōu)化并帶來了DMA、P2P和SDCI(Smart Data Cache Injection,智能緩存注入)相關功能。其中SDCI功能的特點在于支持設備通過所連接的總線溝通處理器,直接將數據寫入處理器的L3緩存,從而繞開傳統(tǒng)的“設備-內存-處理器”的模式,在一定程度上節(jié)約了內存帶寬并降低了延遲。根據AMD提供的SDCI性能對比顯示,開啟SDCI功能之后,內存帶寬占用得到顯著降低。

打開網易新聞 查看精彩圖片

▲AMD在IO方面對AI計算進行了優(yōu)化并帶來了DMA和P2P相關功能。

打開網易新聞 查看精彩圖片

▲AMD EPYC 9005系列處理器支持CXL 2.0,并支持所有3種CXL設備。

●支持CXL 2.0 更重視CXL內存相關性能

繼續(xù)看看CXL相關功能。EPYC 9005系列處理器支持CXL 2.0,也支持所有3種CXL協(xié)議,但AMD更傾向于支持CXL Type 3(內存擴展功能)。CXL的優(yōu)勢在于,利用PCIe通道作為擴展能夠大大擴展設備的內存,或者連接其他通信設備、算力設備等。除了支持的設備類型更多,在CXL特性上,EPYC 9005系列處理器還帶來了分層內存的支持,具體包括支持多個CXL設備組合成單個交錯的NUMA節(jié)點、支持內存以及安全內存的數據遷移、支持“無頭”的NUMA節(jié)點、支持HV/Guest內存分析等功能。此外,針對x86 QoS功能,用戶可以手動對DRAM和CXL內存進行內存帶寬控制。

打開網易新聞 查看精彩圖片

▲AMDEPYC處理器在CXL內存功能方面的支持特性一覽表

性能方面,AMD也給出了一些參考數值。比如在使用75% DDR搭配25% CXL以及50% DDR搭配50% CXL的時候,整體吞吐能力最高上升到傳統(tǒng)DDR搭配SSD方案的10倍。在延遲方面,同樣的對比方法,CXL方案最低只有傳統(tǒng)方案的0.55倍,顯示出積極的性能提升。

最后我們再看下安全方面。EPYC 9005系列處理器針對安全性的改進相當多,比較關鍵的新增技術特性有2個,分別是帶外錯誤管理(Out of band error management)和DRAM運行時的后修復技術(DRAM runtime post-package repair)。前者是指在系統(tǒng)級的錯誤管理中,擁有獨立的通道來檢測和修復錯誤,不用占據主要業(yè)務通道;后者則是指DRAM的內存硬件故障錯誤修復可以在操作系統(tǒng)啟動操作之后再完成,帶來了整體系統(tǒng)安全性的提升。

打開網易新聞 查看精彩圖片

▲AMD EPYC 9005系列處理器完全滿足現代數據中心的需求

0 5

總結

由于EPYC 9005系列處理器家族規(guī)模龐大、特性眾多且規(guī)格復雜,篇幅限制,我們本次僅介紹了該系列處理器一些重要的新特性和新改進??偨Y來看,AMD EPYC 9005系列處理器有著性能躍進、規(guī)模突破、功能優(yōu)化等特點,它首次融入三種不同的生產工藝,是Chiplet技術下目前最具代表性的產品,也體現了AMD在芯片設計領域的絕對領導力。回顧下來,AMD EPYC系列處理器不僅在參數上,在性能和市場表現上都是一代更比一代強,這正是AMD通過不斷的產品迭代贏來的結果。我們很好奇AMD能夠將Chiplet技術和EPYC系列處理器帶到怎樣的高度,因為從技術角度來看,AMD手上能出的牌還有很多,在Chiplet技術形式、封裝應用等方面還有大量更先進的技術尚未使用。我們期待未來的EPYC處理器能夠在技術實現、技術應用等方面更上一層樓,繼續(xù)帶領行業(yè)推動新一輪創(chuàng)新浪潮。

友情提示

MCer請注意,由于微信公眾號調整了推薦機制,如果你發(fā)現最近很難刷到Microcomputer(微型計算機)公眾賬號推送的文章,但是又不想錯過微機的精彩評測內容,可以動動小手指把Microcomputer設置成星標公眾賬號哦!

打開網易新聞 查看精彩圖片