2024賽季F1大獎賽剛剛結束一周,科技界全球年度盛會亞馬遜云科技 re:Invent就重磅來襲。拉斯維加斯又沸騰起來。12月1日起,超過6萬名全球從業(yè)者陸續(xù)匯聚在此,會議遍布拉斯維加斯六家酒店。周一早晨7點,我所在的威尼斯人酒店氣氛已經拉滿。

打開網易新聞 查看精彩圖片

亞馬遜云科技高級副總裁Peter DeSantis

打開網易新聞 查看精彩圖片

Monday Night Live把當天的氣氛推向高潮。亞馬遜云科技高級副總裁Peter DeSantis在開場時提到,他嘗試借助生成式AI助手可視化自己的分享,AI小助手給出了冰山、太空等建議,最后雙方達成了一致:通過“樹”來體現亞馬遜云科技軟硬件一體全棧優(yōu)化的成功理念更為合適。

打開網易新聞 查看精彩圖片

Peter DeSantis說,12年前投資定制自研芯片,這顆樹的主根從這里開始,實現了創(chuàng)新的廣度和差異化。

Graviton4:從跑分到基于應用設計

2016年的 re:Invent大會上,當亞馬遜云科技自研的第一顆數據中心芯片亮相時,其驚艷程度并不亞于大模型給行業(yè)的震撼。從那時起,全球的云廠商開始踏上自研芯片的路徑。

打開網易新聞 查看精彩圖片

2018年Graviton 1 首次在A1實例中亮相時,完全專注于橫向擴展性能。2019年, Graviton2 支持擴展到更通用的工作負載,2021年Graviton3 上市,芯片上部署的 R7g 實例能夠支持一些機器學習 (ML) 和高性能計算 (HPC) 應用程序。2022年AWS推出Graviton 3E 處理器,用于 Hpc7g 和 C7gn 實例,矢量指令處理性能比 Graviton3 高出 35%。2024年,Graviton 4 芯片的運行速度為 2.8 GHz。

可以說,基于Arm 的 Graviton 系列芯片兩年一更的節(jié)奏,而且每代都取得了極大的飛躍和提升,成為亞馬遜云科技為其彈性計算云工作負載提供節(jié)能高性能定制芯片的巔峰。

打開網易新聞 查看精彩圖片

最重要的是,今年的大會上,亞馬遜云科技特意分享如何針對現實世界的工作負載優(yōu)化Graviton性能的,傳統(tǒng)CPU的評價機制一般都是各種benchmark(基準測試),就像是通過跑100米短跑來訓練馬拉松。雖然在這兩種情況下都在跑步,但你從根本上是在為不同的挑戰(zhàn)進行訓練。Graviton則是在通過真實工作負載的性能數據來進行微架構演進,相比傳統(tǒng)芯片設計公司,云廠商有大量實際場景和案例,對不同應用的側重點和優(yōu)化方向,讓芯片更加貼近使用場景,。

Nitro和Graviton協(xié)同工作 全鏈路安全設計

打開網易新聞 查看精彩圖片

另外,關于云計算的安全問題, Nitro系統(tǒng)實現對服務器架構的重新設想。從CPU到CPU通信到PCIe流量的每一個關鍵連接都受到基于硬件的安全保護,這種安全從制造開始Nitro作為可信根構建了全流程的安全驗證,從根本上改變構建和云安全方式。而讓Nitro和Graviton協(xié)同工作,亞馬遜云科技創(chuàng)建了一個連續(xù)的認證系統(tǒng)。這不僅僅是安全方面的增量改進,還有一個更極致的安全措施是Nitro和Graviton之間的PCIe鏈路都加密了。

Trainium2:簡化設計 封裝工藝

現在,亞馬遜云科技為大多數非AI計算任務提供基于Arm架構的Graviton中央處理單元,最先進的基礎模型和大語言模型通常包含數千億甚至數萬億個參數或變量,需要能夠支持上萬機器學習芯片進行擴展的可靠高性能計算能力。針對AI計算的訓練和推理場景。其推理芯片Inferentia于2018年推出,而訓練芯片Trainium首次亮相于2020年。

打開網易新聞 查看精彩圖片

在相同的時間內可以處理更多的數據,加速AI模型的訓練過程。尤其大模型訓練的數據并行通信問題,亞馬遜云科技在芯片架構、制程工藝以及算法優(yōu)化等方面的持續(xù)投入和創(chuàng)新。用最先進的封裝或最先進的制造技術建造最大的芯片,過去的幾代Graviton處理器中一直在使用先進的封裝技術,Trainium2成為c的一個新起點。

Peter DeSantis詳細分享單顆芯片的最大Size,通過先進的封裝技術, 最大封裝大概2倍多的Reticle Size。 將計算芯片和高帶寬內存(HBM)模塊集成在一個緊湊的封裝(package)內。每個Trainium2加速器(單卡)內封裝中有兩個Trainium2計算核心,而每個核心旁邊都配備了兩塊HBM內存模塊,從而實現了計算和內存的無縫集成。這種先進的封裝設計克服了芯片尺寸的工程極限,最大限度地縮小了計算和內存之間的距離,使用大量高帶寬、低延遲的互連將它們連接在一起。這不僅降低了延遲,還能使用更高效的協(xié)議交換數據,提高了性能

大容量內存的支持也意味著Trainium2能夠更好地應對大規(guī)模數據集的處理需求,與上一代的Trainium芯片相比性能提升了4倍,內存容量提升了3倍,更具性價比和能效優(yōu)勢,是亞馬遜云科技大幅提高AI能力的關鍵。

打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片

通過應用Chiplet和先進封裝等技術,芯片集成的晶體管數量持續(xù)增長,尺寸和功耗也越來越大。為了減少內部單元和改善熱管理,亞馬遜云科技簡化了Trainium 2芯片的設計,優(yōu)化供電架構。

打開網易新聞 查看精彩圖片

現場,Anthropic的聯(lián)合創(chuàng)始人Tom Brown發(fā)布了Project Rainer的超大規(guī)模集群(數十萬個Trn2) ,宣布下一代Claude模型將在Project Rainier上訓練運算能力是以往集群的5倍多。

打開網易新聞 查看精彩圖片

基于Trainium2,亞馬遜云科技發(fā)布了Trainium2 Server, 64卡的ScaleUP機柜基于Trainium2加速器,每臺Trainium服務器搭載16塊Trainium加速器,并配備有專用的Nitro加速卡和機頭。

打開網易新聞 查看精彩圖片

一臺Trainium服務器可提供20萬億次每秒浮點運算能力,是亞馬遜云科技當前最大AI服務器的1.25倍。同時,它還擁有1.5TB的高速HBM內存,是現有最大AI服務器的2.5倍,顯存帶寬達46TB/s。

打開網易新聞 查看精彩圖片

而隨著AI算力需求的急劇增長,網絡成為核心焦點,交換網絡的能力一定程度上決定了計算總體性能,算力單元架構、算力集群需要圍繞網絡性能的發(fā)揮進行定義。Peter DeSantis詳細介紹了亞馬遜云科技針對AI網絡的場景優(yōu)化和布局,并發(fā)布10p10u的網絡架構。

生成式AI正激發(fā)全球企業(yè)和開發(fā)者的創(chuàng)新激情,著眼客戶需求,亞馬遜云科技提供可用的計算資源集群。在市場對英偉達芯片有強勁需求的大背景下,亞馬遜云科技自研Trainium2芯片也能避免因而英偉達芯片供應緊張而帶來的挑戰(zhàn)。通過不同類型芯片組合來配置云基礎設施,來幫助客戶應對挑戰(zhàn),帶領客戶決勝生成式人工智能的未來。

(文末增加兩張展區(qū)現場服務器圖,關鍵詞:800G、液冷、BG200)

打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片
打開網易新聞 查看精彩圖片