凌晨三點,老林死死地盯著屏幕上的進度條,指節(jié)捏得發(fā)白。

旁邊的項目組助理小陳,帶著哭腔說↓

打開網(wǎng)易新聞 查看精彩圖片

老林是一家汽車電池設計公司的項目負責人,正在設計一款新能源汽車的電池管理系統(tǒng)。

也就是BMS,被稱為汽車電池組的“大腦”。

打開網(wǎng)易新聞 查看精彩圖片

這個BMS電池大腦可不簡單,它負責監(jiān)控和管理數(shù)百個電池單元的狀態(tài)。

要時刻盯著它們的電壓、電流、溫度,還得確保電池不“發(fā)脾氣”——別高溫炸了、低溫蔫了,充電要快、壽命要長…

打開網(wǎng)易新聞 查看精彩圖片

為了不設計出一個昂貴的“廢物”,BMS設計有個重要環(huán)節(jié)就是用EDA工程軟件做仿真(Electronic Design Automation電子設計自動化),從而模擬現(xiàn)實場景。

比如:30分鐘能不能快充到80%?夏天車廂50°C會不會過熱?冬天-20°C還能不能啟動?5年后電池的可用率多少?

打開網(wǎng)易新聞 查看精彩圖片

既然是工程仿真“算”,那就不是一般的“算”!

此時監(jiān)控面板上顯示,“多線程利用率只有40%!內存占用突破90%!”

小陳看得已經(jīng)有點破防了…

打開網(wǎng)易新聞 查看精彩圖片

這仿真活兒對計算要求高到離譜:算力得猛!內存得大!精度得準!傳輸?shù)每欤∧土Φ脧姡?/strong>

仿真數(shù)據(jù)量呈指數(shù)級暴漲,算力集群在高負荷下有點潰不成軍…

打開網(wǎng)易新聞 查看精彩圖片

老林低估了這次項目的計算量,感覺自己要被這“慢”字活活憋死。

“不找點招,這活沒法干了!”,老林徹底紅溫了。

打開網(wǎng)易新聞 查看精彩圖片

01、慢,問題出在了哪里?

01、慢,問題出在了哪里?

第二天一大早,老林黑著眼圈、胡子拉碴地去找公司IT部門的硬件架構師老高,開門見山:“你給我多加幾臺機器吧!”

“加機器?”,老高苦笑,“不是機器數(shù)量的問題,是平臺本身跟不上?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

老高拍了拍老林的肩膀:”別急,我看了你昨晚的集群日志,有個大致的判斷?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

困境1:海量數(shù)據(jù),計算量爆炸,導致仿真時間過長

一個電池組包含數(shù)百個單體,每個單體都需要獨立建模、協(xié)同仿真。

仿真過程中,電壓、電流、溫度、化學反應全都得算,涉及一大堆偏微分方程,計算量大得離譜。

打開網(wǎng)易新聞 查看精彩圖片

困境2:內存帶寬和 I/O 傳輸瓶頸,數(shù)據(jù)吞吐效率奇低

我看了,你加載的一個仿真數(shù)據(jù)集快TB級了,需要頻繁在內存、處理器、存儲之間傳輸,如果內存帶寬不足、I/O 速率跟不上,仿真過程就可能直接卡死。

打開網(wǎng)易新聞 查看精彩圖片

困境3:需要高強度、高精度計算,老系統(tǒng)有點吃力了

你模擬一個電池的充放電周期可能持續(xù)幾周,期間電池狀態(tài)瞬息萬變,電壓差0.01伏、溫度差1°C都可能影響結果。

誤差小到發(fā)絲級才行,如果算力供給不穩(wěn)定,算得不準,仿真就失去價值。

打開網(wǎng)易新聞 查看精彩圖片

總之,原來的處理器有點Out了,存在計算性能“瓶頸”、內存帶寬“窒息”、PCIe通道“便秘”等問題。

打開網(wǎng)易新聞 查看精彩圖片

說干就干,接下來,老高帶領大家考察了市面上幾款主流的服務器CPU。

其中AMD EPYC 9575F表現(xiàn)出色。

打開網(wǎng)易新聞 查看精彩圖片

02、換芯之后,項目進度像火箭

02、換芯之后,項目進度像火箭

搭載AMD EPYC 9575F的新計算集群一上線,畫風變了!

“感覺咋樣???”,老高拍了拍老林。

“太爽了,這個芯真牛!”,老林忍不住感嘆。

打開網(wǎng)易新聞 查看精彩圖片

老高指著監(jiān)控界面上的參數(shù),眼神里透著幾分得意:

它采用先進4nm工藝,每顆 CPU擁有 64 核心、128線程,超高主頻,最高5GHz頻率。

打開網(wǎng)易新聞 查看精彩圖片

在CPU-Z基準測試里,單線程跑分784.2,說明單核性能極為優(yōu)秀;多線程跑分 112,682.2,展現(xiàn)出驚人的并行計算能力。

打開網(wǎng)易新聞 查看精彩圖片

而且,我們這次用的是雙路液冷服務器,采用兩顆EPYC 9575F,總共128核心、256線程,最高加速時鐘頻率可達5GHz,火力全開,性能爆表!

老林咂咂嘴:“難怪這么快,之前跑個兩小時都算快的,現(xiàn)在10分鐘搞定!”

打開網(wǎng)易新聞 查看精彩圖片

“可是……”,老林突然皺起了眉頭,“跑這么猛,散熱能扛得住嗎?不會又是之前那種‘火爐機房’吧?”

打開網(wǎng)易新聞 查看精彩圖片

老高神秘一笑,指了指監(jiān)控屏幕上的溫度數(shù)據(jù):

“放心吧,搭載EPYC 9575F的雙路液冷服務器,即便是400W功耗拉滿,依然穩(wěn)定在 75°C 左右,激發(fā)了其最大潛能,并超級穩(wěn)定?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

03、終于不卡了,滿血計算

03、終于不卡了,滿血計算

老林點點頭,接著又問,“我剛才發(fā)現(xiàn),原來那種卡頓的現(xiàn)象完全消失了,怎么回事?”

打開網(wǎng)易新聞 查看精彩圖片

“這正是EPYC 9575F第二個優(yōu)勢,它是一款能充分利用高帶寬的CPU?!崩细咝χf。

“你要知道,很多高核心CPU在極限計算時,內存帶寬跟不上,導致CPU資源被浪費。

老林若有所悟:“所以,以前CPU算得快,但數(shù)據(jù)過不來,整個計算流程就像在塞車?”

打開網(wǎng)易新聞 查看精彩圖片

“沒錯,但EPYC9575F支持12通道DDR5內存,每個通道的傳輸速度高達6400MT/s,確保所有 64 核心、128 線程都能滿血運作,計算任務幾乎無延遲!”

老高解釋道。

打開網(wǎng)易新聞 查看精彩圖片

04、出色的I/O性能

04、出色的I/O性能

老林繼續(xù)打破砂鍋問到底:“我還注意到,我剛才從存儲拉取仿真訓練數(shù)據(jù),幾乎是秒加載,這怎么做到的?”

打開網(wǎng)易新聞 查看精彩圖片

“你問到點子上了!第三個優(yōu)勢,正是出色的I/O性能。”老高點點頭。

“9575F提供了多達128條PCIe Gen5通道,不管是 NVMe 存儲、RDMA 網(wǎng)絡,還是 AI 訓練加速卡,全能帶著一起嗨!”

打開網(wǎng)易新聞 查看精彩圖片

05、彩蛋,AI計算集群機頭

05、彩蛋,AI計算集群機頭

“另外,我還埋了一個彩蛋,將AMD EPYC 9575F作為整個AI集群的「機頭」,負責協(xié)調集群中的所有計算節(jié)點?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

“AI計算集群不僅需要強大的計算能力,還需要一個大腦來調度和管理所有計算節(jié)點。

而擔任這個‘大腦’的服務器 CPU,就被稱為「機頭」”。

老高指了指機柜最上面那臺服務器,嘴角帶著一抹得意。

打開網(wǎng)易新聞 查看精彩圖片

“9575F作為「機頭」,負責精準調度AI加速卡和計算資源,確保每個節(jié)點都能高效運作,提高整體效率?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

“就是說,EPYC 9575F負責分配任務、調度數(shù)據(jù),讓整個系統(tǒng)跑得更順暢?”,老林若有所悟。

“完全正確!”老高點點頭。

“就像指揮官指揮士兵,EPYC 9575F讓AI加速卡能全速運轉。在一項推理測試中,1000 個節(jié)點的AI集群,每秒能多發(fā)出 70 萬個Tokens,顯著提升AI推理效率。

打開網(wǎng)易新聞 查看精彩圖片

一番切磋下來,老林兩眼放光。

“這下可好了,像我常用的 Ansys Fluent、Battery、Mechanical這些工程仿真軟件,體驗都能上個臺階!”

“沒錯,現(xiàn)在就我知道,很多咱們的同行,都在陸續(xù)換芯呢!”老高哈哈大笑。

打開網(wǎng)易新聞 查看精彩圖片

至此,困擾老林多日的難題終于一掃而盡。

老林帶著他的團隊,投入到新的仿真項目戰(zhàn)斗中,這一次,胸有成竹,所向披靡!

打開網(wǎng)易新聞 查看精彩圖片