如果您希望可以時(shí)常見面,歡迎標(biāo)星收藏哦~
來源:內(nèi)容編譯自IEEE,謝謝。
在 MLCommons 發(fā)布的最新一輪機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試結(jié)果中,基于 Nvidia 全新 Blackwell GPU 架構(gòu)構(gòu)建的計(jì)算機(jī)表現(xiàn)優(yōu)于其他所有計(jì)算機(jī)。但 AMD 的最新 Instinct GPU MI325 卻與其競(jìng)爭(zhēng)對(duì)手Nvidia H200相媲美。兩者的可比結(jié)果主要來自對(duì)較小規(guī)模大型語(yǔ)言模型之一Llama2 70B(700 億個(gè)參數(shù))的測(cè)試。然而,為了跟上快速變化的人工智能格局,MLPerf增加了三個(gè)新基準(zhǔn)測(cè)試,以更好地反映機(jī)器學(xué)習(xí)的發(fā)展方向。
MLPerf 針對(duì)機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行基準(zhǔn)測(cè)試,旨在提供計(jì)算機(jī)系統(tǒng)之間的同類比較。提交者使用自己的軟件和硬件,但底層神經(jīng)網(wǎng)絡(luò)必須相同。目前共有 11 個(gè)服務(wù)器基準(zhǔn)測(cè)試,今年又增加了 3 個(gè)。
MLPerf Inference 聯(lián)合主席 Miro Hodak 表示,“很難跟上該領(lǐng)域的快速發(fā)展”。ChatGPT直到 2022 年底才出現(xiàn),OpenAI于去年 9 月推出了其首個(gè)可以推理任務(wù)的大型語(yǔ)言模型 (LLM),LLM 呈指數(shù)級(jí)增長(zhǎng)——GPT3 擁有 1750 億個(gè)參數(shù),而 GPT4 被認(rèn)為擁有近 2 萬(wàn)億個(gè)參數(shù)。由于這些飛速的創(chuàng)新,“我們加快了將新基準(zhǔn)引入該領(lǐng)域的步伐,”Hodak 說。
新的基準(zhǔn)測(cè)試包括兩個(gè) LLM。流行且相對(duì)緊湊的 Llama2 70B 已經(jīng)是成熟的 MLPerf 基準(zhǔn)測(cè)試,但該聯(lián)盟希望能夠模仿人們今天對(duì)聊天機(jī)器人的期望的響應(yīng)能力。因此,新的基準(zhǔn)測(cè)試“Llama2-70B Interactive”收緊了要求。在任何情況下,計(jì)算機(jī)每秒必須至少產(chǎn)生 25 個(gè)令牌,并且開始回答的時(shí)間不能超過 450 毫秒。
在 MLCommons 發(fā)布的最新一輪機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試結(jié)果中,基于 Nvidia 全新 Blackwell GPU 架構(gòu)構(gòu)建的計(jì)算機(jī)表現(xiàn)優(yōu)于其他所有計(jì)算機(jī)。但 AMD 的最新 Instinct GPU MI325 卻與其競(jìng)爭(zhēng)對(duì)手Nvidia H200相媲美。兩者的可比結(jié)果主要來自對(duì)較小規(guī)模大型語(yǔ)言模型之一Llama2 70B(700 億個(gè)參數(shù))的測(cè)試。然而,為了跟上快速變化的人工智能格局,MLPerf增加了三個(gè)新基準(zhǔn)測(cè)試,以更好地反映機(jī)器學(xué)習(xí)的發(fā)展方向。
MLPerf 針對(duì)機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行基準(zhǔn)測(cè)試,旨在提供計(jì)算機(jī)系統(tǒng)之間的同類比較。提交者使用自己的軟件和硬件,但底層神經(jīng)網(wǎng)絡(luò)必須相同。目前共有 11 個(gè)服務(wù)器基準(zhǔn)測(cè)試,今年又增加了 3 個(gè)。
MLPerf Inference 聯(lián)合主席 Miro Hodak 表示,“很難跟上該領(lǐng)域的快速發(fā)展”。ChatGPT直到 2022 年底才出現(xiàn),OpenAI于去年 9 月推出了其首個(gè)可以推理任務(wù)的大型語(yǔ)言模型 (LLM),LLM 呈指數(shù)級(jí)增長(zhǎng)——GPT3 擁有 1750 億個(gè)參數(shù),而 GPT4 被認(rèn)為擁有近 2 萬(wàn)億個(gè)參數(shù)。由于這些飛速的創(chuàng)新,“我們加快了將新基準(zhǔn)引入該領(lǐng)域的步伐,”Hodak 說。
新的基準(zhǔn)測(cè)試包括兩個(gè) LLM。流行且相對(duì)緊湊的 Llama2 70B 已經(jīng)是成熟的 MLPerf 基準(zhǔn)測(cè)試,但該聯(lián)盟希望能夠模仿人們今天對(duì)聊天機(jī)器人的期望的響應(yīng)能力。因此,新的基準(zhǔn)測(cè)試“Llama2-70B Interactive”收緊了要求。在任何情況下,計(jì)算機(jī)每秒必須至少產(chǎn)生 25 個(gè)令牌,并且開始回答的時(shí)間不能超過 450 毫秒。
MLPerf 看到了“代理人工智能” 的興起——能夠推理復(fù)雜任務(wù)的網(wǎng)絡(luò)——試圖測(cè)試一款具備部分所需特征的 LLM。他們選擇了 Llama3.1 405B 來完成這項(xiàng)工作。這款 LLM 擁有所謂的寬上下文窗口。這是衡量它可以同時(shí)接收多少信息(文檔、代碼示例等)的標(biāo)準(zhǔn)。對(duì)于 Llama3.1 405B,這個(gè)數(shù)字是 128,000 個(gè) token,是 Llama2 70B 的 30 多倍。
最后一個(gè)新基準(zhǔn)稱為 RGAT,即所謂的圖注意力網(wǎng)絡(luò)。它的作用是對(duì)網(wǎng)絡(luò)中的信息進(jìn)行分類。例如,用于測(cè)試 RGAT 的數(shù)據(jù)集由科學(xué)論文組成,這些論文都與作者、機(jī)構(gòu)和研究領(lǐng)域之間存在關(guān)系,共計(jì) 2 TB 的數(shù)據(jù)。RGAT 必須將論文分類為近 3,000 個(gè)主題。

Nvidia通過自己的提交以及戴爾、谷歌和超微等 15 家合作伙伴的提交,繼續(xù)在 MLPerf 基準(zhǔn)測(cè)試中占據(jù)主導(dǎo)地位。其第一代和第二代Hopper架構(gòu) GPU(H100 和內(nèi)存增強(qiáng)型 H200)都表現(xiàn)強(qiáng)勁。Nvidia 加速計(jì)算產(chǎn)品總監(jiān)Dave Salvator表示:“去年,我們的性能又提高了 60%”,Hopper 于 2022 年投入生產(chǎn)?!霸谛阅芊矫?,它仍有一些提升空間?!?/p>
但真正占主導(dǎo)地位的是 Nvidia 的Blackwell架構(gòu) GPU B200?!拔ㄒ槐?Hopper 更快的就是 Blackwell,”Salvator 說。B200 的高帶寬內(nèi)存比 H200 多 36%,但更重要的是,它可以使用精度低至 4 位的數(shù)字(而不是 Hopper 首創(chuàng)的 8 位)來執(zhí)行關(guān)鍵的機(jī)器學(xué)習(xí)數(shù)學(xué)運(yùn)算。精度較低的計(jì)算單元更小,因此更適合 GPU,從而加快 AI 計(jì)算速度。
在 Llama3.1 405B 基準(zhǔn)測(cè)試中,Supermicro 的 8 核 B200 系統(tǒng)每秒傳輸?shù)牧钆茢?shù)幾乎是思科8 核 H200 系統(tǒng)的四倍。在 Llama2 70B 交互版中,同樣的 Supermicro 系統(tǒng)的速度是最快的 H200 計(jì)算機(jī)的三倍。
Nvidia 使用 Blackwell GPU 和Grace CPU 的組合(稱為 GB200)來展示其 NVL72 數(shù)據(jù)鏈路如何能夠?qū)⒍嗯_(tái)服務(wù)器集成到一個(gè)機(jī)架中,從而使它們的性能如同一臺(tái)巨型 GPU 一樣。該公司向記者分享了一個(gè)未經(jīng)證實(shí)的結(jié)果,一整架基于 GB200 的計(jì)算機(jī)在 Llama2 70B 上每秒可交付 869,200 個(gè)tokens。本輪 MLPerf 中報(bào)告的最快系統(tǒng)是 Nvidia B200 服務(wù)器,每秒可交付 98,443 個(gè)tokens。
在 MLCommons 發(fā)布的最新一輪機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試結(jié)果中,基于 Nvidia 全新 Blackwell GPU 架構(gòu)構(gòu)建的計(jì)算機(jī)表現(xiàn)優(yōu)于其他所有計(jì)算機(jī)。但 AMD 的最新 Instinct GPU MI325 卻與其競(jìng)爭(zhēng)對(duì)手Nvidia H200相媲美。兩者的可比結(jié)果主要來自對(duì)較小規(guī)模大型語(yǔ)言模型之一Llama2 70B(700 億個(gè)參數(shù))的測(cè)試。然而,為了跟上快速變化的人工智能格局,MLPerf增加了三個(gè)新基準(zhǔn)測(cè)試,以更好地反映機(jī)器學(xué)習(xí)的發(fā)展方向。
MLPerf 針對(duì)機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行基準(zhǔn)測(cè)試,旨在提供計(jì)算機(jī)系統(tǒng)之間的同類比較。提交者使用自己的軟件和硬件,但底層神經(jīng)網(wǎng)絡(luò)必須相同。目前共有 11 個(gè)服務(wù)器基準(zhǔn)測(cè)試,今年又增加了 3 個(gè)。
MLPerf Inference 聯(lián)合主席 Miro Hodak 表示,“很難跟上該領(lǐng)域的快速發(fā)展”。ChatGPT直到 2022 年底才出現(xiàn),OpenAI于去年 9 月推出了其首個(gè)可以推理任務(wù)的大型語(yǔ)言模型 (LLM),LLM 呈指數(shù)級(jí)增長(zhǎng)——GPT3 擁有 1750 億個(gè)參數(shù),而 GPT4 被認(rèn)為擁有近 2 萬(wàn)億個(gè)參數(shù)。由于這些飛速的創(chuàng)新,“我們加快了將新基準(zhǔn)引入該領(lǐng)域的步伐,”Hodak 說。
新的基準(zhǔn)測(cè)試包括兩個(gè) LLM。流行且相對(duì)緊湊的 Llama2 70B 已經(jīng)是成熟的 MLPerf 基準(zhǔn)測(cè)試,但該聯(lián)盟希望能夠模仿人們今天對(duì)聊天機(jī)器人的期望的響應(yīng)能力。因此,新的基準(zhǔn)測(cè)試“Llama2-70B Interactive”收緊了要求。在任何情況下,計(jì)算機(jī)每秒必須至少產(chǎn)生 25 個(gè)令牌,并且開始回答的時(shí)間不能超過 450 毫秒。
MLPerf 看到了“代理人工智能” 的興起——能夠推理復(fù)雜任務(wù)的網(wǎng)絡(luò)——試圖測(cè)試一款具備部分所需特征的 LLM。他們選擇了 Llama3.1 405B 來完成這項(xiàng)工作。這款 LLM 擁有所謂的寬上下文窗口。這是衡量它可以同時(shí)接收多少信息(文檔、代碼示例等)的標(biāo)準(zhǔn)。對(duì)于 Llama3.1 405B,這個(gè)數(shù)字是 128,000 個(gè) token,是 Llama2 70B 的 30 多倍。
最后一個(gè)新基準(zhǔn)稱為 RGAT,即所謂的圖注意力網(wǎng)絡(luò)。它的作用是對(duì)網(wǎng)絡(luò)中的信息進(jìn)行分類。例如,用于測(cè)試 RGAT 的數(shù)據(jù)集由科學(xué)論文組成,這些論文都與作者、機(jī)構(gòu)和研究領(lǐng)域之間存在關(guān)系,共計(jì) 2 TB 的數(shù)據(jù)。RGAT 必須將論文分類為近 3,000 個(gè)主題。
布萊克威爾,本能結(jié)果
Nvidia通過自己的提交以及戴爾、谷歌和超微等 15 家合作伙伴的提交,繼續(xù)在 MLPerf 基準(zhǔn)測(cè)試中占據(jù)主導(dǎo)地位。其第一代和第二代Hopper架構(gòu) GPU(H100 和內(nèi)存增強(qiáng)型 H200)都表現(xiàn)強(qiáng)勁。Nvidia 加速計(jì)算產(chǎn)品總監(jiān)Dave Salvator表示:“去年,我們的性能又提高了 60%”,Hopper 于 2022 年投入生產(chǎn)?!霸谛阅芊矫妫杂幸恍┨嵘臻g?!?/p>
但真正占主導(dǎo)地位的是 Nvidia 的Blackwell架構(gòu) GPU B200?!拔ㄒ槐?Hopper 更快的就是 Blackwell,”Salvator 說。B200 的高帶寬內(nèi)存比 H200 多 36%,但更重要的是,它可以使用精度低至 4 位的數(shù)字(而不是 Hopper 首創(chuàng)的 8 位)來執(zhí)行關(guān)鍵的機(jī)器學(xué)習(xí)數(shù)學(xué)運(yùn)算。精度較低的計(jì)算單元更小,因此更適合 GPU,從而加快 AI 計(jì)算速度。
在 Llama3.1 405B 基準(zhǔn)測(cè)試中,Supermicro 的 8 核 B200 系統(tǒng)每秒傳輸?shù)牧钆茢?shù)幾乎是思科8 核 H200 系統(tǒng)的四倍。在 Llama2 70B 交互版中,同樣的 Supermicro 系統(tǒng)的速度是最快的 H200 計(jì)算機(jī)的三倍。
Nvidia 使用 Blackwell GPU 和Grace CPU 的組合(稱為 GB200)來展示其 NVL72 數(shù)據(jù)鏈路如何能夠?qū)⒍嗯_(tái)服務(wù)器集成到一個(gè)機(jī)架中,從而使它們的性能如同一臺(tái)巨型 GPU 一樣。該公司向記者分享了一個(gè)未經(jīng)證實(shí)的結(jié)果,一整架基于 GB200 的計(jì)算機(jī)在 Llama2 70B 上每秒可交付 869,200 個(gè)令牌。本輪 MLPerf 中報(bào)告的最快系統(tǒng)是 Nvidia B200 服務(wù)器,每秒可交付 98,443 個(gè)令牌。
AMD將其最新的 Instinct GPUMI325X 定位為性能可與 Nvidia 的 H200 相媲美的產(chǎn)品。MI325X 擁有與其前身 MI300 相同的架構(gòu),但增加了更多的高帶寬內(nèi)存和內(nèi)存帶寬 — 256 GB 和 6 TB/秒(分別提高了 33% 和 13%)。
添加更多內(nèi)存是為了處理越來越大的 LLM?!案蟮哪P湍軌蚶眠@些 GPU,因?yàn)槟P涂梢匝b入單個(gè) GPU 或單個(gè)服務(wù)器中,” AMD 數(shù)據(jù)中心 GPU 營(yíng)銷總監(jiān)Mahesh Balasubramanian說?!耙虼?,你不必承擔(dān)從一個(gè) GPU 到另一個(gè) GPU 或從一個(gè)服務(wù)器到另一個(gè)服務(wù)器的通信開銷。當(dāng)你消除這些通信時(shí),延遲會(huì)大大改善?!盇MD 能夠通過軟件優(yōu)化利用額外的內(nèi)存,將 DeepSeek-R1 的推理速度提高八倍。
在 Llama2 70B 測(cè)試中,八 GPU MI325X 計(jì)算機(jī)的速度與同樣配置的 H200 系統(tǒng)相比,只相差 3% 到 7%。在圖像生成方面,MI325X 系統(tǒng)的速度與 Nvidia H200 計(jì)算機(jī)相比,只相差 10% 以內(nèi)。
AMD 本輪另一個(gè)值得注意的成績(jī)來自其合作伙伴 Mangoboost,通過在四臺(tái)計(jì)算機(jī)上進(jìn)行計(jì)算,它在 Llama2 70B 測(cè)試中表現(xiàn)出了近四倍的性能。
英特爾歷來在推理競(jìng)賽中推出僅使用 CPU 的系統(tǒng),以表明對(duì)于某些工作負(fù)載,您實(shí)際上并不需要 GPU。 這次看到了來自英特爾 Xeon 6 芯片的首批數(shù)據(jù),該芯片以前稱為 Granite Rapids,采用英特爾的 3 納米工藝制造。 在每秒 40,285 個(gè)樣本的情況下,雙 Xeon 6 計(jì)算機(jī)的最佳圖像識(shí)別結(jié)果約為配備兩個(gè) Nvidia H100 的思科計(jì)算機(jī)性能的三分之一。
與 2024 年 10 月的 Xeon 5 結(jié)果相比,新 CPU 在該基準(zhǔn)測(cè)試中提升了約 80%,在物體檢測(cè)和醫(yī)學(xué)成像方面的表現(xiàn)更是大幅提升。自 2021 年首次提交 Xeon 結(jié)果(Xeon 3)以來,該公司在 Resnet 上的性能提升了 11 倍。
目前,英特爾似乎已經(jīng)退出了 AI 加速器芯片之爭(zhēng)。其 Nvidia H100 的替代品Gaudi 3既未出現(xiàn)在新的 MLPerf 結(jié)果中,也未出現(xiàn)在去年 10 月發(fā)布的 4.1 版中。Gaudi 3 的發(fā)布時(shí)間晚于計(jì)劃,因?yàn)槠滠浖形礈?zhǔn)備好。在英特爾愿景 2025 (該公司僅限受邀參加的客戶會(huì)議)的開幕詞中,新任首席執(zhí)行官陳立武 (Lip-Bu Tan) 似乎為英特爾在 AI 方面的努力表示歉意。他告訴與會(huì)者: “我對(duì)我們目前的狀況不滿意。你們也不滿意。我清楚地聽到了你們的聲音。我們正在努力建立一個(gè)有競(jìng)爭(zhēng)力的系統(tǒng)。這不會(huì)在一夜之間發(fā)生,但我們會(huì)為你們實(shí)現(xiàn)目標(biāo)?!?/p>
谷歌的TPU v6e 芯片也表現(xiàn)出色,盡管結(jié)果僅限于圖像生成任務(wù)。在 2024 年 10 月的結(jié)果中,4-TPU 系統(tǒng)以每秒 5.48 次查詢的速度比使用其前身 TPU v5e 的類似計(jì)算機(jī)提高了 2.5 倍。即便如此,每秒 5.48 次查詢的速度與使用 Nvidia H100 的 類似尺寸的聯(lián)想計(jì)算機(jī)大致相當(dāng)。
https://spectrum.ieee.org/ai-inference
半導(dǎo)體精品公眾號(hào)推薦
專注半導(dǎo)體領(lǐng)域更多原創(chuàng)內(nèi)容
關(guān)注全球半導(dǎo)體產(chǎn)業(yè)動(dòng)向與趨勢(shì)
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4083期內(nèi)容,歡迎關(guān)注。
『半導(dǎo)體第一垂直媒體』
實(shí)時(shí) 專業(yè) 原創(chuàng) 深度
公眾號(hào)ID:icbank
喜歡我們的內(nèi)容就點(diǎn)“在看”分享給小伙伴哦
熱門跟貼