打開網(wǎng)易新聞 查看精彩圖片

文:雷雨亭,編輯:王一鵬

投入算力,真的能換來利潤嗎?這是每個想“入局”大模型的企業(yè)都會思考的問題。

人工智能行業(yè)一直困于成本,無論從模型訓(xùn)練到推理,都充滿了“燒錢”的氣息。無法避免的高昂算力,成為企業(yè)入局大模型的“鐵門檻”。

打開網(wǎng)易新聞 查看精彩圖片

據(jù)多方數(shù)據(jù)統(tǒng)計(jì),訓(xùn)練GPT-4這樣的前沿模型系統(tǒng),其成本預(yù)估在7800萬美元;而在推理層面,企業(yè)私有化部署大模型,成本仍高達(dá)數(shù)百萬元;基于開源大模型進(jìn)行微調(diào)+RAG策略盡管更便宜,但安全性難以保障,更別提在后續(xù)使用中還會涉及的持續(xù)算力消耗。

而與高昂算力同時存在的,是算力利用率極低的行業(yè)現(xiàn)狀。

據(jù)相關(guān)消息,OpenAI在GPT-4的訓(xùn)練中,其算力利用率只有32%至36%,大模型訓(xùn)練的算力有效利用率不足50%。這是因?yàn)樵谟?xùn)練周期內(nèi),GPU卡并不能隨時實(shí)現(xiàn)高資源利用,在一些訓(xùn)練任務(wù)比較小的階段,還會有資源閑置狀態(tài)。而在模型部署階段,由于業(yè)務(wù)波動和需求預(yù)測不準(zhǔn)確,許多服務(wù)器往往處于待機(jī)或低負(fù)載狀態(tài)。算力浪費(fèi)現(xiàn)象極為嚴(yán)重。

困局背后,是云計(jì)算基礎(chǔ)設(shè)施建設(shè)存在的滯后性:傳統(tǒng)的云基礎(chǔ)設(shè)施,并不完全適配當(dāng)今大模型訓(xùn)練及推理的需求。所以過去兩年,主流云計(jì)算服務(wù)商一直將產(chǎn)品與算力更新當(dāng)做重點(diǎn),這種“錯位”導(dǎo)致了相當(dāng)量級的資源浪費(fèi),以及成本的增加。

一方面,訓(xùn)練AI模型所需的算力,還正在以高達(dá)每年10倍的速度增長;另一方面,云計(jì)算的發(fā)展速度不僅受制于摩爾定律,還牽扯到從底層到頂層的整個服務(wù)架構(gòu),并不能靠簡單地堆砌GPU實(shí)現(xiàn)。

面對這些沖突,云廠商們試圖通過跨界合作來完成創(chuàng)新,其中火山引擎與英特爾的聯(lián)手便是一個典型案例。

英特爾握手火山引擎,終于拿出了“殺手锏”

英特爾作為x86的王者,多年來深耕通用處理器,幾乎從底層定義了PC時代。在人工智能熱潮來臨之前,英特爾預(yù)見了傳統(tǒng)單一計(jì)算架構(gòu)已達(dá)到性能和功耗的瓶頸,而將異構(gòu)計(jì)算作為應(yīng)對AI時代算力挑戰(zhàn)的關(guān)鍵戰(zhàn)略。英特爾提出的 XPU 戰(zhàn)略,便是希望整合 CPU、GPU、ASIC、FPGA 等領(lǐng)域的產(chǎn)品線,使CPU中不同核心負(fù)責(zé)不同工作負(fù)載,讓計(jì)算架構(gòu)能更有效地應(yīng)對場景化數(shù)據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

在2024火山引擎FORCE原動力大會?冬上,英特爾介紹了至強(qiáng)? 6性能核處理器,并攜手火山引擎共同發(fā)布了搭載該處理器的火山引擎第四代通用計(jì)算實(shí)例 g4il,希望通過優(yōu)化云服務(wù)的底層架構(gòu),幫助用戶應(yīng)對多樣化的需求。

對比上一代,通用計(jì)算實(shí)例g4il搭載英特爾? 至強(qiáng)? 6性能核處理器(代號Granite Rapids,簡稱GNR),計(jì)算密度大幅提升;同時,得益于采用了雙單路架構(gòu),使得“爆炸半徑”大幅降低,有力保障穩(wěn)定性;此外,基于火山引擎自研DPU板卡和Hypervisor等組件,g4il也實(shí)現(xiàn)了軟硬一體的深度協(xié)同。

g4il支持多種云盤類型,包括高效型云盤、極速型SSD PL0,極速型SSD FlexPL,吞吐型SSD TL0;在網(wǎng)絡(luò)層面,g4il支持采用jumbo frame(巨型幀)來進(jìn)行大包傳輸,可有效減少網(wǎng)絡(luò)傳輸耗時和提升網(wǎng)絡(luò)效率。

為應(yīng)對 AI 業(yè)務(wù)的固有特點(diǎn),g4il也全面提升了I/O能力,整機(jī)網(wǎng)絡(luò)帶寬提升100%,整機(jī)存儲帶寬提升100%,整機(jī)IOPS提升66%,整機(jī)PPS提升38%;在CPU方面,內(nèi)存通道為12CH,支持高達(dá)6400 MT/s的DDR5內(nèi)存,L3緩存提升了60%。此外,g4il在AMX int8和bf16的基礎(chǔ)上新增支持fp16指令集,可以滿足更多精度的AI運(yùn)算需求,相比 AVX512有多達(dá) 5倍算力提升。

綜合來看,通用計(jì)算實(shí)例g4il能以更為流暢、高效、穩(wěn)定的計(jì)算體驗(yàn),有效幫助用戶應(yīng)對 AI場景及傳統(tǒng)復(fù)雜運(yùn)算作業(yè),尤其在數(shù)據(jù)庫應(yīng)用、Web應(yīng)用和視頻轉(zhuǎn)碼等場景下,可實(shí)現(xiàn)最高 20%的性能提升。

據(jù)英特爾提供數(shù)據(jù)顯示,鏡像平臺提供開源大模型在g4il實(shí)例驗(yàn)證,以及大模型與embedding、向量數(shù)據(jù)庫等組合驗(yàn)證,并為g4il實(shí)例提供企業(yè)知識庫檢索、視頻檢索分析、數(shù)據(jù)分析助手、智能體/工作流編排等一鍵式部署方案,一杯咖啡的時間可以讓一個知識庫助手應(yīng)用就緒。

用戶無需額外購買高性能計(jì)算產(chǎn)品,僅需極低的成本即可上手大模型,并且能夠輕松部署到多個使用場景中,大幅降低了AI開發(fā)的門檻。

打開網(wǎng)易新聞 查看精彩圖片

此外,為了進(jìn)一步提供高性價比彈性算力,火山引擎基于與字節(jié)跳動內(nèi)外復(fù)用的百萬核潮汐資源池,推出了業(yè)界首創(chuàng)的“彈性預(yù)約實(shí)例”售賣模式。這種模式支持免費(fèi)提前預(yù)約,到點(diǎn)資源自動交付,在為彈性需求提供資源確定性保障的同時,相較于常規(guī)的按量計(jì)費(fèi)實(shí)例,還能夠節(jié)省33%以上的算力成本。從內(nèi)外并池到機(jī)型統(tǒng)一,這背后也有英特爾? 至強(qiáng)? 系列處理器的強(qiáng)勁助力。

打開網(wǎng)易新聞 查看精彩圖片

英特爾全方位賦能,做新時代“幕后功臣”

英特爾針對 AI 模型訓(xùn)練、推理等應(yīng)用場景,以及在硬件增強(qiáng)的安全特性方面,推出了很多自研技術(shù),并內(nèi)置于英特爾? 至強(qiáng)? 6中,如英特爾? 高級矩陣擴(kuò)展(英特爾? AMX)和英特爾? 信任域擴(kuò)展(英特爾? TDX)。

打開網(wǎng)易新聞 查看精彩圖片

英特爾? AMX通過在CPU中加入專門用于矩陣運(yùn)算的硬件單元,以增強(qiáng)對大模型的支持。包括了一組二維寄存器(稱為TILES),以及一個能夠?qū)@些寄存器進(jìn)行操作的加速器TMUL(Tile Matrix Multiply Unit)。TILES寄存器可以存儲二維矩陣數(shù)據(jù),并且TMUL負(fù)責(zé)執(zhí)行高效的矩陣乘法運(yùn)算,可以在單個時鐘周期內(nèi)完成大量INT8、BF16、FP16精度的操作,極大地提升了每秒浮點(diǎn)運(yùn)算次數(shù)。在文生圖和LLM場景下,火山引擎成功驗(yàn)證了基于 AMX 的火山引擎通用云服務(wù)器在 AI 推理性能上的顯著提升。

生成式 AI 興起后,安全問題再次回歸大眾視野,用戶擔(dān)心 Gen AI 對駭客行為的升級,英特爾? 信任域擴(kuò)展(英特爾? TDX)對用戶的數(shù)據(jù)和應(yīng)用提供端到端的保護(hù)。其核心在于創(chuàng)建一個稱為受信任域(TD, Trusted Domain)的環(huán)境,這是一個被硬件嚴(yán)格隔離的虛擬機(jī)實(shí)例。

與傳統(tǒng)的虛擬機(jī)(VM)不同,TD不僅能夠抵御來自同一物理主機(jī)上其他VM或應(yīng)用程序的攻擊,還可以防止虛擬機(jī)管理器(VMM)/虛擬機(jī)管理程序以及平臺上的任何非TD軟件對其造成的影響。這意味著即使云服務(wù)商本身也無法訪問TD內(nèi)部的數(shù)據(jù),極大地提升了隱私性和安全性。

打開網(wǎng)易新聞 查看精彩圖片

TDX 的另外一個特性是提供遠(yuǎn)程認(rèn)證功能,使工作負(fù)載所有者能夠驗(yàn)證服務(wù)器的可信狀態(tài),增強(qiáng)對虛擬化環(huán)境的信任。

這些技術(shù)特點(diǎn)意味著,在云多租戶的環(huán)境中,TDX 可以保障不同租戶之間嚴(yán)格隔離,簡化安全部署。

在AI推理方面,英特爾還推出了基于GNR+MRDIMM內(nèi)存優(yōu)化的全新方案,這種方案是火山引擎對英特爾? 至強(qiáng)? 6性能核處理器進(jìn)行了深度調(diào)優(yōu),帶來更大內(nèi)存帶寬和更強(qiáng)CPU算力,并在測試中顯示,可以大幅提升LLM性能。

至強(qiáng)? 6性能核處理器采用Intel 3制程工藝,其特點(diǎn)在于采用單元架構(gòu),擁有獨(dú)立的IO單元和內(nèi)核單元。這種設(shè)計(jì)使其能夠與GPU或?qū)S玫腁I加速器高效協(xié)作,真正發(fā)揮出作為數(shù)據(jù)中心的“指揮官”,也就是就是機(jī)頭(head-node)CPU或主控CPU的優(yōu)勢,對比上一代處理器,至強(qiáng)? 6可以提供更強(qiáng)的CPU算力。

MRDIMM是通過使用高速多路復(fù)用器或數(shù)據(jù)緩沖區(qū),同時讀取內(nèi)存Bank并將數(shù)據(jù)傳輸?shù)紺PU。更大的內(nèi)存帶寬,使它特別適用于人工智能、高性能計(jì)算和實(shí)時分析等應(yīng)用場景。

縱觀2024火山引擎FORCE原動力大會?冬的這次發(fā)布,從通用計(jì)算實(shí)例g4il降低AI應(yīng)用的開發(fā)門檻,到“彈性預(yù)約實(shí)例”售賣模式降低算力成本。面對當(dāng)下全新的算力需求,英特爾的至強(qiáng)? 6性能核處理器,AMX、TDX等內(nèi)置加速器、以及目前“獨(dú)占”的MRDIMM技術(shù),正在為大模型落地帶來強(qiáng)力的支持。

作為頭部芯片廠商,英特爾正在上浮逐步進(jìn)入業(yè)務(wù)場景,賦能千行百業(yè)實(shí)現(xiàn)業(yè)務(wù)革新。

打開網(wǎng)易新聞 查看精彩圖片

—— 越看越精彩 ——

【IT創(chuàng)事記】聚焦于企業(yè)級科技生態(tài)、策略及商業(yè)知識。你可以在各主流媒體平臺看到IT創(chuàng)事記的同名文字專欄和【IT創(chuàng)事記·短視頻】專欄。如果你有相應(yīng)的內(nèi)容希望分享,記得在公眾號留言告訴我們。