打開網(wǎng)易新聞 查看精彩圖片

整理 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

在這個(gè)什么都講“提效節(jié)能”的年代, 如果告訴你, 僅靠修改 Linux 內(nèi)核中 30 行左右的代碼, 就能讓數(shù)據(jù)中心能耗降低 30%,你敢信嗎?

聽起來有些夸張?但這確實(shí)是來自加拿大滑鐵盧大學(xué)的一項(xiàng)真實(shí)研究成果,而且已經(jīng)被并入 Linux Kernel 6.13!

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

數(shù)據(jù)中心的“腦力勞動(dòng)”出了問題?

我們都知道,現(xiàn)代數(shù)據(jù)中心是 AI 時(shí)代的“算力發(fā)動(dòng)機(jī)”。不管是你讓 ChatGPT 寫的段子,還是正在加載的一張美圖,它們背后都離不開數(shù)據(jù)中心日以繼夜地運(yùn)轉(zhuǎn)著數(shù)十萬甚至上百萬個(gè)服務(wù)器節(jié)點(diǎn)。

然而,正因?yàn)檫\(yùn)轉(zhuǎn)得太“勤快”,數(shù)據(jù)中心已經(jīng)成了用電大戶。根據(jù)國際能源署(IEA)的預(yù)測,到 2030 年,數(shù)據(jù)中心的電力需求可能占到全球總用電量的 4%。在 AI 大模型加速落地的今天,這個(gè)數(shù)字只會(huì)更快逼近。

以 OpenAI 的 GPT-4 為例,它的訓(xùn)練過程據(jù)估算消耗了相當(dāng)于 5000 個(gè)美國家庭一整年用電的電能——這還不包括推理階段的耗電??梢哉f,AI 的算力焦慮正實(shí)實(shí)在在地轉(zhuǎn)化為電力焦慮。

那么問題來了:這些電到底花在哪兒了?

加拿大滑鐵盧大學(xué)的研究者發(fā)現(xiàn),僅僅是在網(wǎng)絡(luò)處理這個(gè)“看起來不起眼”的環(huán)節(jié),就存在巨大的優(yōu)化空間。

打開網(wǎng)易新聞 查看精彩圖片

“主動(dòng)輪詢”+“智能切換”,巧妙應(yīng)對(duì)流量波動(dòng)

要理解這項(xiàng)優(yōu)化,我們得先了解一點(diǎn)網(wǎng)絡(luò)棧的“潛規(guī)則”。當(dāng)服務(wù)器收到一個(gè)新的網(wǎng)絡(luò)數(shù)據(jù)包時(shí),Linux 內(nèi)核的做法是:立刻發(fā)起一個(gè)中斷請(qǐng)求(IRQ),強(qiáng)行打斷 CPU 當(dāng)前正在執(zhí)行的任務(wù),轉(zhuǎn)去處理這個(gè)包。

乍一看沒問題,響應(yīng)快嘛。但問題在于,這種頻繁的“打斷—處理—返回”的過程,會(huì)導(dǎo)致 CPU 緩存失效,執(zhí)行效率變低,而且非常耗電。用滑鐵盧大學(xué) Cheriton 計(jì)算機(jī)學(xué)院教授 Martin Karsten 的比喻來說:這就像在一個(gè)流水線上,一旦有新任務(wù)就有人大聲喊停,所有人都得停下手中的事趕去處理,反復(fù)打斷反而影響整體效率。

那有沒有可能不被動(dòng)等待中斷,而是“我閑下來自己去看看有沒有任務(wù)”?而這,正是 Martin Karsten 帶領(lǐng)的研究團(tuán)隊(duì)想出的解決方案。他們與內(nèi)容分發(fā)網(wǎng)絡(luò)公司 Fastly 的首席工程師 Joe Damato 合作,開發(fā)出了一段約 30 行的代碼,用于改進(jìn) Linux 網(wǎng)絡(luò)流量的處理機(jī)制,其核心思想是:

  • 高流量時(shí)段,關(guān)閉頻繁的中斷請(qǐng)求,改為采用主動(dòng)輪詢:CPU 每隔一小段時(shí)間主動(dòng)去網(wǎng)絡(luò)檢查是否有新包;

  • 低流量時(shí)段,重新啟用傳統(tǒng)中斷模式,減少不必要的資源消耗。

簡單來說,就是“忙的時(shí)候我自己去看,閑的時(shí)候你叫我一聲”。這種動(dòng)態(tài)切換機(jī)制充分結(jié)合了兩種模式的優(yōu)點(diǎn),在節(jié)能的同時(shí)還能提升吞吐量、降低延遲。

更妙的是,整個(gè)改動(dòng)只需要在 Linux 網(wǎng)絡(luò)棧中修改約 30 行代碼——沒有引入任何新硬件、沒有額外成本,僅僅改了幾行老代碼,就能讓龐大的數(shù)據(jù)中心更省電、更高效。

“我們沒有增加任何新功能,只是重新安排了執(zhí)行順序,”Martin Karsten 解釋道,“就像在工廠流水線上稍微重新調(diào)整步驟,避免工人東奔西跑那樣,讓 CPU 緩存的利用更加高效。”

打開網(wǎng)易新聞 查看精彩圖片

實(shí)測結(jié)果:性能提升 45%,能耗降低 30%

根據(jù)該研究團(tuán)隊(duì)給出的實(shí)測結(jié)果,這項(xiàng)優(yōu)化不僅能降低能耗最多達(dá) 30%,還將數(shù)據(jù)處理吞吐量提升高達(dá) 45%,同時(shí)保持較低的尾延遲(tail latency),即系統(tǒng)在高負(fù)載下仍能快速響應(yīng)關(guān)鍵請(qǐng)求。

值得一提的是,這項(xiàng)優(yōu)化也已正式并入 Linux Kernel 6.13,正式成為 Linux 系統(tǒng)的一部分,意味著只要操作系統(tǒng)內(nèi)核版本跟得上,所有基于 Linux 的服務(wù)系統(tǒng)都能無縫受益。

打開網(wǎng)易新聞 查看精彩圖片

Martin Karsten 教授表示:“像 Amazon、Google、Meta 這樣的科技巨頭或多或少都會(huì)使用 Linux,但它們對(duì)啟用什么特性非常謹(jǐn)慎。如果這些公司愿意在數(shù)據(jù)中心中開啟這一優(yōu)化方案,那么全球范圍內(nèi)每年可以節(jié)省數(shù)十億度電。每一次互聯(lián)網(wǎng)上的服務(wù)請(qǐng)求,也幾乎都能從中受益?!?/p>

如他所說,在這個(gè)“誰的 AI 跑得快、誰的訓(xùn)練成本更低”的時(shí)代背景下,這項(xiàng)優(yōu)化堪稱開源社區(qū)給數(shù)據(jù)中心運(yùn)營者的“節(jié)能大禮包”。

不過,盡管節(jié)能技術(shù)不斷進(jìn)步,但根據(jù) Uptime Institute 的報(bào)告,全球仍有超過一半的數(shù)據(jù)中心并未追蹤包括碳排放、可再生能源使用率等在內(nèi)的關(guān)鍵可持續(xù)指標(biāo)。更糟糕的是,還有不少企業(yè)甚至放松了原有的環(huán)保目標(biāo),以便給 AI 項(xiàng)目讓路。

例如 Google 最近披露,其碳排放在 4 年內(nèi)激增了 48%,主要原因就是為了支撐 AI 布局而大規(guī)模擴(kuò)建數(shù)據(jù)中心——這也引發(fā)了外界對(duì)“AI 是否真的可持續(xù)”的廣泛質(zhì)疑。

面對(duì)這個(gè)問題,IEEE 高級(jí)成員、貝爾法斯特女王大學(xué)工程學(xué)院教授 Aoife Foley 呼吁道,所以數(shù)據(jù)中心想要實(shí)現(xiàn)可持續(xù)發(fā)展,不僅要在代碼優(yōu)化上下功夫,還得從設(shè)計(jì)、建設(shè)階段就考慮環(huán)境因素,篩選暗數(shù)據(jù)、減少不必要存儲(chǔ)、使用綠色能源。

https://www.techrepublic.com/article/data-centres-energy-reduction-code/

https://www.datacenterdynamics.com/en/news/changing-linux-code-could-cut-data-center-energy-use-by-30-researchers-claim/

如果您曾將 PayPal 集成到您的應(yīng)用或項(xiàng)目中,并為此查閱過 PayPal 的集成文檔,我們誠摯邀請(qǐng)您參與一項(xiàng)重要的問卷調(diào)研。

只需要 30 秒即可搞定問卷上的 6 個(gè)小問題(全部都是選擇題)!為感謝您的寶貴時(shí)間,前 200 名完成問卷的開發(fā)者將獲得一份精美禮品(快充頭/保溫杯/6合1充電器三選一)作為答謝。