打開網(wǎng)易新聞 查看精彩圖片

本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自IEEE

發(fā)熱,正成為未來芯片的一大難題。

50多年來,在摩爾定律看似必然性的推動(dòng)下,工程師們每?jī)赡昃湍軐⑾嗤娣e內(nèi)可容納的晶體管數(shù)量翻一番。然而,在業(yè)界追逐邏輯密度的同時(shí),一個(gè)不良副作用也日益凸顯:發(fā)熱。

在當(dāng)今的CPU和GPU等片上系統(tǒng)(SoC)中,溫度會(huì)影響性能、功耗和能效。隨著時(shí)間的推移,過熱會(huì)減慢處理器中關(guān)鍵信號(hào)的傳播速度,并導(dǎo)致芯片性能永久性下降。它還會(huì)導(dǎo)致晶體管泄漏更多電流,從而浪費(fèi)電能。反過來,功耗的增加會(huì)削弱芯片的能效,因?yàn)閳?zhí)行相同的任務(wù)所需的能量越來越多。

問題的根源在于另一條定律的終結(jié):登納德縮放定律。該定律指出,隨著晶體管線性尺寸的縮小,電壓應(yīng)降低,以使給定面積的總功耗保持不變。登納德縮放定律實(shí)際上在2000年代中期終結(jié),因?yàn)槿魏芜M(jìn)一步降低電壓的做法都不可行,否則會(huì)損害晶體管的整體功能。因此,雖然邏輯電路的密度持續(xù)增長(zhǎng),但功率密度也隨之增長(zhǎng),并產(chǎn)生熱量。

隨著芯片體積越來越小、功能越來越強(qiáng)大,高效的散熱對(duì)于維持其性能和壽命至關(guān)重要。為了確保這種效率,業(yè)內(nèi)需要一種能夠預(yù)測(cè)新半導(dǎo)體技術(shù)(制造晶體管、互連和邏輯單元的工藝)如何改變熱量產(chǎn)生和消散方式的工具。 Imec的研究同事已經(jīng)開發(fā)出這樣的工具。仿真框架使用行業(yè)標(biāo)準(zhǔn)和開源電子設(shè)計(jì)自動(dòng)化 (EDA)工具,并輔以內(nèi)部的工具集,以快速探索半導(dǎo)體技術(shù)與基于該技術(shù)構(gòu)建的系統(tǒng)之間的相互作用。

迄今為止的結(jié)果是不可避免的:隨著每個(gè)新技術(shù)節(jié)點(diǎn)的出現(xiàn),散熱挑戰(zhàn)也在不斷增加,業(yè)內(nèi)需要新的解決方案,包括設(shè)計(jì)芯片和系統(tǒng)的新方法,如果業(yè)內(nèi)希望它們能夠處理熱量的話。

冷卻的極限

冷卻的極限

傳統(tǒng)上,SoC 的冷卻方式是將空氣吹向其封裝上附帶的散熱器。一些數(shù)據(jù)中心已經(jīng)開始使用液體冷卻,因?yàn)樗葰怏w吸收的熱量更多。液體冷卻劑(通常是水或水基混合物)可能足以滿足最新一代高性能芯片的需求,例如英偉達(dá)的新款 AI GPU,據(jù)報(bào)道其功耗高達(dá) 1,000 瓦。但無論是風(fēng)扇還是液體冷卻器,都無法與即將推出的更小節(jié)點(diǎn)技術(shù)相媲美。

打開網(wǎng)易新聞 查看精彩圖片

熱量從芯片中散發(fā)出去的路徑很復(fù)雜,但95%的熱量是通過散熱器散發(fā)出去的。

以納米片晶體管和互補(bǔ)場(chǎng)效應(yīng)晶體管 (CFET) 為例 。領(lǐng)先的芯片制造商已經(jīng)開始轉(zhuǎn)向納米片器件,這種器件將目前鰭式場(chǎng)效應(yīng)晶體管中的鰭片替換為水平堆疊的半導(dǎo)體薄片。CFET 將這種架構(gòu)發(fā)揮到極致,垂直堆疊更多薄片并將它們分成兩個(gè)器件,從而將兩個(gè)晶體管放置在與一個(gè)晶體管大致相同的空間內(nèi)。專家預(yù)計(jì)半導(dǎo)體行業(yè)將在 2030 年代引入 CFET。

在研究中,科研人員研究了即將推出的納米片版本A10(指的是 10 埃,即 1 納米節(jié)點(diǎn))和 CFET 版本 A5。Imec 預(yù)計(jì) A5 將在 A10 之后兩代問世。測(cè)試設(shè)計(jì)的模擬結(jié)果表明,A5 節(jié)點(diǎn)的功率密度比 A10 節(jié)點(diǎn)高出 12% 至 15%。在相同工作電壓下,這種密度的提升將導(dǎo)致預(yù)計(jì)溫度上升 9°C。

打開網(wǎng)易新聞 查看精彩圖片

互補(bǔ)場(chǎng)效應(yīng)晶體管 (CFET) 將納米片晶體管堆疊在一起,從而提高密度和溫度。為了在與納米片晶體管(A10 節(jié)點(diǎn))相同的溫度下工作,CFET(A5 節(jié)點(diǎn))必須在較低的電壓下運(yùn)行。

9 度的溫度似乎不算高。但在數(shù)據(jù)中心里,數(shù)十萬甚至數(shù)百萬個(gè)芯片密集排列,9 度的溫差可能意味著穩(wěn)定運(yùn)行和熱失控之間的差異——熱失控是一個(gè)可怕的反饋回路,溫度升高會(huì)導(dǎo)致漏電功率增加,溫度升高又會(huì)導(dǎo)致漏電功率增加,如此反復(fù),直到最終安全機(jī)制必須關(guān)閉硬件以避免永久性損壞。

研究人員正在尋求替代基本液體和空氣冷卻的先進(jìn)方法,以緩解這種極端高溫。例如,微流體冷卻利用蝕刻在芯片上的微小通道來循環(huán)設(shè)備內(nèi)部的液體冷卻劑。其他方法包括噴射沖擊冷卻(將氣體或液體高速噴射到芯片表面)和浸入式冷卻(將整個(gè)印刷電路板浸入冷卻液槽中)。

但即使這些新技術(shù)得以應(yīng)用,僅僅依靠冷卻器來消除多余的熱量可能也不切實(shí)際。對(duì)于移動(dòng)系統(tǒng)來說尤其如此,因?yàn)樗鼈兪艿匠叽纭⒅亓?、電池電量以及避免燙傷用戶的需求的限制。與此同時(shí),數(shù)據(jù)中心面臨著另一個(gè)限制:由于冷卻是一項(xiàng)覆蓋整個(gè)系統(tǒng)的基礎(chǔ)設(shè)施支出,因此每次新芯片到貨時(shí)更新冷卻裝置的成本過高,而且干擾太大。

性能與熱量

性能與熱量

幸運(yùn)的是,冷卻技術(shù)并非防止芯片炸裂的唯一方法。各種系統(tǒng)級(jí)解決方案都可以通過動(dòng)態(tài)適應(yīng)不斷變化的熱條件來控制熱量。

一種方法是將熱傳感器放置在芯片周圍。當(dāng)傳感器檢測(cè)到令人擔(dān)憂的溫度上升時(shí),它們會(huì)發(fā)出信號(hào),降低工作電壓和頻率,從而降低功耗,以抵消熱量。然而,雖然這種方案解決了散熱問題,但它可能會(huì)明顯影響芯片的性能。例如,芯片在高溫環(huán)境下可能總是工作不佳。

另一種方法稱為“熱沖刺”,對(duì)于多核數(shù)據(jù)中心 CPU 尤其有用。該方法通過運(yùn)行一個(gè)核心直至過熱,然后在第一個(gè)核心冷卻期間將操作轉(zhuǎn)移到第二個(gè)核心來實(shí)現(xiàn)。此過程可以最大限度地提高單線程的性能,但當(dāng)工作必須在多個(gè)核心之間遷移以執(zhí)行較長(zhǎng)的任務(wù)時(shí),可能會(huì)導(dǎo)致延遲。熱沖刺還會(huì)降低芯片的整體吞吐量,因?yàn)樵谛酒鋮s期間,部分功能始終處于禁用狀態(tài)。

因此,系統(tǒng)級(jí)解決方案需要在散熱和性能之間取得平衡。為了有效地應(yīng)用這些解決方案,SoC 設(shè)計(jì)人員必須全面了解芯片上的功耗分布、熱點(diǎn)出現(xiàn)的位置、傳感器的放置位置以及它們何時(shí)觸發(fā)電壓或頻率降低,以及芯片各部件冷卻所需的時(shí)間。然而,即使是最優(yōu)秀的芯片設(shè)計(jì)人員,也很快需要更具創(chuàng)意的散熱管理方法。

利用芯片背面

利用芯片背面

一項(xiàng)頗具前景的研究是在晶圓的底面或背面添加新功能。該策略主要旨在改善電力輸送和計(jì)算性能。但它也可能有助于解決一些散熱問題。

打開網(wǎng)易新聞 查看精彩圖片

新技術(shù)可以降低多核處理器所需的供電電壓,使芯片在可接受的頻率下工作時(shí)保持最低電壓。背面供電網(wǎng)絡(luò)通過降低電阻來實(shí)現(xiàn)這一點(diǎn)。背面電容可以降低瞬態(tài)電壓損耗。背面集成穩(wěn)壓器允許不同的核心根據(jù)需要在不同的最低電壓下工作。IMEC

Imec 預(yù)見了幾種背面技術(shù),這些技術(shù)可能允許芯片在較低電壓下工作,從而減少它們產(chǎn)生的熱量。路線圖上的第一項(xiàng)技術(shù)是所謂的背面供電網(wǎng)絡(luò) (BSPDN)?,它的作用正如其名:將電源線從芯片正面移到背面。所有先進(jìn)的 CMOS 代工廠都計(jì)劃在 2026 年底之前提供 BSPDN。早期演示表明,它們通過將電源拉得更靠近晶體管來降低電阻。電阻越小,電壓損失就越小,這意味著芯片可以在較低的輸入電壓下運(yùn)行。而當(dāng)電壓降低時(shí),功率密度就會(huì)下降,溫度也會(huì)隨之下降。

打開網(wǎng)易新聞 查看精彩圖片

通過改變散熱路徑中的材料,背面供電技術(shù)可以使芯片上的熱點(diǎn)變得更熱。Imec

在采用 BSPDN 之后,制造商很可能也會(huì)開始在芯片背面添加高儲(chǔ)能電容。印刷電路板和芯片封裝中的電感引起的較大電壓擺幅在高性能 SoC 中尤其成問題。背面電容應(yīng)該有助于解決這個(gè)問題,因?yàn)樗鼈兏拷w管,可以更快地吸收電壓尖峰和波動(dòng)。因此,這種布置可以使芯片在比單獨(dú)使用 BSPDN 更低的電壓和溫度下運(yùn)行。

最后,芯片制造商將引入背面集成電壓調(diào)節(jié)器 (IVR) 電路。這項(xiàng)技術(shù)旨在通過更精細(xì)的電壓調(diào)節(jié)進(jìn)一步降低芯片的電壓需求。例如,智能手機(jī)的 SoC 通常有 8 個(gè)或更多計(jì)算核心,但芯片上沒有足夠的空間為每個(gè)核心配備獨(dú)立的電壓調(diào)節(jié)器。因此,通常需要一個(gè)片外調(diào)節(jié)器來同時(shí)管理四個(gè)核心的電壓,無論這四個(gè)核心是否面臨相同的計(jì)算負(fù)載。而 IVR 則通過專用電路單獨(dú)管理每個(gè)核心,從而提高能效。將它們放置在背面可以節(jié)省正面的寶貴空間。

目前尚不清楚背面技術(shù)將如何影響熱管理;需要進(jìn)行演示和模擬來繪制其影響。添加新技術(shù)通常會(huì)增加功率密度,芯片設(shè)計(jì)人員需要考慮其熱影響。例如,在放置背面 IVR 時(shí),如果 IVR 均勻分布,還是集中在特定區(qū)域(例如每個(gè)核心和內(nèi)存緩存的中心),熱問題會(huì)得到改善嗎?

最近,研究人員展示了背面供電技術(shù),即使解決了舊問題,也可能引發(fā)新的散熱問題。其根源在于制造背面供電網(wǎng)絡(luò) (BSPDN) 時(shí)留下的一層極薄的硅。在正面設(shè)計(jì)中,硅襯底厚度可達(dá) 750 微米。由于硅導(dǎo)熱性良好,這層相對(duì)較厚的硅層有助于橫向散熱,從而控制熱點(diǎn)。

然而,添加背面供電技術(shù)需要將襯底厚度減薄至約 1 毫米,以便從背面接入晶體管。這層薄薄的硅片被夾在兩層導(dǎo)線和絕緣體之間,無法再有效地將熱量向側(cè)面?zhèn)鲗?dǎo)。結(jié)果,過熱晶體管產(chǎn)生的熱量會(huì)被困在局部,并被迫向上流向溫度較低的區(qū)域,從而加劇熱點(diǎn)問題。

研究人員對(duì)一款 80 核服務(wù)器 SoC 的模擬發(fā)現(xiàn),BSPDN 可使熱點(diǎn)溫度升高高達(dá) 14 °C。設(shè)計(jì)和技術(shù)調(diào)整(例如增加背面金屬的密度)可以改善這種情況,但研究人員需要更多緩解策略才能完全避免這種情況。

為“CMOS 2.0”做準(zhǔn)備

為“CMOS 2.0”做準(zhǔn)備

BSPDN 是 Imec 稱之為 CMOS 2.0 的新型硅邏輯技術(shù)范式的一部分。這個(gè)新興時(shí)代還將出現(xiàn)先進(jìn)的晶體管架構(gòu)和專用邏輯層。這些技術(shù)的主要目的是優(yōu)化芯片性能和功率效率,但它們也可能帶來熱性能優(yōu)勢(shì),包括改善散熱性能。

在當(dāng)今的CMOS芯片中,單個(gè)晶體管驅(qū)動(dòng)信號(hào)到附近和遠(yuǎn)處的元件,導(dǎo)致效率低下。但如果有兩個(gè)驅(qū)動(dòng)層會(huì)怎樣呢?一層處理長(zhǎng)線,并用專用晶體管緩沖這些連接;另一層僅處理10毫米以內(nèi)的連接。由于第二層中的晶體管針對(duì)短連接進(jìn)行了優(yōu)化,它們可以在較低的電壓下工作,這又會(huì)降低功率密度。不過,具體能降低多少功率密度仍不確定。

打開網(wǎng)易新聞 查看精彩圖片

未來,芯片的各個(gè)部件將采用各自合適的制程技術(shù),在各自的硅晶圓上制造。然后,它們將被 3D 堆疊,形成比僅使用單一制程技術(shù)制造的 SoC 性能更佳的芯片。但工程師必須仔細(xì)考慮熱量如何在這些新的 3D 結(jié)構(gòu)中流動(dòng)。Imec

顯而易見的是,解決行業(yè)散熱問題將是一項(xiàng)跨學(xué)科的努力。任何一項(xiàng)技術(shù)——無論是熱界面材料、晶體管、系統(tǒng)控制方案、封裝還是冷卻器——都不太可能單獨(dú)解決未來芯片的散熱問題。研究人員需要所有這些技術(shù)。借助優(yōu)秀的仿真工具和分析,研究人員可以開始了解每種方法的應(yīng)用范圍和實(shí)施時(shí)間表。盡管CMOS 2.0技術(shù)(特別是背面功能化和專用邏輯)的散熱優(yōu)勢(shì)前景光明,但研究人員需要驗(yàn)證這些早期預(yù)測(cè),并仔細(xì)研究其影響。例如,對(duì)于背面技術(shù),研究人員需要精確了解它們?nèi)绾胃淖儫崃康漠a(chǎn)生和散發(fā),以及這是否會(huì)帶來比解決的問題更多的新問題。

芯片設(shè)計(jì)師可能會(huì)傾向于采用新的半導(dǎo)體技術(shù),認(rèn)為不可預(yù)見的發(fā)熱問題可以在后期通過軟件處理。這或許沒錯(cuò),但效果有限。過度依賴軟件解決方案會(huì)對(duì)芯片性能產(chǎn)生不利影響,因?yàn)檫@些解決方案本身就不夠精確。例如,修復(fù)單個(gè)熱點(diǎn)可能需要降低更大區(qū)域的性能,而該區(qū)域原本不會(huì)過熱。因此,SoC 和用于構(gòu)建 SoC 的半導(dǎo)體技術(shù)必須協(xié)同設(shè)計(jì)。

好消息是,越來越多的 EDA 產(chǎn)品正在添加高級(jí)熱分析功能,包括在芯片設(shè)計(jì)的早期階段。專家們也呼吁一種名為 “系統(tǒng)技術(shù)協(xié)同優(yōu)化”的芯片開發(fā)新方法。STCO 旨在通過整體考慮來消除系統(tǒng)、物理設(shè)計(jì)和工藝技術(shù)之間僵化的抽象界限。資深專家需要走出自己的舒適區(qū),與其他芯片工程領(lǐng)域的專家合作。研究人員或許尚不清楚如何解決業(yè)界日益嚴(yán)峻的熱挑戰(zhàn),但研究人員樂觀地認(rèn)為,只要有合適的工具和合作,就能實(shí)現(xiàn)這一目標(biāo)。

*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。