AI芯片的供電挑戰
2025-06-20 11:16:28 EETOP隨著人工智能(AI)工作負載規模和復雜度的不斷提升,為處理海量數據而開發的各種處理元件對功耗的需求達到了前所未有的水平。但如何高效且可靠地提供這種功耗,同時不降低信號完整性或引發熱瓶頸問題,已成為半導體歷史上最嚴峻的設計與制造挑戰之一。
與通用處理器不同,專為 AI 工作負載設計的芯片將集成密度推向了極致。它們在更小的封裝尺寸內封裝了更多晶體管,同時通常以小芯片(chiplet)的形式增加晶體管總數。其結果是形成了更大、更密集的系統級封裝(SiP),其中電源傳輸不僅成為一個電氣問題,更演變為從單個小芯片到服務器機架的封裝、材料和系統集成挑戰。
新思科技(Synopsys)研究員戈德溫?馬本(Godwin Maben)表示:“動態功耗在很大程度上占主導地位,這主要由計算單元和內存之間的數據移動驅動。例如,英偉達(NVIDIA)的 Blackwell 功耗范圍為 700 瓦至 1,400 瓦。這使得高效的總線架構和架構創新(如數據壓縮策略)變得至關重要。”
由于內存和計算單元之間來回傳輸的數據量巨大,動態功耗占據主導地位。這些數據傳輸通過大規模內存層級結構進行,使用各種高速互連技術。但移動所有這些數據需要付出代價,形成從內存層級決策一直延伸到電源傳輸網絡(PDN)的級聯設計約束。
imec 研發副總裁朱利安?里凱(Julien Ryckaert)指出:“隨著我們轉向背面和 3D 堆疊,熱量變得更加集中且更難消散。這種物理緊湊性加劇了電遷移和局部熱熱點等挑戰?!?/span>
隨著人工智能(AI)工作負載規模和復雜度的不斷提升,為處理海量數據而開發的各種處理元件對功耗的需求達到了前所未有的水平。但如何高效且可靠地提供這種功耗,同時不降低信號完整性或引發熱瓶頸問題,已成為半導體歷史上最嚴峻的設計與制造挑戰之一。
與通用處理器不同,專為 AI 工作負載設計的芯片將集成密度推向了極致。它們在更小的封裝尺寸內封裝了更多晶體管,同時通常以小芯片(chiplet)的形式增加晶體管總數。其結果是形成了更大、更密集的系統級封裝(SiP),其中電源傳輸不僅成為一個電氣問題,更演變為從單個小芯片到服務器機架的封裝、材料和系統集成挑戰。
新思科技(Synopsys)研究員戈德溫?馬本(Godwin Maben)表示:“動態功耗在很大程度上占主導地位,這主要由計算單元和內存之間的數據移動驅動。例如,英偉達(NVIDIA)的 Blackwell 功耗范圍為 700 瓦至 1,400 瓦。這使得高效的總線架構和架構創新(如數據壓縮策略)變得至關重要。”
由于內存和計算單元之間來回傳輸的數據量巨大,動態功耗占據主導地位。這些數據傳輸通過大規模內存層級結構進行,使用各種高速互連技術。但移動所有這些數據需要付出代價,形成從內存層級決策一直延伸到電源傳輸網絡(PDN)的級聯設計約束。
imec 研發副總裁朱利安?里凱(Julien Ryckaert)指出:“隨著我們轉向背面和 3D 堆疊,熱量變得更加集中且更難消散。這種物理緊湊性加劇了電遷移和局部熱熱點等挑戰。”
為了在這些功率水平下實現可管理的電源傳輸,多學科設計團隊必須全面考慮電壓調節的位置和方式、熱量提取方法、材料在大電流應力下的行為,以及在電遷移和 IR 壓降影響可靠性之前所具有的裕量。這些設計決策的復雜性要求電子設計自動化(EDA)工具、制造工藝和先進封裝之間實現更緊密的耦合。
新思科技首席架構師杰伊?羅伊(Jay Roy)表示:“如今,高性能計算和 AI 加速器已突破千瓦級功耗邊界。設計復雜度的爆炸式增長和不斷縮短的開發周期,對半導體系統級芯片(SoC)設計構成了持續挑戰。”
這種在擴展性能的同時最小化功耗的推動,正迫使電源傳輸模型發生重大變革。這不再僅僅是降低電阻的問題,而是涉及對電感行為、熱梯度以及不同膨脹系數材料之間的耦合進行建模。早期預測電壓降、電流瓶頸和熱熱點現在至關重要,并且必須在實際布局和集成約束的背景下進行。
IC工程師技術盛會 研討會報名通知
從橫向到垂直電源傳輸
無論多少仿真都無法解決傳統橫向電源傳輸固有的局限性。在封裝和印刷電路板(PCB)上橫向路由大電流電源跡線會引入損耗和空間限制,這些限制已無法滿足現代需求。當芯片功耗為 100 瓦或 200 瓦時,這種方法尚可使用,但如今已成為現代 AI 硬件的限制因素。
Saras Micro Devices 首席商務官埃爾科?伯格曼(Eelco Bergman)表示:“當前的加速器卡通常采用橫向電源傳輸架構,將數千安培的電流通過數厘米的 PCB 跡線從電源模塊路由到處理器。由于大電流和跡線電阻,這種方法會導致顯著的功率損耗和過度發熱。此外,用于支持不斷增加的總功率、電源軌數量以及關鍵高速信號路由的電路板空間有限。”
在這些功率水平下,每一毫歐姆的電阻都會轉化為必須消散的瓦特熱量。此外,橫向布線施加的空間限制通常會在電源完整性和信號完整性之間造成權衡。在高帶寬系統中,數百個高速串行器 / 解串器(SerDes)通道與密集的電源層共享電路板空間,這些權衡變得難以承受。
圖 1:垂直電源傳輸網絡,顯示直接嵌入封裝基板中的多域電容器模塊。來源:Saras Micro Devices
為了克服這些限制,半導體行業正越來越多地探索垂直電源傳輸。通過將電源軌或穩壓器直接嵌入芯片下方,并通過低阻抗路徑垂直連接它們,從電源到硅片的距離大幅縮短。其結果是減少了 IR 壓降和噪聲,同時為關鍵信號釋放了頂層布線空間。
伯格曼補充道:“我們看到客戶正在積極探索具有嵌入式電壓調節和集成電容解決方案的垂直電源傳輸架構,這些解決方案可以實現電源傳輸的本地化。這些方法釋放了頂層 PCB 空間,減少了寄生損耗,并提高了整體電源傳輸性能。”
在基板和中介層內使用集成電源傳輸層,以及局部去耦,使 AI 小芯片和加速器能夠以更少的壓降獲得更清潔、更穩定的電源。先進基板(包括那些具有嵌入式無源器件的基板)現在正與硅片本身協同設計,以優化阻抗分布和散熱性能。
與此同時,這些技術也帶來了新的可靠性挑戰。通過新材料和垂直結構傳輸大電流需要對電流擁擠、熱循環和材料疲勞進行嚴格建模。嵌入式電源元件必須在承受強烈熱通量的同時,與敏感信號層保持電隔離。這反過來又推動了介電材料、沉積技術和協同設計方法的創新。
先進封裝與散熱
高功率密度直接轉化為熱密度,這可能導致熱熱點,從而降低可靠性并減少性能。如果沒有先進的散熱技術,即使是效率最高的系統也需要進行熱節流,這會大幅降低性能。
安靠(Amkor)小芯片和倒裝芯片球柵陣列(FCBGA)業務部高級總監杰拉德?約翰(Gerard John)表示:“如今的先進封裝采用多尺度熱管理技術來高效散熱和排熱。銦合金熱界面材料(TIM)特別有效,因為其熱導率約為 80 W/m-K。然而,銦 TIM 需要芯片背面和蓋子底面進行金屬化處理,通常使用 Ti/Au 或 Ni/Au 等材料。需要回流工藝來在芯片和蓋子之間形成鍵合,這有助于降低界面電阻。”
最小化芯片和散熱器之間的熱阻取決于材料和應用技術。均勻的 TIM 覆蓋和低空洞處理對于實現芯片上一致的散熱至關重要。傳統的基于焊料的 TIM 正在被高性能金屬合金、相變材料和新型碳基界面所取代或補充。
約翰指出:“確保 TIM 應用中的空洞最小化至關重要。空洞會顯著阻礙熱傳導,導致熱熱點和器件可靠性下降。監控 TIM 空洞在工藝優化和器件篩選中至關重要。”
這些解決方案通常針對特定工作負載定制。例如,AI 訓練比推理產生更長時間的持續功率突發,需要不同的熱瞬態響應。封裝工程師必須與系統架構師合作,確保散熱解決方案與實際工作負載曲線相匹配。
約翰提到:“TIM 的選擇通?;谄骷β蕡D,該圖指示高發熱區域。通過將 TIM 特性與這些圖相匹配,可以實現最佳熱管理,確保器件上的高效散熱。”
在多小芯片系統中,熱挑戰因熱邏輯塊的接近而放大。先進設計正轉向蒸汽腔、微流體冷卻和雙面散熱來管理這種復雜性。每種方法都帶來了新的制造、可靠性和材料集成障礙,但它們正迅速成為實現大規模 AI 性能的必要工具。
IC工程師技術盛會 研討會報名通知
鉬與材料遷移
這正是鉬作為關鍵替代金屬嶄露頭角的地方。與銅相比,鉬的電子平均自由程更短;與鎢相比,在窄幾何尺寸下具有更好的可擴展性,因此在先進節點中,鉬在電阻率和可制造性方面均提供了切實的改進。
泛林半導體(Lam Research) corporate vice president 兼總經理凱漢?阿什蒂亞尼(Kaihan Ashtiani)表示:“從傳統鎢金屬化轉向鉬可帶來顯著的性能提升,包括接觸電阻降低高達 50%。鉬的電子平均自由程更短,使其在更小尺寸下表現更優,顯著降低了緊密封裝互連結構中的電阻問題。”
實際上,這意味著鉬在局部互連中特別有優勢,因為現在線寬和間距已低于 20nm。在這些尺寸下,像鎢這樣的傳統金屬會因電子散射增加而受損,這會導致有效電阻率和熱負載升高。相比之下,鉬在受限幾何尺寸中保持了良好的導電行為。
對于 AI 器件,這一特性至關重要。隨著更多功能被封裝在更少的平方毫米內,且垂直堆疊變得越來越普遍,熱量和電阻日益局部化。像鉬這樣的材料創新有助于緩解這些影響,既通過改善電氣性能,又通過簡化集成到原子層沉積(ALD)和化學氣相沉積(CVD)工藝中,這些工藝在領先的晶圓廠中已很常見。
阿什蒂亞尼表示:“當互連尺寸縮小到低于銅等金屬的平均自由程時,由于電子散射更頻繁,電阻會增加。在這些情況下,像鉬這樣平均自由程更短的金屬實際上變得更有利,因為它在更小尺寸下保持更低的電阻。”
向鉬的轉變也與行業減少電遷移風險的更廣泛努力一致。在 AI 工作負載常見的高電流密度下,金屬遷移會隨著時間的推移產生空洞和開路,這是對可靠性日益增長的擔憂。鉬的高熔點和晶粒穩定性有助于抵消這一點,使其成為長壽命 AI 計算應用的強大候選材料。
背面電源傳輸
如今,芯片架構中最具變革性的轉變或許是向背面電源傳輸網絡(BSPDN)的遷移。背面電源傳輸網絡不再通過頂部金屬層同時路由電源和信號(它們在頂部金屬層爭奪空間),而是通過在晶圓底面引入電源連接來解耦這些功能。
最初的概念由英特爾(Intel)首次公開稱為 “電源通孔”,此后已演變為行業正在采用的更廣泛的技術類別。本質上,晶圓的背面被蝕刻以暴露觸點,然后這些觸點用于直接向晶體管供電,繞過信號路由堆疊并顯著提高效率。
imec 的里凱表示:“背面電源傳輸始于蝕刻到硅中的電源通孔,以從背面提供直接電源訪問,這有助于降低阻抗。從兩側處理晶圓為器件縮放和路由密度開辟了新機會,盡管由于去除硅作為散熱器,這也帶來了熱挑戰。”
這種結構重組為 AI 芯片提供了幾個關鍵優勢。首先,通過分離電源和信號路由,工程師在布局規劃和時序優化方面獲得了更大的靈活性。信號層可以擴展或微調,而無需擔心電源分配限制。其次,它實現了更薄、更均勻的電源網格,從而減少了 IR 壓降并使電壓調節更可預測。
里凱補充道:“電源傳輸曾經是眾多考慮因素之一,現在它塑造了整個布局規劃。背面 PDN 有助于緩解路由擁塞并實現更高的晶體管密度,但它們也增加了功率密度,這使得熱管理比以往任何時候都更加關鍵。”
此外,背面處理為散熱引入了新選項。由于硅襯底不再充當散熱障礙,設計人員可以實施雙面散熱策略,在芯片的兩側應用熱界面。
設計協同優化與系統級影響
在這種模式下,硅架構師、封裝工程師和系統設計師從最早的設計階段開始協作。電源傳輸網絡、熱分布、機械應力和布局規劃必須作為相互依賴的系統進行建模,而不是流程中的順序步驟。
新思科技的馬本表示:“功耗感知協同設計變得越來越重要。它有助于平衡熱性能與時序收斂,使客戶能夠在最終產品中實現更好的效率和可靠性。”
新思科技的羅伊表示:“上游電源傳輸效率的邊際改進可以防止下游的熱退化。目標是讓工程師盡早了解這些系統如何相互作用,以便將可靠性內置其中,而不是事后添加。”
這些約束提升了協同仿真和跨域反饋回路的重要性。電壓完整性和電磁干擾(EMI)現在與熱仿真、材料建模和功耗感知驗證直接交叉。作為回應,一些芯片制造商正在將封裝和系統工程團隊納入內部,或將他們嵌入芯片設計團隊中,以加快迭代并確保一致性。
Saras 的伯格曼表示:“降低 IR 壓降和提高電源傳輸效率直接轉化為更少的熱量和更低的散熱成本。這在超大規模數據中心中是直接的成本優勢。”
結論
隨著 AI 需求的增長,優化每瓦特功耗以及交付每瓦特所花費的每一美元的壓力只會加劇。這意味著電源傳輸不再是后端考慮因素,它已成為塑造 AI 芯片設計和制造的前沿約束。隨著 AI 芯片進入千瓦級功耗領域,行業必須重新思考從材料到布局規劃、從晶圓鍵合到散熱的一切。背面電源傳輸網絡、鉬互連和垂直集成基板等創新只是開始。
AI 芯片電源傳輸的前進道路需要跨學科的深度協作。隨著工程師面對下一代電源傳輸的多物理特性,圍繞硅、封裝和系統設計建立的孤島正在瓦解。盡管這些解決方案的成本和復雜性很高,但回報(以性能、效率和可擴展性衡量)將是巨大的。
原文
https://semiengineering.com/power-delivery-challenges-for-ai-chips
為了在這些功率水平下實現可管理的電源傳輸,多學科設計團隊必須全面考慮電壓調節的位置和方式、熱量提取方法、材料在大電流應力下的行為,以及在電遷移和 IR 壓降影響可靠性之前所具有的裕量。這些設計決策的復雜性要求電子設計自動化(EDA)工具、制造工藝和先進封裝之間實現更緊密的耦合。
新思科技首席架構師杰伊?羅伊(Jay Roy)表示:“如今,高性能計算和 AI 加速器已突破千瓦級功耗邊界。設計復雜度的爆炸式增長和不斷縮短的開發周期,對半導體系統級芯片(SoC)設計構成了持續挑戰。”
這種在擴展性能的同時最小化功耗的推動,正迫使電源傳輸模型發生重大變革。這不再僅僅是降低電阻的問題,而是涉及對電感行為、熱梯度以及不同膨脹系數材料之間的耦合進行建模。早期預測電壓降、電流瓶頸和熱熱點現在至關重要,并且必須在實際布局和集成約束的背景下進行。