穿越小说完本,完美的世界 1993 电影,完美世界有声小说

構建超大規模異構計算平臺，需攻克5大核心技術

2023-06-12 14:28:06 奇異摩爾

點擊關注->創芯網公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

2023年6月2日，以“聚焦應用，集智創芯”為主題的集微通用芯片行業應用峰會在廈門舉行。會上，奇異摩爾聯合創始人兼產品及解決方案副總裁祝俊東發表了《大模型驅動的全新算力形態，基于Chiplet的超大規模異構計算平臺》的主題演講，本篇文章回顧擷取自以上活動。

圖片1.png

奇異摩爾聯合創始人兼產品及解決方案副總裁祝俊東

大模型的爆發，帶來了巨量的算力需求，也給芯片帶來了極大的挑戰。因能有效提升算力和互聯密度，異構計算和Chiplet兩大技術成為備受關注的方向。那么，要如何利用Chiplet構建一個超大規模的異構計算平臺？

PART 1大模型驅動高性能計算進化加速

挑戰1：硬件和系統規模持續提升

隨著算力需求的不斷提升，摩爾定律逐漸無法滿足芯片面積和芯片級聯提升的需求，進而引發了硬件和系統的規模過載。業界迫切需要構建更大規模的整合計算系統，以應對持續增長的算力需求。
挑戰2：算力應用場景多元化

隨著芯片工藝技術的不斷演進，算力場景應用也在不斷增長，倘若針對不同應用場景升級迭代芯片，企業將面臨巨大的資金挑戰。同時，為了滿足高性能計算對的效率需求，通用處理器（CPU）地位逐漸被GPU取代。異構計算和Chiplet技術，可以把CPU和GPU拼搭成一整個芯片，從而更好的實現通用性與性能的平衡。
挑戰3：互聯效率瓶頸

隨著計算機系統的規模擴大，存儲、計算規模也越發龐大，互聯效率成為芯片設計的重大的瓶頸。行業急需基于分布式、以存儲為中心的計算架構，以突破現有芯片互聯效率。

芯片巨頭比拼超大規模異構計算平臺

如今，全球主要芯片巨頭如AMD、Intel、Nvidia都在構建超大規模異構計算平臺。以Nvidia為例，其最新一代Hopper H100針對大型模型提供9倍AI訓練速度。

圖片3.png

DGX H100 (Image credit: Nvidia)

祝俊東指出，Nvidia能實現如此高幅度的性能提升，關鍵在于系統級的互聯。從BlueField-3到Spectrum-4，Nvidia把構建了一個從底層到頂層的全鏈路互聯網絡架構體系，使互聯性能提升了數十倍。在此基礎上，Nvidia把GPGPU、異構計算、超高速互聯網絡組合在一起，創建了一個ETOPS級的超大規模計算集群：DGX GH200。

圖片4.png

DGX GH200 (Image credit: Nvidia)

AMD、英特爾等頭部企業也在進行超大規模異構計算平臺的研發。2022年，英特爾發布了3D GPGPU Intel Ponte Vecchio，通過Intel的Xlink網絡把47個不同的芯粒組合在一起，構建了一個高性能的集群。

圖片5.png

Intel Ponte Vecchio (Image credit: Intel)

AMD作為Chiplet路線的開拓者，一直將異構、Chiplet、互聯網絡作為其主要研發路線。AMD將6顆GPU和3顆CPU拼在一顆芯片上形成了其3D APU MI300，并將Infinity Fabric互聯架構升級至第三代，以實現全方位的多處理器性能和可擴展性的優化。

圖片6.png

AMD MI300 (Image credit: Intel)

汽車領域芯片架構變化

自動駕駛領域，芯片巨頭也紛紛布局大算力計算平臺。Nvidia在年初發布了Nvidia Thor超級芯片計劃，作為一顆多域合一的芯片，它集合了多種功能，擁有最高達2000T算力。

圖片7.png

Nvidia Drive Thor (Image credit: Nvidia )

最近，在Nvidia與MediaTek的車用芯片共同開發計劃中，MediaTek將通過Chiplet設計方式將Nvidia的GPU集成在下一代Snapdragon產品中，通過雙SoC與雙NPU的組合打造更強的大算力芯片，并通過不同產品組適配高中低端應用和不同場景。

圖片8.png

(Image credit: MediaTek)

PART 2構建大規模異構計算平臺需要五大關鍵技術

要構建超大規模異構計算平臺，需要五大軟硬件關鍵技術。

第一：適用于超大規模異構的計算架構，以實現軟、硬件的結合，以及單個計算單元性能的最大化；

第二：統一的編程模型以及協議的庫堆棧，以提高軟件的應用性；

第三：從CPU到GPU、NPU等不同類型的計算單元的芯粒支持；

第四：超大規模的傳輸網絡及互聯網絡，把不同的計算單元、存儲、連接等單元高效地連接在一起；

第五：先進封裝技術，讓不同的芯粒用接近甚至超過SoC的互聯密度連接，像一顆芯片一樣工作。

其中，后三大技術都與Chiplet緊密相關。這也是Chiplet成其為構建大規模異構計算平臺的關鍵因素的根本原因。

系統級視角看Chiplet：

從系統級的視角來看，Chiplet是一種新的系統級架構與dielet組合的方式。基于SoC 架構進行拆分重組，將主要功能單元 (IP) 轉變成獨立芯粒 (Dielet)，并通過先進封裝和 Die-to-Die接口，將其連接到 Chiplet 互聯網絡 (OCI) 中，組成系統級宏芯片 (MSoC)。這也是全鏈路的chiplet的重組以及拆分的過程。

Chiplet的核心挑戰：高效互聯在芯片拆分后，需要高效的互聯。而Chiplet互聯涉及多個層次：Physical：先進封裝是Chiplet的物理支撐，包含substrate、2.5D、3D等不同形式，客戶需根據產品選擇適合的先進封裝形式；Electrical：為高效連接信號，需要Die-to-Die interface和高帶寬、低延時、低功耗及統一的協議；Interconnection：在die-to-die互聯基礎上，大量節點需要通過一套統一的連接網絡以及對應的算法進行連接；Network：把不同的芯粒通過更復雜的網絡結構高速互聯起來，實現不同節點間的全連通。
互聯對于Chiplet至關重要，也是Chiplet所面臨的核心挑戰所在。奇異摩爾作為國內第一批專注于2.5D和3D Chiplet研發的企業，就此提出了一整套完整的解決方案，以解決超大規模互聯問題。

PART 3：奇異摩爾：推出基于Chiplet的大規模異構計算平臺

奇異摩爾是一家基于Chiplet架構，為客戶提供核心通用互聯芯粒及系統級解決方案的服務商，以數據存儲和傳輸為核心，通過自研的Kiwi Fabric互聯體系高效連接不同類型的功能單元，目標是成為超大規模分布式異構計算平臺的基石。

奇異摩爾互聯核心：Die2Die接口和互聯芯粒

奇異摩爾的產品線分為兩大部分，其一是2.5D、3D芯粒系列，其二是Die-to-Die IP系列。奇異摩爾基于UCIe標準，提供覆蓋各種不同類型、綜合能力強、具高帶寬、低延時、低功耗的Die2Die IP，支持2.x/2.5/3D 等多種封裝形態。

2.5D IO Die：IO Die作為奇異摩爾的核心自研產品，是一個高速數據存儲及調度核心，集成了Die-to-Die接口和其他多種高速接口，能把各個節點通過Kiwi Fabric網絡互連起來，再通過一套自定義算法來實現數據流、信息流的分發調度。

3D Base Die：在IO Die的基礎上，奇異摩爾研發了全球首款的通用的3D Base Die。通過芯粒3D堆疊，能進一步提升芯片算力密度。同時，通過集成die-to-die 3D接口，Cache等模塊以實現更高效的垂直互聯，最大程度的減少存儲本身帶來的延遲和功耗。

奇異摩爾為客戶提供基于IO Die和Base Die的完整解決方案，基于核心互聯芯粒，客戶只需設計少量功能單元，即可搭建產品系列平臺，能極大地降低研發及量產的成本。奇異摩爾的解決方案覆蓋數據中心、自動駕駛、邊緣AI、5G、6G移動通信等需要大算力芯片的領域。客戶可以最高提升芯片的系統性能至1.5倍，并實現研發成本（80%）和量產時間（60%）的下降。