本文由EETOP編譯自tomshardware
芯片行業一年一度的盛會Hot Chips正在舉行,本屆大會為期三天,NVIDIA、高通、英特爾、AMD、谷歌、SK海力士、三星、Arm、IBM等芯片巨頭,Meta、微軟等科技巨頭,晶圓級芯片創企Cerebras、光子AI芯片創企曦智科技、稀疏化計算AI芯片創企墨芯人工智能、RISC-V服務器處理器創企Ventana、RISC-V IP供應商SiFive等具有代表性的創業公司,均發表了展現當前芯片工業界前沿趨勢的主題演講。披露各自的最新進展及未來規劃。
今天為大家介紹英特爾剛剛分享的其144 核 Sierra Forest、Granite Rapids 架構和至強路線圖。
在 Hot Chips 2023 上,英特爾首次深入展示了其未來 144 核 Xeon Sierra Forest和 Granite Rapids 處理器,前者由英特爾全新 Sierra Glen E 核心組成,后者則采用全新 Redwood Cove P 核心。即將推出的第五代 Xeon 芯片將于明年上半年推出,采用新的基于tile-based架構,該架構在Intel 7工藝上配備雙 I/O 小芯片,并與Intel 3制成上制造的不同配置的計算核心搭配使用。這種設計使英特爾能夠根據不同類型的內核打造多種產品,同時保持相同的底層配置,從而保留硬件和固件的兼容性。Sierra Forest 和 Granite Rapids 與 Birch Stream 平臺兼容(插槽、內存、固件和 I/O 兼容),提供了簡化的硬件驗證流程。它們還可以與相同的軟件堆棧互操作,因此客戶可以根據自己的需要采用其中任何一種芯片。英特爾聲稱,與第四代至強芯片相比,第五代至強Sierra Forest基于E-Core的設計將提供高達2.5倍的機架密度和2.4倍的每瓦性能,而采用P-Core的Granite Rapids將在混合人工智能工作負載中提供2至3倍的性能,,部分原因在于內存帶寬“高達”2.8 倍的提升。讓我們深入了解一下。
Sierra Forest 和 Granite Rapids架構







英特爾最初在其第四代至強 Sapphire Rapids處理器上采用了tile-based(類似于小芯片組)的架構,但 Sierra Forest 和 Granite Rapids 將該方法的分解提升到了一個新的水平。英特爾在 Sapphire Rapids處理器中采用了四芯片設計,每個芯片包含一部分相關的 I/O 功能,如內存和 PCIe 控制器。新的第五代處理器將一些 I/O 功能完全分解為兩個獨立的 HSIO 小芯片,這些小芯片蝕刻在 Intel 7 工藝上,這為 I/O 提供了成本、功耗和性能的最佳平衡,同時 CPU 內核和內存控制器駐留在其中在他們自己的專用計算芯片上。計算模塊將采用適用于 Granite Rapids 的 Redwood Cove P 核心(性能核心)或適用于 Sierra Forest 的 Sierra Glen E 核心——英特爾不會提供在同一封裝中包含這兩種類型核心的型號。這些計算芯片配備了支持 EUV 的 Intel 3 工藝,該工藝具有Intel 4 工藝中未包含的高密度庫。由于將設計從“Intel 4”切換為“Intel 3”,英特爾最初將 Granite Rapids Xeons 從 2023 年推遲到 2024 年,但這些芯片仍按計劃在 2024 年上半年推出。Granite Rapids 是我們所理解的傳統 Xeon 數據中心處理器 - 這些型號僅配備 P 核,可以提供英特爾最快架構的全部性能。每個 P 核均配有 2MB 的 L2 緩存和 4MB 的 L3。英特爾尚未透露 Granite Rapids 的核心數量,但透露了該平臺在單個服務器中支持 1 到 8 個插槽。與此同時,Sierra Forest 的 E-core(效率核心)系列由僅具有較小效率核心的芯片組成,就像我們在英特爾的 Alder 和 Raptor Lake 芯片中看到的那樣,使它們能夠很好地與數據中越來越流行的 Arm 處理器競爭中心。E 核心排列成兩個或四個核心集群,共享 4MB 二級緩存和 3MB 二級緩存。配備 E-Core 的處理器配備多達 144 個內核,并針對最高的功效、面積效率和性能密度進行了優化。這意味著每個 E 核計算芯片擁有 48 個核心。Sierra Forest 可以接入單插槽和雙插槽系統,TDP 低至 200W。無論核心類型如何,每個計算芯片都包含核心、L2 和 L3 緩存以及結構和緩存歸屬代理 (CHA)。它們還在芯片的每一端安裝了 DDR5-6400 內存控制器,標準 DDR 內存或新的MCR 內存總共具有多達 12 個通道(1DPC 或 2DPC),可提供比標準 DIMM 多 30-40% 的內存帶寬。正如您在上面所看到的,計算小芯片將根據模型有不同的大小,單計算芯片產品配有更大的計算集群。英特爾還將改變每個計算小芯片的內存通道數量——在這里,我們看到具有單個計算小芯片的產品上有三個內存控制器,而具有兩個或更多計算小芯片的設計有兩個內存控制器。與 AMD 的 EPYC 設計相比,英特爾決定將其內存控制器緊密集成到計算芯片中,這應該會帶來卓越的內存性能,AMD 的 EPYC 設計在一個中央 I/O 芯片上采用所有內存控制器,從而增加了延遲。計算芯片與所有其他內核共享 L3 緩存,英特爾將其稱為“邏輯整體網格”,但它們也可以劃分為子 NUMA 集群,以優化某些工作負載的延遲。該網格將 L3 緩存切片連接到一個統一的共享緩存中,總容量總計超過 0.5 GB,幾乎比 Sapphire Rapids 大 5 倍。每個芯片邊界支持芯片之間超過 TB/s 的帶寬。兩個 HSIO 裸片放置在芯片封裝的頂部和底部,中間有一到三個計算裸片,所有這些裸片均與未指定數量的 EMIB(嵌入式多裸片互連橋)互連連接在一起,這些互連融合在基板內并連接到橋的每一端都有芯片到芯片互連。兩個 HSIO 芯片相結合,支持多達 136 個 PCIe 5.0/ CXL 2.0通道(類型 1、2 和 3 設備)、多達 6 個 UPI 鏈路(144 個通道),以及類似的壓縮、加密和數據流加速器。Sapphire Rapids 加速引擎的時尚。每個 HSIO 芯片還包括管理計算小芯片的電源控制電路,盡管每個計算小芯片也有自己的電源控制,可以在需要時獨立運行。英特爾現在已經取消了對芯片組 (PCH) 的要求,從而允許處理器自啟動,就像 AMD 的 EPYC 處理器一樣。英特爾 Sierra Glen E-Core 微架構
EUVCMUao4y7DtzY6B7iaiaVpuibYWA/640?wx_fmt=png" data-type="png" data-w="900" data-index="10" src="http://www.xebio.com.cn/uploadfile/2023/0829/20230829113840989.jpg" _width="677px" crossorigin="anonymous" alt="圖片" data-fail="0" style=";padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;vertical-align: bottom;height: auto !important;width: 677px !important;visibility: visible !important"/>





Sierra Glen 微架構經過優化,可在標量吞吐量工作負載(例如橫向擴展、云原生和容器化環境)中實現最佳效率。該架構具有兩核或四核集群,使英特爾能夠為某些型號提供每核更高的二級緩存容量和每核更高的性能(通過為兩核模塊提供更高的功率輸出)。每個核心集群駐留在相同的時鐘和電壓域上。E-core集群共享4MB L2緩存片和3MB共享L3緩存。與前幾代一樣,每個 E 核心都是單線程。英特爾還將 L1 緩存加倍至 64KB,并采用 6-wide解碼器(雙 3 寬以改善延遲和功耗)、5-wide分配器、8-wide retire。Sierra Glen 核心不支持 AMX 或 AVX-512,它們將依賴AVX10,但英特爾確實添加了對 BF16、FP16、AVX-IFMA 和 AVX-DOT-PROD-INT8 的支持。 






P 核的 Redwood Cove 架構現在支持具有 FP16 加速的 AMX,這是一項將提升 AI 推理工作負載性能的關鍵補充。英特爾還將 L1 指令緩存容量增加了一倍,達到 64 KB,以更好地解決代碼繁重的數據中心工作負載。Redwood Cove 還采用軟件優化的預取以及增強的分支預測引擎和錯誤恢復。英特爾還通過將 4 周期和 5 周期 FP 運算改為 3 周期來提高浮點性能,從而提高了 IPC。



對于英特爾來說,有一個好消息,該公司的數據中心路線圖仍然按計劃進行。Sierra Forest 將于 2024 年上半年上市,Granite Rapids 也將緊隨其后。
在這里我們可以看到英特爾的路線圖與AMD 的數據中心路線圖的對比 。當前高性能之戰在AMD去年推出的EPYC Genoa和英特爾今年年初推出的Sapphire Rapids之間展開。英特爾將于今年第四季度推出新一代Emerald Rapids ,該公司表示,該產品將配備更多內核和更快的時鐘速率,并且已經發布了注入 HBM 的 Xeon Max CPU。AMD最近發布了5nm Genoa-X產品。明年,英特爾的下一代 Granite Rapids 將與 AMD 的 Turin 展開對決。在效率泳道中,AMD 的 Bergamo 采用了與 Sierra Forest 非常相似的重核心方法,利用了 AMD 密集的Zen 4c核心。Bergamo已經上市,而英特爾的 Sierra Forrest 要到 2024 年上半年才會上市。AMD 的第五代 EPYC Turin 芯片將于 2024 年底前推出,但該公司尚未概述其第二代 Zen 4c 型號。英特爾現已將其第二代 E 核驅動的 Clearwater Forest 列入 2025 年路線圖。