世界上最強大的NUMA架構服務器長這個樣子(內部解析)
2021-09-09 15:33:33 EETOP但事實上,這些NUMA系統的制造商越來越少。基本上只剩下IBM的基于Power10的16插槽Power E1080和未來基于Telum 處理器的16插槽System z16;使用Intel的Cooper Lake至強SP 8380H處理器的基于HP Superdome X和SGI NUMAlink 8技術的混合的Superdome Flex等。
IBM的最新服務器是基于Power10的 Denali Power E1080。新的 IBM 機器是以北美最高的山Denali(麥金利山)命名的,這座山位于阿拉斯加,海拔6193 米。因此有人預計,2024 年左右使用 Power11 芯片的 Power E1180 將被稱為 Aconcagua(阿空加瓜山,南美最高峰,位于阿根廷,海拔6962米),而 2027 年左右到期的 Power 1280 將被稱為珠穆朗瑪峰。
在那之后,有了可能的 Power 1380,我們必須去火星尋找更高的山峰——奧林匹斯山,這是一座高達21171米的盾狀火山。或者,也許到 2030 年左右,IBM 將完成 NUMA 處理器業務,命名將不再是問題。這很難說。但如果真的發生這種情況,Power11 和 Power12 可以在很長一段時間內為 IBM 的客戶提供服務。HPE很樂意盡其所能地利用SGI/Superdome混合機--主要用于運行SAP HANA內存數據庫和應用程序,偶爾作為超級計算機集群的大內存節點--而甲骨文自從讓Sun Microsystems淡出后,就對超大型計算機顯示出興趣。
現在我們可以肯定的是,藍色巨人仍然相信big-iron,并且在交付第一臺 Power10 的機器時,它正在開發 Power11。
現在,讓我們揭開這個機器怪獸的神秘面紗。
與之前基于 Power 處理器的 IBM 六代高端 NUMA 機器和其他大型 X86 機器一樣,Power E1080 系統以四路服務器節點作為其基本構建塊。
此基礎機箱中的四個處理器使用片上 NUMA 電路緊密耦合,Power10 芯片還具有額外的 NUMA 電路,可將多達四個節點連接到一個 16 插槽的機器中。
以下是 Denali 系統的四插槽基礎機箱的示意圖:
下面是揭開蓋子后 Denali 的內部照片:
上圖中從左到右依次是左邊的I/O和系統互連,接著是四組Power10處理器,然后是64個DDR4內存插槽,最右邊是風扇和閃存驅動器。
這是一個非常令人滿意的base-2架構,因為本地節點中的計算和內存是緊密耦合的,節點中任何兩個處理器緩存和內存之間只有一個fast hop。它與特定節點外部的任何Power10芯片只有一到兩個hops的距離。有一個與應用相匹配的延遲層次,特別是那些適合相對較小的虛擬機的應用。
重要的是,NUMA拓撲結構隨著每一代處理器內核的增加而變得越來越扁平,這就是為什么IBM不需要像2004年基于雙核Power5芯片的Power 595系統那樣將插座推到32個。那時需要8個處理器卡,每個卡有4個雙核芯片,才能達到64個核心,而現在只需要4個處理器卡就能做到240個核心。同樣重要的是,任何在一個核心上工作的應用程序或數據庫都能以合理的線性性能擴展到所有240個核心。并具有合理的線性性能。扁平的 SMP 系統無法擴展到這個地步。大多數 NUMA 系統也不能,當它們這樣做時,在四個或八個插槽后性能下降得非常快。
IBM還在開發一款非常出色的四插座機器,它將使用Power10雙芯片模塊(DCM),在非常狹小的空間中塞進四個物理插座。到目前為止,我們看到的所有設計都是基于16核的Power10芯片,每個核心有8個線程,也就是IBM所說的SMT8。IBM可以對Power10芯片進行不同的分區(就像它對Power9芯片所做的那樣),以一半的線程數產生兩倍的內核。(所以每個芯片 30 個內核作為單芯片模塊或 SCM,每個插槽最多 60 個內核作為 DCM。)到目前為止,IBM 還沒有這樣做,但它可能會在明年某個時候推出入門機器。
在 Denali 系統中交付的 Power10 芯片具有三種規格:
這些是我們在 Power8 和 Power9 處理器的 SMT8 版本中看到的時鐘速度范圍。這意味著 Power E1080 節點可以有 40、48 或 60 個核心,而具有四個節點的成熟機器可以有 160、192 或 240 個核心。
IBM 尚未發布 Power E1080 系統的完整基準測試結果,但它在今天的發布活動中確實表示 Power10 E1080 的性能是 2004 年 Power 595 的 6.9 倍:
從2004年到2021年,高端系統性能增長的一半來自核心的增加,另一半來自讓每個內核做更多的工作。Power10指令集已經在一個新的微體系結構中擴展并完全重新實現,該微體系結構將現有整數、浮點數和小數點(貨幣數學)的數據類型擴展為新的矩陣數學,該矩陣數學適用于機器學習推斷和其他可能的HPC工作負載。Power E1080的推理性能是運行在Power9矢量引擎上的混合精度數學的10倍,當矩陣數學加速器或 MMA 支持 32 位精度時,那么在今年晚些時候或明年年初,這一性能將提高到20倍。(每個核心有四個MMA)
在談到性能時,IBM 表示 Power E1080 每個插槽的吞吐量性能比它所取代的 Power E980 高出 50%,并且兩臺機器上的插槽數都達到了 16 個插槽,這意味著系統性能也提高了高出 50%。
Power E1080 服務器對 IBM 及其客戶很重要,因為它是第一臺實現 OpenCAPI 內存接口(簡稱 OMI)的機器。借助OMI,IBM正在使用它創建的32Gb/sec SerDes來做NVLink、OpenCAPI和NUMA互連等I/O,將核心與主存儲器連接起來。這種接口比DDR4內存控制器慢一點,但它占用的面積更小,消耗的能量也更少,這使得IBM在Power9和Power10機器之間把內存控制器和內存插槽的數量增加了兩倍。通過將內存控制器和插槽增加一倍,IBM可以將每個插座的帶寬增加一倍,同時使用更便宜、更薄的內存卡來獲得一定的容量。
對于企業級Power8和Power9機器—對應的是Power E880C、Power E980和Power E1080, IBM使用了其 "Centaur"內存緩沖器,它實現了L4緩存,并充當了緩沖內存控制器。在Denali系統中,有16個OMI鏈接從處理器出來(每個鏈接由8個OMI通道組成,運行速度為32Gb/sec),每個通道可以驅動自己的差分DIMM(DDIMM)。Power E1080內存卡各有四個DDIMM,DDIMM上有32GB和64GB容量的內存卡(因此總容量為128GB或256GB)以3.2GHz運行,而使用更厚的128GB和256GB DDIMM的內存卡(因此提供512GB和1024GB的容量)以較慢的2.93GHz運行。這意味著使用較薄內存的Power10插座可以提供409.6GB/秒的帶寬,而使用較厚內存的Power10插座可以提供375.4GB/秒的帶寬。
OMI 存儲卡:
以下是基于 Power8 的 Power E880C、基于 Power9 的 Power E980 和基于 Power10 的 Power E1080 的對比:
Power E1080 的核心數增加了 25%,從而提高了吞吐量性能。最大內存保持不變,但 IBM 可以使用更便宜的 DIMM,由于每個插槽的內存控制器和插槽增加了一倍,帶寬增加了 1.79 倍。每個節點的內存帶寬與 GPU 加速器相當。I/O 子系統的帶寬與轉向 PCI-Express 5.0外圍控制器的帶寬大致相同,但 IBM 只需要一半的通道就可以在 Power E1080 系統中為每個節點提供 576GB/秒的帶寬。
IBM 現在正在接受 Power E1080 系統的訂單,預計從 9 月 17 日開始發貨單節點或雙節點配置。這些早期機器僅支持每個節點最多 4TB。IBM 將從 10 月開始搶先體驗三節點和四節點配置,并計劃在 12 月提供這些更豐富的設置以及更豐富的 OMI 內存。
原文:
https://www.nextplatform.com/2021/09/08/this-is-what-the-most-powerful-server-in-the-world-looks-like/