大量硬件故障,無法上線!美國(guó)世界第一超算遇到大麻煩
2022-10-09 12:03:17 EETOP建造一臺(tái)超級(jí)計(jì)算機(jī)總是具有挑戰(zhàn)性的,但創(chuàng)造業(yè)界首個(gè)百億億級(jí)(E級(jí))系統(tǒng)更是會(huì)遇到完全出乎意料的遭遇,需要在硬件和軟件方面進(jìn)行大量工作。不幸的是,這種情況發(fā)生在了目前全球超算排名第一的橡樹嶺國(guó)家實(shí)驗(yàn)室(Oak Ridge National Laboratory)的Frontier超級(jí)計(jì)算機(jī)上,它幾乎每天都會(huì)出現(xiàn)大量硬件故障。
ORNL的Frontier是業(yè)界首個(gè)設(shè)計(jì)用于提供高達(dá)1.685 FP64 ExaFLOPS峰值性能的系統(tǒng),使用AMD的64核EPYC Trento處理器、Instinct MI250X計(jì)算GPU和HPE的Slingshot互連,功率為21兆瓦(2萬千瓦)HPE 構(gòu)建了系統(tǒng)并使用了 Cray EX 專為橫向擴(kuò)展應(yīng)用設(shè)計(jì)的架構(gòu),主要用于超高速超級(jí)計(jì)算機(jī)。
雖然從紙面上看,F(xiàn)rontier超級(jí)計(jì)算機(jī)看起來特別好,而且機(jī)器系統(tǒng)的硬件部分已經(jīng)交付,但似乎硬件方面的問題一直在阻止機(jī)器上線,并且無法提供給需要大約 1 FP64 ExaFLOPS 性能的研究人員使用。
橡樹嶺領(lǐng)導(dǎo)力計(jì)算設(shè)施(OLCF)的項(xiàng)目主管Justin Whitt在接受InsideHP的采訪時(shí)表示:“我們正在解決硬件方面的問題,并確保我們理解具體是什么問題。為何會(huì)遇到如此規(guī)模的失敗,導(dǎo)致這種規(guī)模的系統(tǒng)的平均故障間隔時(shí)間是幾個(gè)小時(shí),而不是幾天。"
關(guān)于Frontier的潛在硬件故障的傳言已經(jīng)流傳了很久。根據(jù)InsideHPC的另一篇報(bào)道,有人說該系統(tǒng)在Slingshot互連上遇到了問題。此外,還有人表示,AMD的Instinct MI250X計(jì)算GPU今年并不像預(yù)期那樣可靠。請(qǐng)記住,擁有更多流處理器和高時(shí)鐘的X版本只向特定客戶提供。
Whitt沒有證實(shí)該系統(tǒng)遇到了 Instinct 或 Slingshot 的任何特定問題,但他強(qiáng)調(diào)該機(jī)器存在許多硬件問題。
“很多挑戰(zhàn)都集中在這些 GPU 上,但這并不是我們所看到的大部分挑戰(zhàn)。” OLCF的負(fù)責(zé)人說。"在零部件故障的常見罪魁禍?zhǔn)字校@是一個(gè)相當(dāng)好的分布,因?yàn)?a href="http://www.xebio.com.cn/cpu_soc" target="_blank" class="keylink">GPU是一個(gè)很大的組成部分。我不認(rèn)為在這一點(diǎn)上,我們對(duì)AMD的產(chǎn)品有太多擔(dān)憂。"
到目前為止,橡樹嶺國(guó)家實(shí)驗(yàn)室的 Frontier 超級(jí)計(jì)算機(jī)并不是唯一一個(gè)使用 HPE Cray EX 架構(gòu)和 Slingshot 互連、AMD EPYC(霄龍)CPU 和 AMD Instinct 計(jì)算 GPU 的系統(tǒng)。例如, 芬蘭的 Lumi 超級(jí)計(jì)算機(jī) (Cray EX、EPYC Milan、Instinct MI250X 計(jì)算 GPU)提供了 550 PetaFLOPS 的峰值性能,并被 正式列為 世界第三強(qiáng)大的超級(jí)計(jì)算機(jī)。
只有時(shí)間才能證明最初承諾于 2022 年上線的 Frontier 超級(jí)計(jì)算機(jī)是否會(huì)在 2023 年開始提供給研究人員,因?yàn)樗晕凑讲渴稹?/span>
原文:
https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章