?重新思考計算存儲:釋放固態(tài)硬盤(SSD)的處理潛力
2025-01-24 12:03:53 EETOP幾年前,計算存儲的概念在業(yè)內(nèi)人士之間引起了討論。它被吹捧為如何解決如何最大化CPU處理能力的這一古老問題的潛在答案。
這一想法乍看之下頗具吸引力。想象一下,如果像SSD這樣的存儲設(shè)備能夠處理它們所存儲信息的一部分,那么存儲設(shè)備和CPU之間需要傳輸?shù)臄?shù)據(jù)就會減少。理論上,這有助于節(jié)省電力、減少數(shù)據(jù)傳輸需求,并加快計算速度。
然而,與許多看似革命性的想法一樣,這一概念始終未能找到實現(xiàn)商業(yè)化的途徑——主要是因為每個用例都高度獨特,且根本不具備可擴展性。
當工程師和開發(fā)人員談?wù)撚嬎愦鎯r,他們往往采取一種不切實際的方法:“如果我們能在驅(qū)動器上運行Linux,并給它配備更大的處理器,會怎么樣?”雖然這個想法看似創(chuàng)新,但它缺乏重點和實際應(yīng)用。這是一種被技術(shù)理想主義驅(qū)動的、過度復(fù)雜的誤導(dǎo)性思維。最終,它并不會帶來所期望的好處。
更明智的方法:定制化加速
了解NAND存儲技術(shù)創(chuàng)新可以帶來更好的方法,將處理負擔(dān)卸載到SSD上。通過采用定制化的加速方法,我們可以專注于存儲設(shè)備最擅長的任務(wù):對邏輯塊尋址(LBA)范圍應(yīng)用固定操作。
SSD中的專用加速器處理特定任務(wù),這些任務(wù)不需要過多的功率或復(fù)雜性。例如,硬件加速器可以以非常高的速度執(zhí)行特定操作:
·篩選大型數(shù)據(jù)集。
·基于對象的糾刪編碼。
·校驗和驗證。
·在數(shù)據(jù)到達CPU之前過濾掉無關(guān)信息。
這有助于實現(xiàn)更快、更高效的數(shù)據(jù)處理,特別是在像數(shù)據(jù)中心或超級計算機集群這樣高需求的環(huán)境中。通過在SSD層面處理數(shù)據(jù),可以減少需要通過PCIe總線或網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量。這緩解了擁塞,減輕了帶寬限制,并提高了整體性能。通過專注于被視為“簡單重復(fù)工作”的高度特定任務(wù),這些加速器可以在不增加大量成本或功耗的情況下提供顯著好處。加速后的SSD可以更快地處理大量數(shù)據(jù),同時消耗的功率低于傳統(tǒng)處理器。重要的是,這種方法可以擴展到多個驅(qū)動器,從而創(chuàng)建一個更高效、并行化的系統(tǒng),其性能優(yōu)于傳統(tǒng)的受CPU限制的處理方式。
主機CPU可以比單個SSD更快地完成上述所有任務(wù)。然而,分配給非操作系統(tǒng)(OS)任務(wù)的總CPU動態(tài)隨機存取存儲器(DRAM)帶寬存在實際限制。此外,將數(shù)據(jù)從SSD移動到DRAM會消耗大約一半的CPU可用DDR帶寬。
考慮到全閃存存儲機箱可以容納30、60甚至90個SSD,這為設(shè)備提供了大量的卸載能力。一個裝有90個第六代SSD的機箱可以在不影響任何CPU資源的情況下,以2.5TB/s的速度處理數(shù)據(jù)。在這種場景中,SSD執(zhí)行預(yù)過濾和預(yù)計算任務(wù),而CPU管理更重要的操作。
智能SSD助力高性能計算提升
最近,群聯(lián)電子已經(jīng)轉(zhuǎn)變方向,開始探索將部分CPU工作負載卸載到SSD上的新方法,這些方法超越了針對性加速器的范疇。這包括在存儲陣列中添加CPU集群。這里的重大區(qū)別在于,CPU集群不是用來進行計算,而是實際運行網(wǎng)絡(luò)服務(wù)或微服務(wù)。它們在PCIe總線上顯示為額外的可尋址CXL服務(wù)。
以人工智能(AI)項目為例,該項目涉及大量的流水線操作。即一個大型語言模型(LLM)產(chǎn)生數(shù)據(jù)并輸出,然后另一個LLM接收數(shù)據(jù)并進行轉(zhuǎn)換,再發(fā)送給另一個LLM,依此類推。
一個例子是對TED演講的視頻翻譯。可以部署多個LLM來執(zhí)行不同的任務(wù):
·提取英語音頻并將其轉(zhuǎn)換為文本。
·將文本翻譯成中文。
·使用名人的聲音生成音頻軌道。
這一復(fù)雜操作涉及許多小步驟,通常由CPU或GPU處理,并需要大量的模型交換。為什么不能利用SSD在后臺執(zhí)行這些小步驟,同時使用主CPU將這些任務(wù)分配給這些加速器,并執(zhí)行其他更高級別的任務(wù)呢?在高性能計算(HPC)組織中,結(jié)果可能令人印象深刻。
HPC集群擁有100P字節(jié)的數(shù)據(jù)存儲(包括雙重和三重冗余)并不罕見。該集群可以將工作負載分布在10萬個SSD上。突然之間,原本需要一兩天才能完成的操作現(xiàn)在只需幾秒鐘即可完成。
在大型HPC陣列中,SSD的數(shù)量如此之多,以至于SSD的帶寬超過了整個網(wǎng)絡(luò)或CPU的帶寬。正是在這里,我們意識到存在一個巨大的未開發(fā)空間,SSD可以在其中發(fā)揮智能作用。
加速加密以提高安全性
HPC用例關(guān)注的是速度和計算能力,我們還研究了安全用例,這些用例更多地涉及符合FIPS 140-3標準的堅固產(chǎn)品,這些產(chǎn)品提供的安全服務(wù)遠遠超出了可信平臺模塊(TPM)2.0所能實現(xiàn)的。
SSD每秒可以執(zhí)行數(shù)百次加密操作,如簽名和驗證——如果服務(wù)器有30到90個SSD,處理能力也會相應(yīng)提升。每個SSD都可以作為一個獨立的基于硬件的代理,具有一個可追溯至硬件安全模塊(HSM)服務(wù)器的信任根。
總體而言,所有這些驅(qū)動器的處理能力超過了一個強大CPU所能做到的,因為CPU并不是設(shè)計為數(shù)字簽名算法(DSA)引擎。這種多SSD的處理能力,加上它已經(jīng)是服務(wù)器中安裝的硬件這一事實,為增強安全性提供了巨大好處。
通過特定性消除復(fù)雜性
雖然群聯(lián)電子仍然認為,傳統(tǒng)的、通用的計算存儲概念最終不會走向成功,但我們確實看到了一些用例,其中另一種計算存儲方法可能成為一種資產(chǎn)。針對性加速器使特定操作變得不那么復(fù)雜。而且,考慮到SSD上巨大的板載帶寬,以及以新方式利用這種能力的潛在好處,可能會在不久的將來帶來一些令人興奮的應(yīng)用。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章