完结小说,古风,完美世界有声小说全集

?重新思考計算存儲：釋放固態(tài)硬盤（SSD）的處理潛力

2025-01-24 12:03:53 EETOP

點擊關(guān)注->創(chuàng)芯網(wǎng)公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

計算存儲的通用概念已走入死胡同，但利用固態(tài)硬盤（SSD）上巨大的板載帶寬的針對性加速器可能有益于高性能計算。

幾年前，計算存儲的概念在業(yè)內(nèi)人士之間引起了討論。它被吹捧為如何解決如何最大化CPU處理能力的這一古老問題的潛在答案。

這一想法乍看之下頗具吸引力。想象一下，如果像SSD這樣的存儲設(shè)備能夠處理它們所存儲信息的一部分，那么存儲設(shè)備和CPU之間需要傳輸?shù)臄?shù)據(jù)就會減少。理論上，這有助于節(jié)省電力、減少數(shù)據(jù)傳輸需求，并加快計算速度。

然而，與許多看似革命性的想法一樣，這一概念始終未能找到實現(xiàn)商業(yè)化的途徑——主要是因為每個用例都高度獨特，且根本不具備可擴展性。

當工程師和開發(fā)人員談?wù)撚嬎愦鎯r，他們往往采取一種不切實際的方法：“如果我們能在驅(qū)動器上運行Linux，并給它配備更大的處理器，會怎么樣？”雖然這個想法看似創(chuàng)新，但它缺乏重點和實際應(yīng)用。這是一種被技術(shù)理想主義驅(qū)動的、過度復(fù)雜的誤導(dǎo)性思維。最終，它并不會帶來所期望的好處。

為特定應(yīng)用程序（包括數(shù)據(jù)中心）定制 SSD 計算機加速器為提高性能和能效提供了機會

更明智的方法：定制化加速

了解NAND存儲技術(shù)創(chuàng)新可以帶來更好的方法，將處理負擔(dān)卸載到SSD上。通過采用定制化的加速方法，我們可以專注于存儲設(shè)備最擅長的任務(wù)：對邏輯塊尋址（LBA）范圍應(yīng)用固定操作。

SSD中的專用加速器處理特定任務(wù)，這些任務(wù)不需要過多的功率或復(fù)雜性。例如，硬件加速器可以以非常高的速度執(zhí)行特定操作：

·篩選大型數(shù)據(jù)集。

·基于對象的糾刪編碼。

·校驗和驗證。

·在數(shù)據(jù)到達CPU之前過濾掉無關(guān)信息。

這有助于實現(xiàn)更快、更高效的數(shù)據(jù)處理，特別是在像數(shù)據(jù)中心或超級計算機集群這樣高需求的環(huán)境中。通過在SSD層面處理數(shù)據(jù)，可以減少需要通過PCIe總線或網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量。這緩解了擁塞，減輕了帶寬限制，并提高了整體性能。通過專注于被視為“簡單重復(fù)工作”的高度特定任務(wù)，這些加速器可以在不增加大量成本或功耗的情況下提供顯著好處。加速后的SSD可以更快地處理大量數(shù)據(jù)，同時消耗的功率低于傳統(tǒng)處理器。重要的是，這種方法可以擴展到多個驅(qū)動器，從而創(chuàng)建一個更高效、并行化的系統(tǒng)，其性能優(yōu)于傳統(tǒng)的受CPU限制的處理方式。

主機CPU可以比單個SSD更快地完成上述所有任務(wù)。然而，分配給非操作系統(tǒng)（OS）任務(wù)的總CPU動態(tài)隨機存取存儲器（DRAM）帶寬存在實際限制。此外，將數(shù)據(jù)從SSD移動到DRAM會消耗大約一半的CPU可用DDR帶寬。

考慮到全閃存存儲機箱可以容納30、60甚至90個SSD，這為設(shè)備提供了大量的卸載能力。一個裝有90個第六代SSD的機箱可以在不影響任何CPU資源的情況下，以2.5TB/s的速度處理數(shù)據(jù)。在這種場景中，SSD執(zhí)行預(yù)過濾和預(yù)計算任務(wù)，而CPU管理更重要的操作。

智能SSD助力高性能計算提升

最近，群聯(lián)電子已經(jīng)轉(zhuǎn)變方向，開始探索將部分CPU工作負載卸載到SSD上的新方法，這些方法超越了針對性加速器的范疇。這包括在存儲陣列中添加CPU集群。這里的重大區(qū)別在于，CPU集群不是用來進行計算，而是實際運行網(wǎng)絡(luò)服務(wù)或微服務(wù)。它們在PCIe總線上顯示為額外的可尋址CXL服務(wù)。

以人工智能（AI）項目為例，該項目涉及大量的流水線操作。即一個大型語言模型（LLM）產(chǎn)生數(shù)據(jù)并輸出，然后另一個LLM接收數(shù)據(jù)并進行轉(zhuǎn)換，再發(fā)送給另一個LLM，依此類推。

一個例子是對TED演講的視頻翻譯。可以部署多個LLM來執(zhí)行不同的任務(wù)：

·提取英語音頻并將其轉(zhuǎn)換為文本。

·將文本翻譯成中文。

·使用名人的聲音生成音頻軌道。

這一復(fù)雜操作涉及許多小步驟，通常由CPU或GPU處理，并需要大量的模型交換。為什么不能利用SSD在后臺執(zhí)行這些小步驟，同時使用主CPU將這些任務(wù)分配給這些加速器，并執(zhí)行其他更高級別的任務(wù)呢？在高性能計算（HPC）組織中，結(jié)果可能令人印象深刻。

HPC集群擁有100P字節(jié)的數(shù)據(jù)存儲（包括雙重和三重冗余）并不罕見。該集群可以將工作負載分布在10萬個SSD上。突然之間，原本需要一兩天才能完成的操作現(xiàn)在只需幾秒鐘即可完成。

在大型HPC陣列中，SSD的數(shù)量如此之多，以至于SSD的帶寬超過了整個網(wǎng)絡(luò)或CPU的帶寬。正是在這里，我們意識到存在一個巨大的未開發(fā)空間，SSD可以在其中發(fā)揮智能作用。

加速加密以提高安全性

HPC用例關(guān)注的是速度和計算能力，我們還研究了安全用例，這些用例更多地涉及符合FIPS 140-3標準的堅固產(chǎn)品，這些產(chǎn)品提供的安全服務(wù)遠遠超出了可信平臺模塊（TPM）2.0所能實現(xiàn)的。

SSD每秒可以執(zhí)行數(shù)百次加密操作，如簽名和驗證——如果服務(wù)器有30到90個SSD，處理能力也會相應(yīng)提升。每個SSD都可以作為一個獨立的基于硬件的代理，具有一個可追溯至硬件安全模塊（HSM）服務(wù)器的信任根。

總體而言，所有這些驅(qū)動器的處理能力超過了一個強大CPU所能做到的，因為CPU并不是設(shè)計為數(shù)字簽名算法（DSA）引擎。這種多SSD的處理能力，加上它已經(jīng)是服務(wù)器中安裝的硬件這一事實，為增強安全性提供了巨大好處。

通過特定性消除復(fù)雜性

雖然群聯(lián)電子仍然認為，傳統(tǒng)的、通用的計算存儲概念最終不會走向成功，但我們確實看到了一些用例，其中另一種計算存儲方法可能成為一種資產(chǎn)。針對性加速器使特定操作變得不那么復(fù)雜。而且，考慮到SSD上巨大的板載帶寬，以及以新方式利用這種能力的潛在好處，可能會在不久的將來帶來一些令人興奮的應(yīng)用。

關(guān)鍵詞： SSD 半導(dǎo)體存儲