賽靈思推出業內首款PCIe 4 輕量級加速卡Alveo U50,部分應用可實現20倍加速
2019-08-13 12:56:02 EETOP
許多種類的加速器,特別是那些帶有GPU和FPGA的加速器,都可以用做相當強大的計算引擎,能夠滿足或超過現代處理器的功率、熱量和空間封裝。他們做的工作比CPU多得多,但這仍然不容易將它們部署到現有的商業服務器。
這就是為什么賽靈思推出Alveo U50加速器,這是一款低調的PCI-Express加速卡。該設備可以插入標準數據中心服務器,因此廣泛用于有助于計算加速的工作負載,包括機器學習推理,數據分析,視頻轉碼和財務分析,,以及加速存儲和網絡的內向型應用。
如果這聽起來類似于去年推出的Alveo卡- U200,U250和U280 ,但與其可以提供高達225瓦的雙插槽前代產品不同,U50已被拆卸為75瓦,單插槽,半高半長卡,幾乎可以安裝在任何服務器上。
Xilinx的數據中心營銷總監Jamon Bowen解釋說:“縮短的外形,使得U50可以用在更多的地方。”據Bowen說,雖然他們的客戶欣賞雙寬的200系列卡的性能,但他們希望能夠在標準服務器機箱中即擁有加速功能,又不需要特殊的電源或冷卻。
在性能方面,Bowen告訴我們U50保持了舊卡的吞吐量和低延遲。FPGA本身有872K查找表(LUT),而U200的查找表為892K, U250的查找表為1341K, U280的查找表為1082K。寄存器計數也同樣減少。但是,總的來說,對于U50的大多數應用來說,有很多FPGA資源可以利用。
雖然較低的內存配置文件會讓U50在處理大型數據庫或構建神經網絡時顯得有些牽強,但許多目標應用程序都是基于流數據的,而在流數據中,大內存容量不是那么重要。然而,HBM2提供了更快的數據傳輸,在這種情況下,高達460 GB/s,大約是DDR4內存的6倍。這對于許多需要低延遲操作的面向數據流的工作負載來說是一個顯著的優勢。
U50上沒有外部存儲器可以節省大量功耗,這不僅僅是因為DDR4模塊不存在,而且還因為引腳和布線損耗更少。U50上的FPGA芯片也是采用了最新的16納UltraScale+架構,可提供額外的功耗節省及更高的密度。
U50升級到PCI-Express 4.0連接,這是第一個這樣做的低配置FPGA卡。它還配備了一個100GbE接口,用于與外界通信。高速接口特別適用于NVMe-oF解決方案(NVM Express over Fabrics)或其他基于網絡的工作上的應用。
撇開硬件規格不談,U50的價值最終將取決于它比CPU或其他加速器更好地加速實際工作負載的能力。基于Xilinx的初步結果,新的Alveo確實可以在幾個應用領域找到了一個可接受的客戶群。
例如,U50能夠比英偉達的主要推理GPU Tesla T4更快地執行語音翻譯,而且能夠以更低的延遲完成。鮑恩認為,U50將特別擅長于這些短期存儲(LSTM)應用,以及使用循環神經網絡(RNN)架構的其他應用——比如異常檢測、對話系統和手寫識別等。
盡管U50在內存容量方面可能會面臨一些挑戰,但在正確的場景下,它非常擅長數據庫分析。對于基于高吞吐量查詢的分析應用,U50比24核Xeon Platinum CPU高出四倍。在這種情況下,Alveo卡每24毫秒就會給出一個答案,而英特爾處理器則需要210毫秒。
對于電子交易而言,U50看起來也是一個不錯的選擇,這是金融服務領域中更為傳統的FPGA應用。對于抽象交易(T2T)操作,該卡能夠在500納秒內執行交易,這比CPU快20倍。Bowen指出,不僅傳遞的延遲極低,而且它也是一致的,因為FPGA邏輯的確定性特性確保了這種可靠的行為。
對于存儲應用,FPGA對于數據加密,擦除編碼和壓縮等任務最為有用。對于后者,U50比22核Skylake Xeon快20倍。
Bowen表示,這種計算存儲功能也可以應用于NVMe over Fabric設置,這里利用了高性能網絡以及Alveo加速器除了壓縮之外還可用于執行各種數據相關工作的事實,包括數據庫過濾,掃描和聚合等。
所有這一切都得益于Xilinx的努力,為這些加速器構建應用生態系統。雖然這是一個長期項目,但自從去年10月Alveo推出以來,它們似乎在短時間內取得了不錯的進展,使這些設備上運行的應用程序數量翻了一番。同樣,在此期間,接受過編寫這些應用程序培訓的開發人員數量增加了四倍。
此外,Bowen表示他們有越來越多的軟件合作伙伴和系統供應商支持這一產品組合。后者包括許多主流OEM,包括戴爾EMC,SuperMicro和浪潮。亞馬遜,阿里巴巴,騰訊和百度也在各自的云中支持這些加速器。
正如您所料,Xilinx提供了一堆開發工具,驅動程序和運行庫,包括數學原語和參考代碼塊。Bowen說,擁有這種IP基線對于開發人員構建新應用程序至關重要。
Alveo U50現已開始提供樣品,許多原始設備制造商正在進行鑒定,根據規格表,包括戴爾,惠普企業和Supermicro。一般可用性定于2019年秋季。