初創公司推出新算法!讓通用CPU深度學習速度比英偉達GPU V100還要快!
2021-08-18 12:54:32 EETOPNVIDIA 宣稱 V100 的訓練吞吐量是普通 CPU 的 32 倍
據稱,SLIDE算法在CPU上獲得的訓練結果比在英偉達V100等硬件加速器上更快。性能更高的CPU對下一代GPU意味著什么? 這家初創公司的最大訴求是什么?
ThirdAI的背景
憑借其獨特的“SLIDE”算法,ThirdAI 計劃改變現有的 AI 深度學習范式。
ThirdAI由副教授AnshumaliShrivastava共同創辦,它的成功源于萊斯大學的研究。
ThirdAI 聯合創始人 Anshumali Shrivastava
" 英特爾告訴我們,他們可以與我們合作,使其訓練得更快,現在看來他們是對的。在他們的幫助下,我們的結果提高了約50%。"
SLIDE的主要性能指標
據稱,SLIDE比現有最好的Tensorflow GPU硬件快3.5倍,比Tensorflow CPU的性能提高10倍。盡管研究人員使用的CPU型號還不太清楚目前可知使用的一個"44核 "CPU。
分析下拉英特爾至強22核處理器E5-2699V4與萊斯大學研究人員使用的處理器最為接近的。這個CPU是一個22核44線程的處理器。不管確切的CPU是什么,SLIDE聲稱是人工智能訓練的一個突破性算法。那么,它是如何工作的呢?
次線性深度學習引擎的內部工作原理
在最基本的層面上,SLIDE 使用采樣哈希表,特別是修改后的局部敏感哈希(LSH),來快速查詢神經元 ID 以進行激活,而不是逐個矩陣計算整個網絡矩陣。它將這種技術與另一種稱為自適應 dropouts 的技術相結合,后者用于提高神經網絡中的分類性能。
使用散列進行特定神經元采樣
無論batch size如何,SLIDE 都保持著時間上的優勢
通過使用多核 CPU 處理和優化——以及局部敏感散列 (LSH) 和adaptive dropouts——SLIDE 實現了O(1) 或恒定時間復雜度,無論batch size如何。
硬件加速器價格昂貴,高端平臺的成本超過 100,000 美元(而 E5-2699V4 為 4,115 美元)。對成本高昂的高性能圖形處理器的需求讓英偉達(NVIDIA)等制造商變得更加強大。
然而,隨著 AI 訓練數據集的不斷增長,每次收斂所需的矩陣乘法也在不斷增長。當 AI 模型發生變化時,為運行當前 AI 模型而對專用硬件的投資可能會很快失效。
最后,由于成本在工程中占主導地位,在通用處理器上運行工業規模的深度學習的能力可能是一個“殺手锏”。如果 SLIDE 繼續被證明是可行的,那么像英特爾這樣的公司可能會長期獲得回報。