初創(chuàng)公司推出新算法!讓通用CPU深度學(xué)習(xí)速度比英偉達(dá)GPU V100還要快!
2021-08-18 12:54:32 EETOPNVIDIA 宣稱 V100 的訓(xùn)練吞吐量是普通 CPU 的 32 倍
據(jù)稱,SLIDE算法在CPU上獲得的訓(xùn)練結(jié)果比在英偉達(dá)V100等硬件加速器上更快。性能更高的CPU對(duì)下一代GPU意味著什么? 這家初創(chuàng)公司的最大訴求是什么?
ThirdAI的背景
憑借其獨(dú)特的“SLIDE”算法,ThirdAI 計(jì)劃改變現(xiàn)有的 AI 深度學(xué)習(xí)范式。
ThirdAI由副教授AnshumaliShrivastava共同創(chuàng)辦,它的成功源于萊斯大學(xué)的研究。
ThirdAI 聯(lián)合創(chuàng)始人 Anshumali Shrivastava
" 英特爾告訴我們,他們可以與我們合作,使其訓(xùn)練得更快,現(xiàn)在看來(lái)他們是對(duì)的。在他們的幫助下,我們的結(jié)果提高了約50%。"
SLIDE的主要性能指標(biāo)
據(jù)稱,SLIDE比現(xiàn)有最好的Tensorflow GPU硬件快3.5倍,比Tensorflow CPU的性能提高10倍。盡管研究人員使用的CPU型號(hào)還不太清楚目前可知使用的一個(gè)"44核 "CPU。
分析下拉英特爾至強(qiáng)22核處理器E5-2699V4與萊斯大學(xué)研究人員使用的處理器最為接近的。這個(gè)CPU是一個(gè)22核44線程的處理器。不管確切的CPU是什么,SLIDE聲稱是人工智能訓(xùn)練的一個(gè)突破性算法。那么,它是如何工作的呢?
次線性深度學(xué)習(xí)引擎的內(nèi)部工作原理
在最基本的層面上,SLIDE 使用采樣哈希表,特別是修改后的局部敏感哈希(LSH),來(lái)快速查詢神經(jīng)元 ID 以進(jìn)行激活,而不是逐個(gè)矩陣計(jì)算整個(gè)網(wǎng)絡(luò)矩陣。它將這種技術(shù)與另一種稱為自適應(yīng) dropouts 的技術(shù)相結(jié)合,后者用于提高神經(jīng)網(wǎng)絡(luò)中的分類性能。
使用散列進(jìn)行特定神經(jīng)元采樣
無(wú)論batch size如何,SLIDE 都保持著時(shí)間上的優(yōu)勢(shì)
通過(guò)使用多核 CPU 處理和優(yōu)化——以及局部敏感散列 (LSH) 和adaptive dropouts——SLIDE 實(shí)現(xiàn)了O(1) 或恒定時(shí)間復(fù)雜度,無(wú)論batch size如何。
深度學(xué)習(xí)CPU 會(huì)翻身么?
硬件加速器價(jià)格昂貴,高端平臺(tái)的成本超過(guò) 100,000 美元(而 E5-2699V4 為 4,115 美元)。對(duì)成本高昂的高性能圖形處理器的需求讓英偉達(dá)(NVIDIA)等制造商變得更加強(qiáng)大。
然而,隨著 AI 訓(xùn)練數(shù)據(jù)集的不斷增長(zhǎng),每次收斂所需的矩陣乘法也在不斷增長(zhǎng)。當(dāng) AI 模型發(fā)生變化時(shí),為運(yùn)行當(dāng)前 AI 模型而對(duì)專用硬件的投資可能會(huì)很快失效。
最后,由于成本在工程中占主導(dǎo)地位,在通用處理器上運(yùn)行工業(yè)規(guī)模的深度學(xué)習(xí)的能力可能是一個(gè)“殺手锏”。如果 SLIDE 繼續(xù)被證明是可行的,那么像英特爾這樣的公司可能會(huì)長(zhǎng)期獲得回報(bào)。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章