XPU、神經(jīng)擬態(tài)、量子計算、異構(gòu)整合.... 轉(zhuǎn)向以數(shù)據(jù)為中心的英特爾5年技術(shù)回顧及未來計算展望

2019-12-24 08:38:46 EETOP 作者：易建芯

點擊關(guān)注->創(chuàng)芯網(wǎng)公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

近日，英特爾中國研究院院長宋繼強帶在英特爾技術(shù)創(chuàng)新媒體溝通會上梳理了英特爾過去五年的工作和成績，分析了以數(shù)據(jù)為中心的轉(zhuǎn)型的原因和價值，并為我們展望了下一代技術(shù)的發(fā)展趨勢。

提起英特爾，大家第一時間想到的一定是CPU或者10nm什么時候量產(chǎn)？其實早在4~5年前，英特爾已經(jīng)開始涉足以數(shù)據(jù)為中心的轉(zhuǎn)型。到了2017年，英特爾正式確立了“以PC為中心”向“以數(shù)據(jù)為中心”的轉(zhuǎn)型目標，進而有了完整的從軟件到硬件、從通訊到計算到存儲的計算架構(gòu)、存儲方案和連接方案。所有工作及產(chǎn)品都是圍繞數(shù)據(jù)為中心這個理念來開展，CPU也僅僅是數(shù)據(jù)中心鏈上的一個產(chǎn)品分支。宋繼強表示，只有將數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)價值，才能創(chuàng)造新的服務(wù)和體驗。

接下來我們就跟隨宋院長為大家梳理一下2015~2019這5年間英特爾的技術(shù)發(fā)展及未來趨勢的展望。

數(shù)據(jù)為中心轉(zhuǎn)型的動因

首先我們看看離不開的一個詞——數(shù)據(jù)。計算是一個過程，輸入就是數(shù)據(jù)，輸出有很多種。數(shù)據(jù)產(chǎn)生了很多變化。

這張圖非常有價值，剛好反映了三個時代，也可以說是三個十年。右邊的大圈是從2010年之后開始的十年，中間的是2000年的十年，最左邊的是2000年以前的。
我們知道2000年之前還是以PC計算為主，很少能夠用到服務(wù)器、云計算?；ヂ?lián)網(wǎng)蓬勃發(fā)展起來以后開始也只是用來搜一些東西，我們是以搜索為主的web1.0時代，那些內(nèi)容都藏在互聯(lián)網(wǎng)站里，根本用不了。但是到了web2.0，第一波互聯(lián)網(wǎng)泡沫破裂之后，發(fā)現(xiàn)由少數(shù)人提供數(shù)據(jù)讓大家搜，不能構(gòu)成大的產(chǎn)業(yè)。web2.0靠的是用戶貢獻數(shù)據(jù)，這就把整個云計算催生出來了，這時候Server和PC同等重要。到了2008年之后，手機逐漸開始從功能手機轉(zhuǎn)變到智能機，由之前的主要是是打電話，轉(zhuǎn)變?yōu)楦嗟氖强梢杂脕砩暇W(wǎng)和社交、看視頻。到了2010年之后就開始正式進入IoT時代，更多的設(shè)備連上了網(wǎng)。之后又有了AI，讓這些數(shù)據(jù)不僅僅是簡單的存儲、傳輸，而是需要深度挖掘里面的價值，這些傳感器就可以分散到很多前端的設(shè)備里面去。

首先來看一下數(shù)據(jù)的量。上圖顯示的是量的走勢圖，分成不同的顏色，代表不同的量級。淺藍色是數(shù)據(jù)中心的量的發(fā)展，邊緣計算的是中間的藍色，最深的是終端的?？梢钥闯鼋K端產(chǎn)生的數(shù)據(jù)量仍然是最大的，而且上升很快，數(shù)據(jù)中心的量是保持緩慢上升。

邊緣從開始幾乎沒有多少，然后逐漸擴大，目前已經(jīng)和數(shù)據(jù)中心的數(shù)據(jù)量差不多了。當越來越多的設(shè)備產(chǎn)生巨量的數(shù)據(jù)，由于網(wǎng)絡(luò)承載能力以及云端存儲的限制，我們必須把越來越多的原來讓云里數(shù)據(jù)中心處理的計算和存儲下沉，下沉到邊緣。

由于數(shù)據(jù)的量和質(zhì)都發(fā)生了很大的變化，于是在2015年的時候，英特爾提出了要開始以數(shù)據(jù)為中心的理念。

5年間的重要收購

2015~2019這5年間，英特爾都有重磅收購。這些收購都是圍繞以數(shù)據(jù)為中心這個理念來展開的。

2015年收購FPGA領(lǐng)先的廠商 Altera，這是做，它就是代表了其中一種架構(gòu)，就是FPGA的處理計算的架構(gòu)。

2016年收購Nervana，Nervana是以定制的AI 芯片，以ASIC方式解決AI 深度學習加速的一種架構(gòu)，我們稱作NPU。英特爾原有的CPU、GPU ，加上Altera的FPGA，再加上Nervana 的NPU ，在這個時間點上英特爾已經(jīng)有了四種不同的架構(gòu)了。

2017年還收購了Mobileye和Movidius。Mobileye之前是作為英特爾的合作伙伴來進軍無人駕駛、智能駕駛的市場。收購Mobileye以后，英特爾又有了專門給汽車市場用的前置看車外面的攝像頭，應該講是以攝像頭作為數(shù)據(jù)輸入的ADAS（高級駕駛輔助系統(tǒng)），它是由軟件的算法和軟件的應用加速器構(gòu)成，叫EyeQ。同一年收購的Movidius 其實也是一個專門的視覺AI加速芯片（VPU），只不過它是放在終端側(cè)的，像攝像頭、無人機這些地方，而前一年收購的Nervana是為了解決在服務(wù)器側(cè)專用的AI加速芯片。所以從端到端來看，這兩次收購并不重疊，但是他們都被放在了人工智能產(chǎn)品事業(yè)部里面，因為那個產(chǎn)品事業(yè)部會囊括好幾種不同的AI產(chǎn)品。

2018年收購eASIC，大家知道FPGA需要很專門的編程技巧，做完以后產(chǎn)出的是在FPGA上的硬件加速邏輯，但這個如果是用了大批量的市場上，它的性價比不占優(yōu)勢，eASIC做的事情是形成一套自動工具，把它轉(zhuǎn)換成可以在ASIC上做的設(shè)計，這樣你拿在FPGA上驗證好的知識產(chǎn)權(quán)核，其實就是一套設(shè)計，我們可以把它比較快的變成ASIC。同一年英特爾NetSpeed公司，收購NetSpeed將有助于改進其芯片設(shè)計工具，可以大大降低芯片設(shè)計成本。

2019年，英特爾剛剛收購了Habana Labs（參考：），和Nervana類似這是一個針對服務(wù)器端做AI的技術(shù)公司，Habana的產(chǎn)品已經(jīng)在某些大的云服務(wù)商里做測試。

英特爾XPU家族

通過近幾年的收購，再加上英特爾的自有的CPU、GPU，現(xiàn)在來看，英特爾手里有了非常完整的多種不同架構(gòu)的芯片方案，我們成為XPU。

XPU，其實是代表了多種，X有很多種變化囊括了CPU、GPU、NPU、XPU以及FPGA。也包括后面講的Loihi神經(jīng)擬態(tài)計算處理器、量子計算的處理器QPU，都是在“X”可變的范圍內(nèi)。

oneAPI ： XPU的統(tǒng)一軟件開發(fā)平臺

面對這么多種不同的架構(gòu)，如果采用現(xiàn)有的編程思想及方法，程序員將無法駕馭，編程效率也將非常低效。為此，英特爾推出了oneAPI，實現(xiàn)了XPU一體化開發(fā)。

我們知道對CPU、GPU、FPGA三個不同硬件做優(yōu)化，采用的是不相同的編程語言及優(yōu)化思想。

比如FPGA通常需要懂得硬件架構(gòu)的工程師做優(yōu)化，當你不了解硬件電路設(shè)計的流水線是為什么設(shè)計的時候，你是沒有辦法做優(yōu)化的，所以它的要求是最接近底層。

有了oneAPI，情況就不一樣了，開發(fā)工程師不需要知道具體是針對哪一種XPU來編程。假如現(xiàn)在要做一個完整的智能金融應用，可能要的就是幾個功能：人的識別功能、生物認證加上人臉和語音，可能還要做動態(tài)認證。這些功能至于是放在CPU上還是CPU，還是ASIC上，工程師都不需要關(guān)注，把這個交給oneAPI就好了，oneAPI編譯的時候會知道都用到了哪些硬件，可以你選用不同的方式去加速。總之，讓你在這上面運行的最省電最快就好了。所以oneAPI想達到的目標就是讓程序員最簡單，讓性能最好、功耗最低。

oneAPI現(xiàn)在已經(jīng)有一套叫做基于開放規(guī)范的行業(yè)計劃，我們做的oneAPI不僅僅是只有英特爾產(chǎn)品加入其中，第三方做的硬件，只要提供了相應產(chǎn)品的描述，也可以加入進來。

異構(gòu)整合，輕松打造百億億級超算

所謂異構(gòu)整合就是把很多不同類型、不同工藝的芯片封裝到一個更大的芯片里面，這些工藝可以是10nm、14nm甚至是20多納米的。功能可以包含：CPU、GPU、內(nèi)存、高速接口等等多種類型。

封裝技術(shù)可以采用2.5D、3D封裝來實現(xiàn)。如上圖右側(cè)圖示的英特爾最先進的Foveros3D封裝技術(shù)，可以把多個芯片分好幾層堆疊起來。Foveros 3D封裝不同層之間就像我們做建筑的柱子一樣，預先要打好口、埋下鋼筋，鋼筋就是銅鑄了，這樣可以上下傳輸。

EMIB 2.5D是做橫向連通的，同一層之間可以在基底上內(nèi)嵌在表層附加這樣的小芯片，去把這些不同的芯片之間的連接連起來。它帶寬更高，功耗很低，體積很小。
3D Foveros技術(shù)是比較高級的，但它也比較昂貴，所以用到比較小尺寸，低功耗，又要高性能的這樣異構(gòu)的芯片。EMIB封裝技術(shù)相對來說經(jīng)濟實惠的多，所以可以用在很多芯片里。

Lakefield是3D Foveros的一個例子，這是英特爾今年初在CES上展示的一個小條，大概是12cm x 2cm的尺寸。就這么一個小條就搞定了一個筆記本電腦主板了，可以看出Foveros的封裝技術(shù)是何等的強大！

另外一個例子是“極光Aurora”超算架構(gòu)，用來打造E級別超算的計算單元。采用3D Foveros封裝技術(shù)，將2個志強處理器、6個X架構(gòu)GPU以及內(nèi)存、I/O等都封裝到了一顆芯片里面，實現(xiàn)了以往一個主板的功能。

英特爾的未來計算

以上所有講的是過去這四年間，所推出一些產(chǎn)品。面向未來，現(xiàn)在這些產(chǎn)品是不是就能夠滿足需求了呢？我們覺得這還是不夠的，還需要更前沿的產(chǎn)品來持續(xù)發(fā)展補充，英特爾目前正在進行的面向未來的計算包括：神經(jīng)擬態(tài)計算及量子計算。

1. 神經(jīng)擬態(tài)計算

因為如果說把智能計算和人腦比的話，現(xiàn)有產(chǎn)品還有顯著的差異，現(xiàn)有的AI 芯片只是利用率人腦的神經(jīng)元的簡單的思想，具體的工作方式與人腦是完全不同的，如果需要更接近人腦，那么就需要采用類腦芯片設(shè)計，我們稱為神經(jīng)擬態(tài)計算。

大家知道，現(xiàn)在做一個圖像識別或者是訓練一個能做圖像理解的加速器都需要消耗很多電力，有些高達數(shù)千瓦。而人腦僅僅相當于20瓦的一個設(shè)備，實際上你去訓練，做一幅圖像識別，也只是利用了人腦的部分功率，根本用不到全功率。從數(shù)千瓦的功耗做一件事情要降到十瓦做一件事情，這是千倍的差距。

為什么NPU要消耗這么多電？因為它需要通過很多數(shù)據(jù)反復的訓練很大的一個網(wǎng)絡(luò)，這個網(wǎng)絡(luò)參數(shù)可能是上億的，數(shù)十萬次的訓練。神經(jīng)擬態(tài)計算是模擬人腦，這是很抽象的做了一個神經(jīng)元，神經(jīng)元的數(shù)學模型非常簡單。神經(jīng)擬態(tài)計算是試圖去要模型人腦兩個特點，第一個是事件驅(qū)動，人腦平時其實大部分處于休息狀態(tài)，當有一個事件過來的時候才會根據(jù)那個事情的種類調(diào)動腦里面的一個部分，比如說這個事情是跟視覺相關(guān)的，視覺去工作一下，跟聲音相關(guān)的，就聲音去工作一下，其他部分是休息的，所以是事件驅(qū)動的。第二個是人腦在處理一些事情的時候是多種輸入互相關(guān)聯(lián)的，聲音、圖像、觸覺是互相關(guān)聯(lián)在一起，時間上是有相關(guān)性，而且輸入信號的時間關(guān)系也要考慮到。而這個神經(jīng)網(wǎng)絡(luò)一般不太考慮時間上的信息，它就是一個靜止的輸入，形成一個訓練的批次，再一批靜止的能量過去又形成了一個訓練的批次。如果它要去做視覺融合，就需要加另外的網(wǎng)絡(luò)來做。人腦顯然都是用一個腦子去做的，一個腦子去做很多事，所以這種訓練出來的東西有多種整合的效果。所以想達到的目的就是利用人腦事件驅(qū)動的機制達到省電，還利用多種方式一起去學習和訓練的機制達到跨領(lǐng)域的融合和相關(guān)。這是神經(jīng)擬態(tài)計算特別想達到的目的。

Loihi的芯片是英特爾2017年底發(fā)布的，采用14nm工藝制造，集成21億個晶體管，核心面積60平方毫米，內(nèi)部集成3個Quark x86 CPU核心、128個神經(jīng)擬態(tài)計算核心、13萬個神經(jīng)元、1.3億個突觸，并有包括Python API在內(nèi)的編程工具鏈支持。

這種芯片不采用傳統(tǒng)硅芯片的馮諾依曼計算模型，而是模仿人腦原理的神經(jīng)擬態(tài)計算方式，并且是異步電路，不需要全局時鐘信號，而是使用異步脈沖神經(jīng)網(wǎng)絡(luò)(SNN)。

在稀疏編碼、圖式搜索、路徑規(guī)劃、同時定位和建圖(SLAM)、約束滿足問題等特定應用中，Loihi要比傳統(tǒng)CPU速度快最多1000倍，能效高最多10000倍。

英特爾將在2020年第一季度做到1億個神經(jīng)元（已超過了倉鼠的神經(jīng)元數(shù)量）、10000億個突觸，預計會有768顆芯片、1.5萬億個晶體管。

從理論上講，Loihi可以擴展到最多16384顆芯片互連，那就是超過20億個神經(jīng)元(人類大腦有大約860億個)。

2. 英特爾的量子計算芯片

量子位的制造方式有兩種方式。一種是由采用一大堆超導電路構(gòu)成的（大多數(shù)公司都采用這種方案），嚴格來說并不是一顆芯片。這種方式需要接近絕度零度的超低溫來維持量子的穩(wěn)態(tài)。

另一種方式是由單電子的硅構(gòu)成了自旋量子位。這種方式英特爾更擅長，也是未來英特爾量子計算的發(fā)展方向。目前英特爾已經(jīng)在12吋的晶圓上做出了兩個自旋量子位的芯片。這個如果能成功的話，就可以通過現(xiàn)在硅的生產(chǎn)制造產(chǎn)業(yè)鏈去做量子計算，打下了商業(yè)化基礎(chǔ)。

此外量子計算、量子芯片要能夠被測試，而測試設(shè)備要工作在很低的溫度，不管是哪種都需要接近絕對零度的超低溫度。為此英特爾推出了可以4開爾文（-269度）的低溫下工作的控制芯片。