99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

AI芯片的技術噱頭已過去,個人看好華為與阿里平頭哥 | 姚頌萬字長文 Hot Chips最強總結

2019-09-03 13:04:32 本文首發于公眾號:Xilinx學術合作
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
2019年8月19日到21日,第31屆Hot Chips大會在斯坦福大學成功舉辦。從2016年開始,這是我參加的第四屆Hot Chips。在之前的三屆Hot Chips,有兩次我作為演講者參與(2016年與2018年),有一年作為展商參與(2017年),這一次是第一次沒有任何任務來參加Hot Chips,終于可以安心地聽取報告、進行學習。而在之前Hot Chips TPC meeting剛結束時,已經從幾位技術委員會的成員那里聽說今年的競爭異常激烈,Xilinx的同事Ralph Wittig更是評論,這一屆Hot Chips的論文質量是他覺得過去十年中最好的,讓人不由得對本次Hot Chips充滿期待。
 
 
本次大會確實是有非常多非常扎實的工作,也展現了整個處理器與高性能芯片領域行業的趨勢與變化。本系列文章將介紹我在Hot Chips大會上的幾點觀察與思考,涵蓋以下幾點內容:
  • Cerebras其實是在幫大家追求心中的夢想,祝福,但也存在挑戰;

  • AI仍是主角,但AI芯片設計已經不是主角,從一個新穎的話題變為了成熟的工程;

  • 異構是大勢所趨,無論賽靈思還是英偉達,都在持續前進;

  • 安全是一個越來越重要的話題;

  • FPGA在各種不同應用中扮演著重要角色;

  • 集成電路工藝演進:未來越來越難,但一定會有突破。
文章也將介紹一些Hot Chips會議上發生的趣事。未經特別說明,圖片均來自于本人在Hot Chips拍攝的照片,PPT版權由原報告人所有。
本文先從大家最為關注的Cerebras開始說起。
 


01

Cerebras:會議最大熱點

 
本屆Hot Chips最大的亮點,毫無疑問是Cerebras的wafer-scale engine (WSE)。我們通常的芯片,一片wafer可以切出幾十到上萬片不等的芯片,而為了追求極致的性能、最大的片上存儲,Cerebras選擇了一條極端的路線,讓整片wafer就是一片芯片。當Cerebras的聯合創始人Sean Lie拿出樣品實物的時候,會場里響起了掌聲,這也是本次大會唯一一次不是在報告開始與結束時候禮節性的掌聲。
 
WSE芯片,由12x7=84個die組成,共有40萬個為深度學習優化的計算核,片上存儲達到了驚人的18GB,超過了很多電腦的內存大小。這樣一顆芯片,在我眼里是有特殊的美感的:如同看到長城和金字塔,這樣在技術水平極其低下時,似乎人類無法實現的杰作;也如同看到了蒸汽朋克電影中的龐然大物,復古而雄偉;又如同最為精密和復雜的機械表,無數精巧的結構讓人感嘆。這是在大的范式沒有改變的情況,當前工程技術可以做到的極限了。
Cerebras的報告是極少數全篇沒有任何性能數字的報告,只有一句話“It’s working”。這樣一篇論文能夠被Hot Chips錄用來進行報告,足見其受到的關注和重視。而我個人有一個習慣,除了認真聽別人說做了什么,更會去想他們沒說什么。而在這次,他們只說了“It’s working”,而并沒有說“It’s working well”,也許就是在暗示些什么。
 

Cerebras的WSE芯片仍然是有非常多待解決的問題的:
 

(1)這樣一片芯片,盡管做了很多的容錯設計,其良品率怎樣,仍然是一個疑問;

(2)傳說中15kw甚至50kw的功耗,怎樣去實現良好的散熱;

(3)整個芯片由12x7個die組成,die之間的通信是與臺積電聯合研發的新型工藝,其效果如何。
 

這樣許許多多的問題,都值得追問下去,而在報告現場,盡管PPT上有相關的頁來闡述是用怎樣的思路來解決,但是Sean基本上是一帶而過,沒有介紹任何細節,這也不由得不讓人猜測,在這些地方,可能仍然存在著非常多的技術問題需要解決。
 
對于我個人來說,我非常佩服Cerebras的CEO Andrew Feldman這樣一位有魄力、有遠見的成功的連續創業者:他曾經做過四個公司,都以上市或者并購成功退出。我也非常佩服包括Sean Lie在內的Cerebras的工程師,勇于挑戰最極致的技術路線。任何一條技術路線走通都非常不容易,希望Cerebras能夠一個一個解決路上的技術難題,這不僅僅是Cerebras一家公司的事情,也是所有有技術信仰的芯片行業工程師與研究者的共同心聲——大家沒有機會和財力去做這樣一件激動人心的事情,希望你們能做好!
 

02

AI芯片從火熱到理性
 
Cerebras是本次報告最大的亮點,也是被大家關注最多的“AI芯片”的代表。然而,實際上本次大會,AI芯片的設計本身,已經不是被大家關注的重點了——更進一步說,實際上從2017年到現在的兩年間,純數字電路的AI芯片的發展已經幾乎停滯了,除了sparsity和low-bit(比如1bit網絡,或者tenary網絡),在AI芯片,很少聽到新的題材了。

 
 
 
本次大會特斯拉的報告,也充分體現了這一點:許多人最開始對于特斯拉的報告“Compute and redundancy solution for Tesla’s Full Self driving computer”充滿期待,因為這是少有的可能能介紹完整自動駕駛系統設計的報告,而結果卻令人失望:整個報告花了80%的時間,在介紹底層架構怎樣設計,卷積計算的流程如何,指令集如何設計,pooling單元如何設計,而在介紹這些設計的時候,許多抬頭聽報告的人,都將視線轉向了筆記本電腦或者手機。
 
另一個更直觀的體現是,在報告結束后的Q&A環節,提問者的問題都在關注在自動駕駛系統中,兩片特斯拉自動駕駛芯片是如何配合的,如果真的發生了錯誤,是如何進行糾錯的,而沒有人再去拘泥于底層架構設計。
 
此次Hot Chips仍然有不少“AI芯片”的報告,阿里,華為,Cerebras,Habana(一家以色列不錯的創業公司),Tesla,nVidia,Xilinx,Intel,Princeton,然而,每一項工作都是在底層架構設計之外,還有更大的亮點:
 
阿里實現的應用是少見的text-to-speech,從文本到聲音合成,而不是傳統的CNN和LSTM加速;華為的達芬奇芯片做了logic die與HBM的直接堆疊,而不是傳統高帶寬芯片的2.5D interposer的模式,Cerebras芯片是最極端的wafer-scale芯片,Tesla是帶有冗余設計的自動駕駛系統,nVidia是NoC+NoP的可擴展架構,Xilinx是全新的Versal芯片與擁有更多可編程性的AI engine一起,Princeton的研究工作是用SRAM做in-memory computing。

 
此次Hot Chips大會的情況也充分說明,AI芯片的技術噱頭時代已經過去,越來越多的人在考慮,怎樣去改變當前的范式,用更新的底層技術去實現更好的性能;是否能夠真的做出可量產的芯片,之后怎樣去和應用更好的融合,實現一個整體好用的系統。在單純數字芯片模式下,單純新的體系結構的創新,已經無法帶來任何新的機會了——我們必須進一步向前看。


03


異構計算:大勢所趨
 
異構計算, Heterogeneous Computing, 不是一個新鮮的話題,然而真正出現大量使用的異構計算平臺,卻是從近幾年的事情了。異構最重要的涵義,是系統有多種不同功能的部分組成,讓每個部分做它最擅長的事情,而不是用統一的平臺來做所有的事情。

 
 
異構計算的興起,與AI芯片的興起,本質上都有一個核心原因,摩爾定律的放緩甚至結束(摩爾定律的話題也是一個稍有爭議的話題,在Philip Wong教授的Keynote中,他認為摩爾定律“well live”,這一點我們在下個部分中再討論)。

 
在過去幾十年,芯片性能的增長,過半是由于制造工藝的進步帶來的。在上圖AMD CEO Lisa Su的報告中,也可以看到對于GPU,過去十年性能進步最重要的因素,也還是制造工藝的進步,占到了40%。而隨著摩爾定律的放緩,由制造工藝帶來的進步越來越小,我們必須更多地依賴微架構(也即圖中占比17%的Microarchitecture部分)和系統層面的進步來實現整體的進步。而這其中,最直接的方式,就是設計Domain-specific architecture(DSA),放棄一部分通用性,來獲得更大的性能提升。通常而言,越專用,通用性越差,越容易取得更好的性能。


也正因為此,我們看到了GPU在圖像渲染上碾壓CPU,我們看到了在不同通用性層次支持深度學習的各類DPU/NPU/NNP/MLU/
DLA/VPU。比如,我們可以選擇支持各類機器學習算法、而不僅僅是深度學習的MLU,也可以選擇只支持深度學習推理的DPU,而如今又出現了不少專注在深度學習訓練的專用芯片
 

2018年3月份在智東西組織的GTIC大會上,我曾經講過一個和nVidia VP of BD,Jeff Herbst的小故事。在2017年Hot Chips期間,我約著去拜訪了Jeff,也一起吃了個晚餐。在聊到對于AI芯片未來產品時候,我說“I bet that you will sell a chip with no GPU in two years”,我打賭英偉達會在兩年內賣一顆沒有GPU芯片。但是沒想到其實英偉達的新產品來得如此之快:在2018年2月的CES,英偉達CEO黃仁勛就公布了面向自動駕駛的Drive Xavier芯片,號稱30T算力,30W功耗。
但是當我們認真的看PPT上的數字時候會發現,這30T算力,有10TOPS INT8來自于DLA,有20TOPS來自于Tensor Core,都不是傳統的GPUGPU部分只有512個CUDA core,只有1.3 CUDA TFLOPS。也就是說,這個GPU的算力幾乎可以忽略不計,可能只是用來做大屏幕顯示的。
在我和Jeff見面僅僅半年之后,遠沒有到兩年,nVidia就已經開始推出幾乎沒有GPU芯片了,而似乎許多人沒有注意到——這也充分說明了軟件接口的重要性,當nVidia把所有的都做成兼容CUDA,再加上上層的Library和各類Framework進行封裝,大家已經關注不到底層的改變了。

 
在這次Hot Chips大會上介紹的Turing GPU,雖然還掛著GPU的名字,其實也已經是一顆異構計算芯片,不僅僅是傳統那些SIMD單元,總共由Turing SM, RT Core,與Tensor Core三個部分組成。報告人John Burgess介紹,傳統做光線追蹤,對于每一條光線,要反復花費數千個時鐘周期,才能正確計算和物體的交界點在哪里,而一次渲染會有非常多條光線要計算,因此他們才想要設計RT Core來專門解決光線追蹤的問題。這就是典型的異構與DSA解決問題的方式:為一個計算復雜的任務設計專用加速器,用異構的系統來做整體的計算。
 
而異構計算一個特別極致的案例就是Xilinx本次介紹的Versal,Xilinx的第一款ACAP產品。Versal上同時有兩個arm A72核,兩個arm R5核,可編程邏輯也即FPGA,還有AI Engine與DSP Engine!
這樣一顆芯片,可以將應用做非常細致的拆分,AI部分在AI Engine上,信號處理部分在DSP Engine上,主控和通用計算部分在兩個不同的CPU,其他需要加速但不能很好利用AI Engine與DSP Engine的部分在中間的可編程邏輯上。這種感覺就很“分而治之”,又很像經濟學上的“價格歧視”——同樣的產品,為不同購買力的人群分別制訂他們能接受的最高價格,整體獲得的收益會更大。在這里,我們是,同樣一顆芯片,但是為不同應用分別劃出專用的一塊區域,去實現最好的性能。


毫無疑問,越來越異構化的芯片會是大勢所趨。但是,實際上,背后依然有非常多的問題,比如,系統與應用層面的考慮,比如,軟件編程的問題。當DSA越來越專用,必須去考慮整個芯片是否合適于使用的應用,必須有更多和行業結合的軟件,而不僅僅只是像原來一樣提供一個通用的平臺而已。而復雜異構系統的編程開發,在業界依舊是一個沒有完全解決好的問題。對于這樣一顆異構芯片,我怎么去找到每個部分是否適合某個任務,是手動地劃分任務、為不同部分單獨編程再拼到一起,還是統一的軟件界面去編程、之后自動映射?還有很多問題需要去解決。


04


安全,是一個越來越重要的話題


在2018年初,CPU行業曝出了兩個巨大的安全漏洞,“Spectre”和“Meltdown”,其核心原因是因為為了追求更好的性能,CPU做了很多的優化工作,比如分支跳轉預測,和亂序執行,而不是順序的一條一條執行指令,執行到了再去內存里讀取數據。
而近幾年也有一個很大的趨勢,就是原來僅僅用在支付等場景的https協議,開始被越來越多的使用,大部分主流網站,比如常用的百度,微博,等等,已經全站都是https化了。哪怕我不是一個安全方面的專家,但是我也能感受到,各方面的因素,讓“安全”這兩個詞變得越來越重要:我們希望在云計算上運行的任務是安全的,我們希望存儲在云端的數據是安全,我們希望與服務器的通信是安全的。
 

在本次Hot Chips大會,我們明顯也看出了各家互聯網公司與芯片公司對于安全的重視,并且把加密變成了產品流程中的重要一環。如上兩圖,在微軟的tutorial中,微軟介紹了自己正在開發了Corsica芯片,將文件的壓縮解壓縮與加解密做到了一起。AWS的Nitro項目中,也開發了自己的安全芯片。而在Intel的Optane項目中,加解密也已經融合到了存儲一體。
可以想象,未來的存儲一定是和加解密融合到一體的。我們也可以猜想,平頭哥是不是也會做阿里自己的安全芯片



05


Philip Wong教授的報告回顧


在這一部分中,我想結合Philip Wong老師的Keynote,一起討論一下集成電路制造工藝演進的問題,也想談一下我自己關于制造工藝對于AI芯片創業企業的影響。
 

在去年8月,斯坦福大學著名教授Philip Wong(黃漢森,以下簡稱黃教授)確認加入臺積電,擔任研究副總裁,在業界傳為佳話,讓大家覺得又是一例產學研結合的典型案例。黃教授多年來在存儲領域有非常深的建樹,也在碳納米管器件領域有著深入的研究,他的加盟毫無疑問說明TSMC會在存儲方面更下功夫。

 
黃教授一上來便拋出了他最重要的主題,他說:


“Moore’s law is not dead, is not slowing, is even not ill. It’s well alive!”

(摩爾定律沒有終結,也沒有放緩,更沒有生病。摩爾定律活得好好地!)
在之后,他介紹了臺積電在工藝節點演進上的路線圖與展望,并且闡述了三條他認為可以繼續延續摩爾定律的技術路徑:

1. 系統集成的方式,如用interposer的方式將SoC與DRAM可以集成在一起,如SiP,如Chiplet;
2. 更進一步存儲與計算的集成,比如直接將存儲與計算部分在垂直方向上進行堆疊,采用更細致和極致的堆疊方案N3XT;
3. 新的底層材料和技術,比如碳納米管。


特別地,他強調了半導體技術的演進,總是被不斷變化的應用需求所引領的,如上個世紀80年代到2000年的PC/互聯網,到21世紀至今的移動互聯網,在新的時代我們也會更多的去關注AI5G的底層需求。


06


制造工藝之于AI芯片


黃老師有理有據地闡述了他的觀點:摩爾定律很健康!然而俗話說“屁股決定腦袋“,他這樣說,我們就無從知道,有多少比例的原因是他正在臺積電擔任集團研究副總裁。
 


如在AMD CEO Lisa Su的報告中,就已經畫出來了工藝演進的曲線,可以看到10nm與7nm工藝的發展速度已經很大程度上偏離了原來的projection。雖然系統級封裝,利用Interposer方式將HBM與計算部分集成到一起,大大提升了存儲帶寬,但是這并不是集成密度的提升。
芯片制造工藝對于行業影響最大的,并不只是放緩,其制造成本也有非常大的影響:對于晶圓廠和Fabless設計公司均是這樣。


對于晶圓廠來說,7nm等先進工藝生產線動輒數十億美金的投資是一筆巨大的負擔。于是我們看到,在2018年8月,第二梯隊的晶圓廠聯電、Global Foundries先后宣布放棄7nm工藝。在整個市場上,擁有最先進生產工藝的代工廠,只剩下了臺積電、Intel和三星。
對于Fabless的芯片設計公司,問題同樣巨大。對于臺積電28nm、16nm、7nm的芯片來說,要完成一顆芯片的量產,其IP購買、MPW、量產的成本在數百萬美金,千萬美金,億美金以上——如果考慮人員成本、設備成本等等的,這個數字還會高上不少。這就導致只有出貨量極大、收入極高的幾家大廠能夠負擔得起最先進工藝。比如大家耳熟能詳的聯發科,如今也只能先使用著臺積電的12nm,而不能像高通和海思一樣使用7nm工藝。


先進制造工藝的成本問題,對于AI芯片創業公司也有很大影響。一般的AI芯片創業公司,可能只能負擔得起28nm工藝,或者說最開始只敢用28nm工藝進行嘗試。融資足夠多的AI創業企業才能嘗試得起16nm工藝的生產費用。在全球數十家AI芯片創業公司當中,我只聽說過有一家敢于去使用7nm。


如地平線在周五發布的征程二代芯片,就是使用的臺積電28nm工藝(雖然28nm HPC+是多次改進的版本,不展開詳細介紹),這也是大部分嵌入式/終端AI芯片目前選擇的制造工藝;在Hot Chips上吸引了眾多眼球的Cerebras與Habana,均采用的16nm工藝——而這也是迫不得已,因為他們的應用場景在云端,必須追求極限的高性能,所以必須使用能負擔得起的最好的工藝,也必須選擇HBM或者更加極端的存儲方案(如Cerebras使用的Wafer-scale engine,采用18GB SRAM,單片成本據說在100萬美金左右)。


這就導致一個巨大的問題:CPUGPU的競爭中,CPU并不能憑借制造工藝的優勢,來彌補通用性帶來的性能不足,因為二者并無制造工藝上的代差,對于特定應用,性能差距本來也很大;而大公司與AI芯片創業公司之間財力的差距,導致大公司的芯片可以選擇更先進的制造工藝,而AI芯片創業公司卻只能負擔得起相對成熟的工藝。


這樣的話,即便在體系結構設計上,AI芯片創業公司的芯片在特定任務上有數倍的優勢,也可能被制造工藝的差別給抹平。大公司可以通過制造工藝的碾壓,獲得更好的性能,再通過其通用性和原有的渠道、用戶生態的優勢,賣出更多的芯片來收回成本。


在互聯網領域,阿里、騰訊像兩座大山橫貫在路上,利用其強大的資金、技術與產品能力、渠道、用戶等等優勢阻擋住了無數的創業公司。許多成長起來的后起之秀,都是找到自己的途徑去規避巨頭的最強點:京東自建物流,拼多多充分發掘下沉市場,今日頭條用推薦引擎取代搜索引擎。在AI芯片領域,我們終于也有了類似的感受,但許多企業還做著想正面直接挑戰巨頭的計劃。而先進工藝下芯片的制造成本,也成了創業公司很難邁過去的一道坎。


沒有機會了嗎?也不是。發掘巨頭沒有覆蓋到,但是有潛力的新市場,也許機會正在打開,如拼多多一般;用新的底層技術,如存內計算,去獲得數量級的提升,而不是在原來傳統數字芯片上硬拼,就好像抖音用短視頻取代了長視頻與圖片文字的社區;在具體的領域,去做整個系統與產品層面的優化,而不只是做芯片,提供更好的服務,就如昨晚在朋友圈刷屏的ZAO,從DeepFake單個算法出發,做成了細節考慮充分的完整應用;利用好不同地區之間的政策與文化的差異性,就好像滴滴在中國擊敗了Uber。


誰能夠跨過這道門檻,真正和巨頭們掰一掰呢?


我個人看好華為與阿里平頭哥。


前者有足夠多的資源,也可以排在世界前幾的的研發實力與工程能力,軟硬件都非常強,有機會在市場終于被做大之后進場收割;后者,在有足夠多的資源和很強的技術能力外,還有明確的應用以及長期的集團戰略,也能在其看重的領域掀起波浪。而對于創業企業,找到與巨頭的差異性,無論是細分市場、系統集成度、地區政策差異、還是底層技術變革,強化優勢,再拿到足夠多的資源,我相信也希望能夠跑出幾家在各自領域擁有相當地位的公司。

 
劉慈欣在《流浪地球》里寫過一個著名的謎語:“你在平原上走著走著,突然迎面遇到一堵墻,這墻向上無限高,向下無限深,向左無限遠,向右無限遠,這墻是什么? ”
 
對于AI芯片創業企業來說,眼前這墻真的很大,但也不是無限大。


免責聲明:本文由作者原創。文章內容系作者個人觀點,轉載目的在于傳遞更多信息,并不代表EETOP贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時聯系我們,我們將在第一時間刪除!

關鍵詞: AI 人工智能

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 国内在线观看| 薰衣草视频高清在线观看免费| 中文字幕国产欧美| 国产v片免费播放| 日韩电影久久久被窝网| 1024国产精品| 亚洲日韩欧美制服二区dvd| 欧美黄色录像| 国产精品一区二区无线| 久久国产精品免费观看| 亚洲国产欧美在线| 99久在线| 九九99久久精品影视| 中文字幕第五页| 亚洲精品一区二区观看| 岛国一级毛片| 欧美黄免在线播放| 国产在线高清不卡免费播放| 很黄很黄的毛片欧美| 精品视频在线观看一区二区三区| 国产一区二区三区| 亚洲欧美久久精品1区2区| 中文无码日韩欧免费视频| 在线视频黄| 色一情一乱一乱91av| 欧美三级在线播放| 国产精品热久久毛片| 黄色草逼视频| 国产亚洲久久| 精品综合久久久久久98| 狼人青草久久网尹人| 亚洲综合日韩精品欧美综合区| 一区二区高清在线观看| 三级福利视频| 久久久精品午夜免费不卡| 日本久久综合视频| 中文在线观看视频| 中文字幕yellow在线资源| 午夜激情婷婷| 中文字幕免费在线观看动作大片| 亚洲午夜视频在线|