昨天刷屏的史上最大芯片,是衛星還是創芯?
2019-08-21 13:30:16 EETOPEETOP也做了相關報道:一片晶圓僅做一顆芯片!史上最大芯片誕生!1.2萬億個晶體管。
業內網友依據自己的經驗發表了不同的看法,現截取部分留言:
EETOP特約供稿人 Mike Liu 也發表了一篇分析文章:《史上最大芯片:Cerebras WSE,衛星還是創新》,(首發與Mike Liu的公眾號:MikesICroom)
正文如下:
看下尺寸,1.2萬億晶體管,核心面積64225mm2,18GB 片上SRAM!真是亮瞎了我的鈦合金眼。可能有的人對這個數字不是很敏感,對比一下就更明顯了。NVIDIA的GPU大核心GV100的面積是815mm2,這是服務器端最大的單芯片,對比WSE是它的56倍之多!
WSE還有一些別的特性,主要面向AI領域,單芯片集成了40萬個運算核心(PE),片上18GB的SRAM,注意是SRAM,類似我們通常所說的Cache,目前主流高端處理器的Cache也不過512KB,這個片上SRAM比大多數芯片的片外存儲(DDR)都大。帶寬100Pb/s (1Pb=1000TB)。這基本上比現有的芯片的相關參數高了一個單位(3個數量級)。
WSI(Wafer-Scale Integration)并不是一個很新穎的技術,上世紀80年代,就有人做過類似的嘗試。結果顯而易見了,至今為止沒有任何一款商用,甚至學術型的產品問世。今天Cerebras的WSE(Wafer Scale Engine)算是開創性的產品。
WSI的優點是顯而易見的,可以避免多芯片之間通信帶寬的限制,直接使用芯片上的高速大位寬的直連線,獲得數千倍的帶寬提升,同時更多的片上存儲可以極大的減少對內存的依賴。這么大的優點,為什么至今沒有商業成功的案例呢?主要問題有3點。第一是良率。芯片制造的缺陷隨著芯片面積的增長而大幅增加,即便有足夠的容錯設計,這么大的芯片最終能夠運行的部分能占總面積的百分比可能也不會十分理想,這方面Cerebras并沒有給出具體的數字。第二是功耗,在后摩爾時代,大芯片設計一直都被散熱問題所困擾,大多數的系統都不能完全工作在最高頻率,常常采用全部核心低速運行,或者單個核心高速運行,其他進入低功耗的方式,稱為“Dark silicon”。一塊大核心GPU的功耗達300W,其核心面積僅815mm2,可我們買到的GPU卡有多大大家都知道,那么大的板卡,很大部分都花在散熱,供電等方面。Cerebras的芯片是GPU的56倍,功耗高達15KW,比一般家庭全屋的電器功率都大,這么高的能量在僅有ipad大小的芯片上散發出來是非常恐怖的。有文章說采用水冷,我表示懷疑,不知道液氮冷卻能不能供給的上。最后是量產,裸片產出到量產化之間還有很長的距離要走,如何在這么小的面積上給芯片供電,保證電壓的穩定,以及大尺寸封裝和系統集成的方式,ipad大小的WSE芯片說不定系統有一個房子那么大,對于這些問題Cerebras都沒有明確的答案。
一個帶有科學家神秘笑容的圖片總是能給人以科學的神圣感。我絲毫不懷疑Cerebras的芯片可以跑起來,不但是簡單的點亮,而且是跑復雜的AI程序。但我對它能夠實現宣稱的數萬倍的性能提升,1/10的成本以及芯片大規模量產的能力抱懷疑態度。通過大幅度的降頻是可以讓芯片的功耗控制在可承受的范圍之內,然而性能的降低也會是明顯的。芯片制造的缺陷帶來部分芯片功能的失效在WSE上可能是非常顯著而難以簡單容錯規避的。整個散熱,供電,封裝的重新設計使得系統成本高昂,會抵消掉集中式芯片所節省的成本。同時單芯片數十千瓦的運行熱量會極大的降低芯片的壽命,而一個非常小的部分的損壞就會造成整個芯片的失效,這也是系統成本之一。
通常來說我對新興事物的接受度還是比較高的,而Cerebras的WSE并沒能給我很有說服力的證據。換個例子就能明白為什么會持懷疑態度。現在大家都在建造100層的摩天大樓,一直沒有太高的突破。突然有人說我建造了一個1000層的大樓,稱為小區式高樓。強調這么高的大樓,非常節省土地面積;數個電梯就能完全連接所有層,不需要傳統小區地面道路的連接;1000個單層模塊直接堆疊,模塊化構建;高層獲得非常好的風景,等等。而一直不提如何解決超高層對于地震和火災的防護,如何解決電梯有效運行的問題,1000層甚至可以感受到地球自轉的影響,如何克服;達到設計壽命后如何拆除等問題, 這棟樓,我是不敢住的。對比Cerebras一直強調的超級計算能力,40萬個優化AI內核,18GB的片上緩存,超高帶寬的獨特通信結構,不知道讀者是否有所感受。很希望我的疑慮是錯的,Cerebras能在接下來的時間里證明自己的設計,這就是真的開創了集成電路設計的新時代。
EETOP 官方微信
創芯大講堂 在線教育
半導體創芯網 快訊
相關文章