99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

突破芯片制裁,現有工藝下提升計算芯片算力有哪些效手段?

2023-09-22 12:37:15 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
近日,在華為于召開的2023全聯連大會上,華為副董事長、輪值董事長、CFO孟晚舟女士發表主題演講時表示,華為開啟全面智能化(All Intelligence)戰略,加速千行萬業的智能化轉型,致力于打造中國堅實的算力底座,為世界構建第二選擇。并將持續提升“軟硬芯邊端云”的融合能力,做厚“黑土地”,滿足各行各業多樣性的AI算力需求。

深度學習為核心技術的人工智能有三大關鍵要素:算法、數據和算力。據預估,到2030年,通用算力將增長10倍,而人工智能算力將增長500倍。大模型需要大算力,算力是人工智能發展的核心驅動力。算力大小決定著AI迭代與創新的速度,也影響著經濟發展的速度,算力的稀缺和昂貴已經成為制約AI發展的核心因素。

芯片算力就是芯片每秒鐘能夠執行乘累加運算量的大小。算力就是在CMOS集成電路上執行萬億次/秒的簡單乘累加操作,操作數越大算力越高!增大算力一般采用改進電路結構,提高芯片面積、增加MAC數量或者說提高芯片工藝制程等方法。這些依賴物理工藝的提升法,并不涉及計算電路的本質問題,即“二進制數”高效運算。

北京航空航天大學責任教授李洪革老師在EETOP于2023年8月24日在深圳舉辦的“芯片設計技術高峰論壇”上表示:“針對我國芯片制備受制裁的情況,探索CMOS冗余數、概率數、殘余數甚至高維數系的運算機制,才是我國避免依賴芯片工藝還能提高算力的有效手段。”

1.jpg

李洪革,北京航空航天大學責任教授

什么是計算芯片

CPU是最傳統的計算芯片,出現于大規模集成電路時代。可以說,有計算機以來就有CPU。它是計算機系統的運算和控制核心,擅長各種任務的調度,是信息處理、程序運行的最終執行單元。1971年英特爾推出了世界上第一臺微處理器4004,有2300個晶體管,是第一個用于計算器的4位微處理器。雖然這款產品的功能相當有限,且運行速度慢,但是它是第一個運用到個人使用的微機中,由此也開啟了CPU的發展之路。

第二類計算芯片就是GPU。1999年,NVIDIA公司在發布其標志性產品GeForce256時,首次提出了GPU的概念。GeForce256是由NVIDIA研發的第五代顯示核心,擁有2300萬個晶體管,是256-bit顯示架構,擁有4條像素流水線。每一條有4個像素單元,1個材質單元。三角形生成率是每秒1500萬個,像素生成率則是每秒4億8000萬個。NVIDIA率先將硬件T&L整合到GPU中。在此之前,電腦中處理影像輸出的顯示芯片,通常很少被視為是一個獨立的運算單元。GeForce 256憑著它的功能和速度,在各顯卡的強力競爭下,令NⅥDIA的電腦圖形工業霸主地位更堅固。

圖片

1億美元買2500塊GH200組成的Iso-Budget數據中心,功耗是3MW,AI推理性能達到CPU系統的12倍,能效達20倍。

GPU圖像處理器,是Graphics Processing Unit的縮寫,又被稱為顯示核心、視覺處理器顯示芯片。它和CPU工作流程物理結構大致相似,不過在處理圖形數據和復雜算法方面擁有比CPU更高的效率。CPU大部分面積為控制器和寄存器,而GPU是基于大的吞吐量設計,有很多的算術運算單元和很少的緩存。相較CPUGPU的工作則更為單一,只處理最簡單的數學計算指令,但它內部有幾千個處理單元可以同時做處理,因此特別擅長做簡單但大規模的并發計算,此外,GPU具有高并行結構,且擁有更多的ALU(Arithmetic Logic Unit,算術邏輯運算單元),用于數據計算處理,這樣的結構更適合對密集型數據進行并行處理。

還有一類計算芯片,即TPU。它始于算力瓶頸,首秀便是2016年轟動世界的人機大戰——AlphaGo對戰李世石。那一年,AlphaGo以4:1總分打敗圍棋世界冠軍李世石,隨后獨戰群雄。區別于GPU,谷歌TPU是一種ASIC芯片方案,是一種專為某種特定應用需求而定制的芯片。第一代谷歌僅用于深度學習推理,TPU采用了28nm工藝制造,功耗約為40W,主頻700MHz,同時,TPU通過PCIe Gen3 x16總線連接到主機,實現了12.5GB/s的有效帶寬,平均比CPU/GPU快15倍到30倍,能耗比指標更高達30到80倍TOPS/W,單組TPU 的浮點計算力達 180 Teraflops(萬億次每秒)。近日,谷歌推出其第五代TPU,可以通過采用400 TB/s互連來配置多達256個芯片。谷歌表示,在 256 個芯片配置下,INT8 的算力將達到 100 PetaOps。不過,通常,ASIC芯片的開發不僅需要花費數年的時間,且研發成本也極高。也就不差錢的谷歌,能一次又一次延續過往輝煌。

過往算力主要圍繞超算場景,更依賴于CPU發揮,而隨著計算場景更多元化、計算應用更復雜化之后,全球算力需求呈現出指數級增加,導致傳統計算方式已經無法滿足新時代要求。在AI大算力時代的當下,CPU+GPU異構融合則是另一種思路,并正逐步成為主流。

事實上,AI的算力服務器基本都是采用CPU+GPU的模式,比如最典型的英偉達A100服務器,就配置了2顆CPU和8顆GPU,其中2顆CPU負責任務和數據調度,8顆GPU是真正負責模型訓練計算的。再來看ChatGPT,它的“橫空出世”加速了算力發展。從公開的數據顯示,一代ChatGPT模型訓練,只用了5GB的文本數據;二代用來40GB;3.5代用了45TB。ChatGPT模型的本質上是概率模型,這種模型的訓練和推理,其實里面的每一步計算都不復雜,全都是最基礎的矩陣運算,比如矩陣乘法、矩陣加法等。只是需要做的運算量非常大。不過,他們相互之間并沒有前后順序的依賴,可以并發同時做。GPU就非常合適。一個GPU里有幾千個處理單元,簡單的問題重復做,很快就可以做完了。

RFV7RJ0tZCjfZE2W1Zdb0vaVTmWcTWNcZhKtx8nGGTiaopOfQ/640?wx_fmt=jpeg" data-type="jpeg" data-w="1080" data-index="4" src="http://www.xebio.com.cn/uploadfile/2023/0922/20230922123759672.jpg" _width="677px" crossorigin="anonymous" alt="圖片" data-fail="0" style=";padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;vertical-align: bottom;height: auto !important;width: 677px !important;visibility: visible !important"/>

不過,算力不足、能效過低,是當前人工智能硬件平臺面臨的兩大艱巨挑戰。李洪革老師在演講中表示:“提高芯片算力的關鍵在于系統設計和芯片加工。系統設計,重在高性能微架構和先進算術運算,芯片加工則有賴于先進工藝制程和先進封裝制備。”

下面,我們重點從系統設計的角度來談談,如何提升芯片的算力。

從系統設計提升芯片算力

高性能微架構

現在,無論是CPU還是GPU,采用的都是70年前的馮.諾伊曼體系架構。馮諾依曼體系結構是現代計算機的基礎。根據馮諾依曼體系CPU的工作分為以下 5 個階段:取指令階段、指令譯碼階段、執行指令階段、訪存取數和結果寫回。在該體系結構下,程序數據統一存儲指令數據需要從同一存儲空間存取,經由同一總線傳輸,無法重疊執行。

在馮諾依曼架構中,計算和存儲功能分別由中央處理器和存儲器完成。計算機的 CPU 和存儲器是相互獨立發展的,

也就是CPU和內存是在不同芯片上的,而它們之間的通信要通過總線來進行。數據量少的時候沒問題,但一旦數據變多,總線本身就會擁擠成為瓶頸。而現在的GPU,并行處理能力越來越強。當數據傳輸速度不夠時,就會限制算力的天花板, 嚴重影響目標應用程序的功率和性能。

前陣子,美國對中國GPU的限制,就是對芯片總線代寬和算力聯合做限制。所以英偉達在這個新規下,能對中國銷售的A800芯片,它的總線帶寬就必須從原來的A100的600GB每秒降低到400GB每秒,所以數據的傳輸代寬越來越成為GPU的瓶頸。

這也正是GPU當前面臨的存儲墻瓶頸,即“存儲墻”與“功耗墻”瓶頸,嚴重制約了系統算力和能效的提升。業界很多也都在研究相關的解決方案,以實現更為有效的數據運算和更大的數據吞吐量,其中“存算一體”被認為是未來計算芯片的架構趨勢。就是把之前集中存儲在外面的數據改為存在GPU的每個計算單元內,每個計算單元既負責存儲數據,又負責數據計算。

存算一體芯片市場廣闊,目前,國內外企業、科研院所紛紛布局。據 Gartner 預測,全球內存計算市場將以每年 22% 的速度持續增長,截至 2020 年底有望達到 130 億美元 。關于存算一體,我們不再詳細探討,后期,將再專門撰寫關于存算一體的主題文章。

先進算術運算

邏輯電路和算術電路是計算芯片的設計基礎。二進制邏輯是目前數據計算、信息傳輸的基礎。眾所周知,二進制邏輯(布爾代數)中,通常用0和1表示兩個變量值中的一個。在計算N*N維的矩陣乘法時,每計算一個矢量元素將需要N^2個加法和乘法!硬件實現受限于布爾邏輯(二進制數)和馮氏架構代來的物理瓶頸,使得當前的AI計算芯片在算力突破方面面臨極大的挑戰。。

為了減小二進制計算的硬件資源消耗,一種有別于布爾邏輯的概率(邏輯)計算(Stochastic Computing,SC,或Stochastic Logic)在1967年由美國哈羅德標準電信實驗B.Gaines和W.Poppe I baum提出,并詳細分析和說明概率計算。概率邏輯是基于單比特位的偽隨機序列的計算,其激活“1”的概率與激活函數與權重成正比。概率計算機中,算術運算是借助于表示數據的邏輯電平的隨機和不相關性來執行的,并且由其“高電平”所占的概率來決定。也就是所發生的“高電平”脈沖的頻率表示其概率值。即遵循古典概型伯努利所證實的“當試驗次數愈來愈大時,頻率接近概率”。概率計算已經在圖像處理、通信、神經網絡和深度學習中被使用。

傳統概率計算的優點:電路邏輯簡單,極大減少電路面積,實現更高并行度;同等噪聲水平,可實現比二進制更可靠的數值計算;在電路結構不變,可動態調節計算準確性和時間。然而,傳統概率也存在的明顯不足。如,實現二進制數相同精度,概率脈沖長度需達到2n,時間消耗大幅增加;連續多次計算時,中途須轉換回二進制再重新互斥編碼,降低計算效率。

北京航空航天大學教授李洪革老師在演講中談到:“盡管概率計算比二進制計算存在硬件消耗上的巨大優勢,但其基于脈沖頻率表示概率數值的本質帶來了較大的計算時延的問題。”基于此,李洪革老師的研究團隊提出了混合概率邏輯計算取代原始單比特流概率計算的思想。該方法利用多位流的期望值來取代傳統概率計算。

圖片

與傳統的單比特流相比,混合邏輯計算突破了傳統SC長時延的制約,實現了低時延和低面積。實驗證明了混合邏輯計算規則的合理性,使用該方法乘法器延遲降低了1/2m,且達到零錯誤計算。對于8-bit輸入數據,混合邏輯作為乘法器的面積效率是經典SC方法的11.3倍。在2022年伊始,該思想被國際電路與系統頂會ISCAS和IEEE 權威期刊TVLSI等多位國際專家所認可并全文接收。

圖片

結束語

人類社會一直在孜孜不倦地追求對信息處理的計算能力的提升,ChatGPT的出現便是一個很好的案例。馮·諾依曼(Von Neumann)架構計算機在某些特殊應用場景中的局限性也逐步凸顯。類腦計算、概率計算等新興計算模式和結構不斷涌現,將滿足人工智能、數據中心等應用對高負載、低能耗計算的需求,成為未來智能計算的突破口。

北京航空航天大學教授李洪革帶領的類腦芯片研究團隊提出:“類腦芯片如果還是按照二進制數來實現,那么可能勢必擺脫不了GPUCPU本身對數進行定義的局限性。能否轉換思維,將片上運算轉換成非二進制數,即基于脈沖序列來表示的數—即概率脈沖數。”據了解,目前,該研究團隊已經實現了混合概率計算類腦脈沖神經網絡芯片的設計、測試和應用。期待在李洪革老師的帶領下,能為國產計算芯片的發展帶來革新,并成為未來智能計算的突破口。


關鍵詞: 芯片 半導體 集成電路

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 亚洲精品xxx| 亚洲综合一区二区| 日本一级特黄视频| 成人蜜桃网| 国产热久久精| 精品日韩| 国产呦精品一区二区三区网站| 欧美另类网| 欧美日韩国产在线人成dvd| 一级aaa级毛片午夜在线播放| 无内丝袜透明在线播放| 日本大片成人免费网址| 日韩亚洲一区中文字幕在线| 中文字幕一区二区三区四区| 午夜一级片| 中文字幕三区| 日韩高清在线不卡| 日韩手机在线免费视频| 日本精品在线观看视频| 日本精品久久久一区二区三区 | 国产欧美日韩精品一区二区三区| 视频二区| 国产高清1024永久免费| 国产黄色一级毛片| 国产在线视频一区二区三区| 国产小嫩模好紧| 欧美高清激情毛片| 美女免费精品高清毛片在线视| 黄色一级片在线看| 国产露脸无套在线观看| 国产精品lululu在线观看| 国产乱人视频免费观看| 国产三级精品视频| 欧美日韩一区二区在线观看视频| 免费播放国产一级| 任你躁欧美一级在线精品免费| 在线网站你懂的| 免费一区视频| 成人免费的性色视频| 亚洲欧美国产高清va在线播放| 中文字幕永久在线观看|