99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

清華AI芯片報告:人才技術趨勢都在這里

2018-11-26 08:57:38 智東西
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元


清華AI芯片報告:人才技術趨勢都在這里

2010 年以來, 由于大數據產業的發展, 數據量呈現爆炸性增長態勢,而傳統的計算架構又無法支撐深度學習的大規模并行計算需求, 于是研究界對 AI 芯片進行了新一輪的技術研發與應用研究。 AI 芯片人工智能時代的技術核心之一,決定了平臺的基礎架構和發展生態。

本期的智能內參,我們推薦清華大學的報告《 人工智能芯片研究報告》,全面講解人工智能芯片,系統梳理人工智能芯片的發展現狀及趨勢。如果想收藏本文的報告全文(人工智能芯片研究報告),可以在智東西公眾號:(zhidxcom)回復關鍵詞“nc303”獲取。

以下為智能內參整理呈現的干貨:

AI芯片基本知識及現狀

從廣義上講只要能夠運行人工智能算法的芯片都叫作 AI 芯片。但是通常意義上的 AI 芯片指的是針對人工智能算法做了特殊加速設計的芯片, 現階段, 這些人工智能算法一般以深度學習算法為主,也可以包括其它機器學習算法。 人工智能深度學習的關系如圖所示。

清華AI芯片報告:人才技術趨勢都在這里

人工智能深度學習

深度學習算法,通常是基于接收到的連續數值, 通過學習處理, 并輸出連續數值的過程,實質上并不能完全模仿生物大腦的運作機制。 基于這一現實, 研究界還提出了SNN(Spiking Neural Network,脈沖神經網絡) 模型。 作為第三代神經網絡模型, SNN 更貼近生物神經網絡——除了神經元和突觸模型更貼近生物神經元與突觸之外, SNN 還將時域信息引入了計算模型。目前基于 SNN 的 AI 芯片主要以 IBM 的 TrueNorth、 Intel 的 Loihi 以及國內的清華大學天機芯為代表。

1、AI 芯片發展歷程

從圖靈的論文《計算機器與智能》 和圖靈測試, 到最初級的神經元模擬單元——感知機, 再到現在多達上百層的深度神經網絡,人類對人工智能的探索從來就沒有停止過。 上世紀八十年代,多層神經網絡和反向傳播算法的出現給人工智能行業點燃了新的火花。反向傳播的主要創新在于能將信息輸出和目標輸出之間的誤差通過多層網絡往前一級迭代反饋,將最終的輸出收斂到某一個目標范圍之內。 1989 年貝爾實驗室成功利用反向傳播算法,在多層神經網絡開發了一個手寫郵編識別器。 1998 年 Yann LeCun 和 Yoshua Bengio 發表了手寫識別神經網絡和反向傳播優化相關的論文《Gradient-based learning applied to documentrecognition》,開創了卷積神經網絡的時代。

此后, 人工智能陷入了長時間的發展沉寂階段,直到 1997年 IBM的深藍戰勝國際象棋大師和 2011年 IBM的沃森智能系統在 Jeopardy節目中勝出,人工智能才又一次為人們所關注。 2016 年 Alpha Go 擊敗韓國圍棋九段職業選手,則標志著人工智能的又一波高潮。從基礎算法、 底層硬件、 工具框架到實際應用場景, 現階段的人工智能領域已經全面開花。

作為人工智能核心的底層硬件 AI 芯片,也同樣經歷了多次的起伏和波折,總體看來,AI 芯片的發展前后經歷了四次大的變化,其發展歷程如圖所示。

清華AI芯片報告:人才技術趨勢都在這里

AI 芯片發展歷程

(1) 2007 年以前, AI 芯片產業一直沒有發展成為成熟的產業; 同時由于當時算法、數據量等因素, 這個階段 AI 芯片并沒有特別強烈的市場需求,通用的 CPU 芯片即可滿足應用需要。

(2) 隨著高清視頻、 VR、 AR游戲等行業的發展, GPU產品取得快速的突破; 同時人們發現 GPU 的并行計算特性恰好適應人工智能算法及大數據并行計算的需求,如 GPU 比之前傳統的 CPU深度學習算法的運算上可以提高幾十倍的效率,因此開始嘗試使用 GPU進行人工智能計算。

(3) 進入 2010 年后,云計算廣泛推廣,人工智能的研究人員可以通過云計算借助大量 CPUGPU 進行混合運算,進一步推進了 AI 芯片的深入應用,從而催生了各類 AI 芯片的研發與應用。

(4) 人工智能對于計算能力的要求不斷快速地提升,進入 2015 年后, GPU 性能功耗比不高的特點使其在工作適用場合受到多種限制, 業界開始研發針對人工智能的專用芯片,以期通過更好的硬件和芯片架構,在計算效率、能耗比等性能上得到進一步提升。

2、我國 AI 芯片發展情況

目前,我國的人工智能芯片行業發展尚處于起步階段。 長期以來,中國在 CPUGPU、DSP 處理器設計上一直處于追趕地位,絕大部分芯片設計企業依靠國外的 IP 核設計芯片,在自主創新上受到了極大的限制。 然而,人工智能的興起,無疑為中國在處理器領域實現彎道超車提供了絕佳的機遇。 人工智能領域的應用目前還處于面向行業應用階段,生態上尚未形成壟斷,國產處理器廠商與國外競爭對手在人工智能這一全新賽場上處在同一起跑線上,因此, 基于新興技術和應用市場,中國在建立人工智能生態圈方面將大有可為。

由于我國特殊的環境和市場,國內 AI 芯片的發展目前呈現出百花齊放、百家爭鳴的態勢, AI 芯片的應用領域也遍布股票交易、金融、商品推薦、安防、早教機器人以及無人駕駛等眾多領域,催生了大量的人工智能芯片創業公司,如地平線、深鑒科技、中科寒武紀等。

盡管如此, 國內公司卻并未如國外大公司一樣形成市場規模, 反而出現各自為政的散裂發展現狀。除了新興創業公司,國內研究機構如北京大學、清華大學、中國科學院等在AI 芯片領域都有深入研究;而其他公司如百度和比特大陸等, 2017 年也有一些成果發布。可以預見,未來誰先在人工智能領域掌握了生態系統,誰就掌握住了這個產業的主動權。

3、AI學者概況

基于來自清華大學AMiner人才庫數據,全球人工智能芯片領域學者分布如圖所示,從圖中可以看到, 人工智能芯片領域的學者主要分布在北美洲,其次是歐洲。 中國對人工智能芯片的研究緊跟其后,南美洲、非洲和大洋洲人才相對比較匱乏。

清華AI芯片報告:人才技術趨勢都在這里

人工智能芯片領域研究學者全球分布

按國家進行統計來看美國是人工智能芯片領域科技發展的核心。 英國的人數緊排在美國之后。其他的專家主要分布在中國、 德國、 加拿大、意大利和日本。

清華AI芯片報告:人才技術趨勢都在這里

人工智能芯片領域研究學者全球分布

對全球人工智能芯片領域最具影響力的 1000 人的遷徙路徑進行了統計分析,得出下圖所示的各國人才逆順差對比。

清華AI芯片報告:人才技術趨勢都在這里

▲各國人才逆順差

可以看出,各國人才的流失和引進是相對比較均衡的,其中美國為人才流動大國,人才輸入和輸出幅度都大幅度領先。英國、 中國、 德國和瑞士等國次于美國,但各國之間人才流動相差并不明顯。

AI 芯片的分類及技術

人工智能芯片目前有兩種發展路徑:一種是延續傳統計算架構,加速硬件計算能力,主要以 3 種類型的芯片為代表,即 GPUFPGA、 ASIC,但 CPU依舊發揮著不可替代的作用;另一種是顛覆經典的馮·諾依曼計算架構,采用類腦神經結構來提升計算能力, 以 IBM TrueNorth 芯片為代表。

1、傳統 CPU

計算機工業從 1960 年代早期開始使用 CPU 這個術語。迄今為止, CPU 從形態、設計到實現都已發生了巨大的變化,但是其基本工作原理卻一直沒有大的改變。 通常 CPU 由控制器和運算器這兩個主要部件組成。 傳統的 CPU 內部結構圖如圖 3 所示, 從圖中我們可以看到:實質上僅單獨的 ALU 模塊(邏輯運算單元)是用來完成數據計算的,其他各個模塊的存在都是為了保證指令能夠一條接一條的有序執行。這種通用性結構對于傳統的編程計算模式非常適合,同時可以通過提升 CPU 主頻(提升單位時間內執行指令的條數)來提升計算速度。 但對于深度學習中的并不需要太多的程序指令、 卻需要海量數據運算的計算需求, 這種結構就顯得有些力不從心。尤其是在功耗限制下, 無法通過無限制的提升 CPU 和內存的工作頻率來加快指令執行速度, 這種情況導致 CPU 系統的發展遇到不可逾越的瓶頸。

清華AI芯片報告:人才技術趨勢都在這里

▲傳統 CPU 內部結構圖(僅 ALU 為主要計算模塊)

2、并行加速計算的 GPU

GPU 作為最早從事并行加速計算的處理器,相比 CPU 速度快, 同時比其他加速器芯片編程靈活簡單。

傳統的 CPU 之所以不適合人工智能算法的執行,主要原因在于其計算指令遵循串行執行的方式,沒能發揮出芯片的全部潛力。與之不同的是, GPU 具有高并行結構,在處理圖形數據和復雜算法方面擁有比 CPU 更高的效率。對比 GPUCPU 在結構上的差異, CPU大部分面積為控制器和寄存器,而 GPU 擁有更ALU(ARITHMETIC LOGIC UNIT,邏輯運算單元)用于數據處理,這樣的結構適合對密集型數據進行并行處理, CPUGPU 的結構對比如圖 所示。程序在 GPU系統上的運行速度相較于單核 CPU往往提升幾十倍乃至上千倍。隨著英偉達、 AMD 等公司不斷推進其對 GPU 大規模并行架構的支持,面向通用計算的 GPU(即GPGPU, GENERAL PURPOSE GPU,通用計算圖形處理器)已成為加速可并行應用程序的重要手段。

清華AI芯片報告:人才技術趨勢都在這里

CPUGPU 結構對比圖(引用自 NVIDIA CUDA 文檔)

GPU 的發展歷程可分為 3 個階段, 發展歷程如圖所示:

第 一 代 GPU(1999 年 以 前 ) , 部 分 功 能 從 CPU 分 離 , 實 現 硬 件 加 速 , 以GE(GEOMETRY ENGINE)為代表,只能起到 3D 圖像處理的加速作用,不具有軟件編程特性。

第二代 GPU(1999-2005 年), 實現進一步的硬件加速和有限的編程性。 1999 年,英偉達發布了“專為執行復雜的數學和幾何計算的” GeForce256 圖像處理芯片,將更多的晶體管用作執行單元, 而不是像 CPU 那樣用作復雜的控制單元和緩存,將 T&L(TRANSFORM AND LIGHTING)等功能從 CPU 分離出來,實現了快速變換,這成為 GPU 真正出現的標志。之后幾年, GPU 技術快速發展,運算速度迅速超過 CPU。 2001 年英偉達和 ATI 分別推出的GEFORCE3 和 RADEON 8500,圖形硬件的流水線被定義為流處理器,出現了頂點級可編程性,同時像素級也具有有限的編程性,但 GPU 的整體編程性仍然比較有限。

第三代 GPU(2006年以后), GPU實現方便的編程環境創建, 可以直接編寫程序。 2006年英偉達與 ATI分別推出了 CUDA(Compute United Device Architecture,計算統一設備架構)編程環境和 CTM(CLOSE TO THE METAL)編程環境, 使得 GPU 打破圖形語言的局限成為真正的并行數據處理超級加速器。

2008 年,蘋果公司提出一個通用的并行計算編程平臺 OPENCL(OPEN COMPUTING LANGUAGE,開放運算語言),與 CUDA 綁定在英偉達的顯卡上不同,OPENCL 和具體的計算設備無關。

清華AI芯片報告:人才技術趨勢都在這里

GPU 芯片的發展階段

目前, GPU 已經發展到較為成熟的階段。谷歌、 FACEBOOK、微軟、 TWITTER 和百度等公司都在使用 GPU 分析圖片、視頻和音頻文件,以改進搜索和圖像標簽等應用功能。此外,很多汽車生產商也在使用 GPU 芯片發展無人駕駛。 不僅如此, GPU 也被應用于VR/AR 相關的產業。

但是 GPU也有一定的局限性。 深度學習算法分為訓練和推斷兩部分, GPU 平臺在算法訓練上非常高效。但在推斷中對于單項輸入進行處理的時候,并行計算的優勢不能完全發揮出來。

3、半定制化的 FPGA

FPGA 是在 PAL、 GAL、 CPLD 等可編程器件基礎上進一步發展的產物。用戶可以通過燒入 FPGA 配置文件來定義這些門電路以及存儲器之間的連線。這種燒入不是一次性的,比如用戶可以把 FPGA 配置成一個微控制器 MCU,使用完畢后可以編輯配置文件把同一個FPGA 配置成一個音頻編解碼器。因此, 它既解決了定制電路靈活性的不足,又克服了原有可編程器件門電路數有限的缺點。

FPGA 可同時進行數據并行和任務并行計算,在處理特定應用時有更加明顯的效率提升。對于某個特定運算,通用 CPU 可能需要多個時鐘周期; 而 FPGA 可以通過編程重組電路,直接生成專用電路,僅消耗少量甚至一次時鐘周期就可完成運算。

此外,由于 FPGA的靈活性,很多使用通用處理器或 ASIC難以實現的底層硬件控制操作技術, 利用 FPGA 可以很方便的實現。這個特性為算法的功能實現和優化留出了更大空間。同時 FPGA 一次性成本(光刻掩模制作成本)遠低于 ASIC,在芯片需求還未成規模、深度學習算法暫未穩定, 需要不斷迭代改進的情況下,利用 FPGA 芯片具備可重構的特性來實現半定制的人工智能芯片是最佳選擇之一。

功耗方面,從體系結構而言, FPGA 也具有天生的優勢。傳統的馮氏結構中,執行單元(如 CPU 核)執行任意指令,都需要有指令存儲器、譯碼器、各種指令的運算器及分支跳轉處理邏輯參與運行, 而 FPGA 每個邏輯單元的功能在重編程(即燒入)時就已經確定,不需要指令,無需共享內存,從而可以極大的降低單位執行的功耗,提高整體的能耗比。

由于 FPGA 具備靈活快速的特點, 因此在眾多領域都有替代 ASIC 的趨勢。 FPGA人工智能領域的應用如圖所示。

清華AI芯片報告:人才技術趨勢都在這里

FPGA人工智能領域的應用

4、全定制化的 ASIC

目前以深度學習為代表的人工智能計算需求,主要采用 GPUFPGA 等已有的適合并行計算的通用芯片來實現加速。在產業應用沒有大規模興起之時,使用這類已有的通用芯片可以避免專門研發定制芯片(ASIC) 的高投入和高風險。但是,由于這類通用芯片設計初衷并非專門針對深度學習,因而天然存在性能、 功耗等方面的局限性。隨著人工智能應用規模的擴大,這類問題日益突顯。

GPU 作為圖像處理器, 設計初衷是為了應對圖像處理中的大規模并行計算。因此,在應用于深度學習算法時,有三個方面的局限性:第一,應用過程中無法充分發揮并行計算優勢。 深度學習包含訓練和推斷兩個計算環節, GPU深度學習算法訓練上非常高效, 但對于單一輸入進行推斷的場合, 并行度的優勢不能完全發揮。 第二, 無法靈活配置硬件結構。 GPU 采用 SIMT 計算模式, 硬件結構相對固定。 目前深度學習算法還未完全穩定,若深度學習算法發生大的變化, GPU 無法像 FPGA 一樣可以靈活的配制硬件結構。 第三,運行深度學習算法能效低于 FPGA

盡管 FPGA 倍受看好,甚至新一代百度大腦也是基于 FPGA 平臺研發,但其畢竟不是專門為了適用深度學習算法而研發,實際應用中也存在諸多局限:第一,基本單元的計算能力有限。為了實現可重構特性, FPGA 內部有大量極細粒度的基本單元,但是每個單元的計算能力(主要依靠 LUT 查找表)都遠遠低于 CPUGPU 中的 ALU 模塊; 第二、 計算資源占比相對較低。 為實現可重構特性, FPGA 內部大量資源被用于可配置的片上路由與連線; 第三,速度和功耗相對專用定制芯片(ASIC)仍然存在不小差距; 第四, FPGA 價格較為昂貴,在規模放量的情況下單塊 FPGA 的成本要遠高于專用定制芯片

因此,隨著人工智能算法和應用技術的日益發展,以及人工智能專用芯片 ASIC產業環境的逐漸成熟, 全定制化人工智能 ASIC也逐步體現出自身的優勢,從事此類芯片研發與應用的國內外比較有代表性的公司如圖所示。

清華AI芯片報告:人才技術趨勢都在這里

人工智能專用芯片(包括類腦芯片) 研發情況一覽

深度學習算法穩定后, AI 芯片可采用 ASIC 設計方法進行全定制, 使性能、功耗和面積等指標面向深度學習算法做到最優。

5、類腦芯片

類腦芯片不采用經典的馮·諾依曼架構, 而是基于神經形態架構設計,以 IBM Truenorth為代表。 IBM 研究人員將存儲單元作為突觸、計算單元作為神經元、傳輸單元作為軸突搭建了神經芯片的原型。目前, Truenorth 用三星 28nm 功耗工藝技術,由 54 億個晶體管組成的芯片構成的片上網絡有 4096 個神經突觸核心,實時作業功耗僅為 70mW。由于神經突觸要求權重可變且要有記憶功能, IBM 采用與 CMOS 工藝兼容的相變非揮發存儲器(PCM)的技術實驗性的實現了新型突觸,加快了商業化進程。

AI芯片產業及趨勢

1、AI芯片應用領域

隨著人工智能芯片的持續發展,應用領域會隨時間推移而不斷向多維方向發展,這里我們選擇目前發展比較集中的幾個行業做相關的介紹。

清華AI芯片報告:人才技術趨勢都在這里AI芯片目前比較集中的應用領域

(1)智能手機

2017 年 9 月,華為在德國柏林消費電子展發布了麒麟 970 芯片,該芯片搭載了寒武紀的 NPU,成為“全球首款智能手機移動端 AI 芯片” ; 2017 年 10 月中旬 Mate10 系列新品(該系列手機的處理器為麒麟 970)上市。搭載了 NPU 的華為 Mate10 系列智能手機具備了較強的深度學習、本地端推斷能力,讓各類基于深度神經網絡的攝影、圖像處理應用能夠為用戶提供更加完美的體驗。

而蘋果發布以 iPhone X 為代表的手機及它們內置的 A11 Bionic 芯片。A11 Bionic 中自主研發的雙核架構 Neural Engine(神經網絡處理引擎),它每秒處理相應神經網絡計算需求的次數可達 6000 億次。這個 Neural Engine 的出現,讓 A11 Bionic 成為一塊真正的 AI 芯片。 A11 Bionic 大大提升了 iPhone X 在拍照方面的使用體驗,并提供了一些富有創意的新用法。

(2)ADAS(高級輔助駕駛系統)

ADAS 是最吸引大眾眼球的人工智能應用之一, 它需要處理海量的由激光雷達、毫米波雷達、攝像頭等傳感器采集的實時數據。相對于傳統的車輛控制方法,智能控制方法主要體現在對控制對象模型的運用和綜合信息學習運用上,包括神經網絡控制和深度學習方法等,得益于 AI 芯片的飛速發展, 這些算法已逐步在車輛控制中得到應用。

(3)CV(計算機視覺(Computer Vision) 設備

需要使用計算機視覺技術的設備,如智能攝像頭、無人機、 行車記錄儀、人臉識別迎賓機器人以及智能手寫板等設備, 往往都具有本地端推斷的需要,如果僅能在聯網下工作,無疑將帶來糟糕的體驗。而計算機視覺技術目前看來將會成為人工智能應用的沃土之一,計算機視覺芯片將擁有廣闊的市場前景。

(4) VR 設備

VR 設備芯片的代表為 HPU 芯片, 是微軟為自身 VR 設備 Hololens 研發定制的。 這顆由臺積電代工的芯片能同時處理來自 5個攝像頭、 1個深度傳感器以及運動傳感器的數據,并具備計算機視覺的矩陣運算和 CNN 運算的加速功能。這使得 VR 設備可重建高質量的人像 3D 影像,并實時傳送到任何地方。

(5)語音交互設備

語音交互設備芯片方面,國內有啟英泰倫以及云知聲兩家公司,其提供的芯片方案均內置了為語音識別而優化的深度神經網絡加速方案,實現設備的語音離線識別。穩定的識別能力為語音技術的落地提供了可能; 與此同時,語音交互的核心環節也取得重大突破。語音識別環節突破了單點能力,從遠場識別,到語音分析和語義理解有了重大突破,呈現出一種整體的交互方案。

(6)機器人

無論是家居機器人還是商用服務機器人均需要專用軟件+芯片人工智能解決方案,這方面典型公司有由前百度深度學習實驗室負責人余凱創辦的地平線機器人,當然地平線機器人除此之外,還提供 ADAS、智能家居等其他嵌入式人工智能解決方案。

2、AI芯片國內外代表性企業

關鍵詞:

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 日韩黄色三级| 国产又黄又免费aaaa视频| 大象焦伊人久久综合网色视| 欧美精品久久| 一级特黄特色aa大片| 日韩亚洲影院| 午夜性刺激小说| 台湾成人性视频免费播放| 在线观看一级毛片免费| 男女免费高清在线爱做视频| 欧美末成年videos丨| 欧美性一区二区三区| 性做爰片视频毛片| 黄色一级毛片网站| 国产色婷婷精品免费视频| 久久是免费只精品热在线| 六月婷婷七月丁香| 亚洲免费福利| 亚洲欧美日本国产综合在线| 一本久道久久综合狠狠爱| 最新三级网址| 在线观看欧美日韩| 亚洲污| 亚洲码一区二区三区| 亚洲欧美在线一区| 亚洲成人免费在线视频| 99爱视频精品免视看| 91精品福利在线| 三级精品视频在线播放| 仑乱高清在线一级播放| 极品精品国产超清自在线观看| 免费日韩在线| 成人免费视频大全| 亚洲乱人伦在线| 成人自拍视频网站| 拍拍拍又黄又爽无挡视频免费| 国产欧美在线观看| 国产亚洲精品一区二区在线观看| 国产一区二区视频在线播放| 欧美色图一区| 自拍偷拍 欧美日韩|