令人興奮的IBM “人腦” AI 芯片
2023-10-30 12:19:45 EETOPIBM 目前推出的 NorthPole 芯片,相對于傳統芯片最大的不同點在于“芯片內置存儲器”,在沒有“馮 諾伊曼瓶頸”的情況下,NorthPole 芯片的 AI 推論能力優于市面上競品。
“它的能源效率令人驚嘆,”巴黎薩克雷大學帕萊索分校的納米電子學研究員達米安·奎利奧茲 (Damien Querlioz) 說道。他說,這項發表在Science 1上的研究表明,計算和內存可以大規模集成。“我覺得這篇論文將動搖計算機架構中的普遍思維。”
研究合著者、IBM 計算機工程師 Dharmendra Modha 表示,這些核心在一個網絡中連接在一起,其靈感來自于人類大腦皮層各部分之間的白質連接。這一設計原則和其他設計原則(其中大部分以前就存在,但從未被整合到一個芯片中)使 NorthPole 在圖像識別的標準基準測試中以大幅優勢擊敗現有的人工智能機器。盡管沒有使用最新、最小型化的制造工藝,但它使用的能量僅為最先進人工智能芯片的五分之一。作者估計,如果 NorthPole 設計采用最新的制造工藝,其效率將比當前設計提高 25 倍。
NorthPole 運行神經網絡:簡單計算單元的多層陣列,經過編程可識別數據模式。底層接收數據,例如圖像中的像素;每個連續層都會檢測復雜性不斷增加的模式,并將信息傳遞到下一層。頂層產生一個輸出,例如,可以表示圖像包含貓、汽車或其他物體的可能性。
雖然 NorthPole 采用 12nm 工藝,于 800 平方毫米上安置了 220 億個晶體管,擁有 256 個核心,于 8-bit 精度下每核心每個周期可執行 2048 次操作,若是在 4-bit 或 2-bit 精度下,操作次數則可翻倍。
搭載 NorthPole 的 PCIe 卡,圖源 IBM
在具體架構上,NorthPole 號稱模糊了運算與存儲間的界線,這讓 NorthPole 容易整合至系統,且明顯減少了搭載芯片的設備負載。
IBM Research 在 ResNet-50 模型上測試 NorthPole,相較于同樣基于 12nm 工藝的 GPU 競品,NorthPole 每秒辨識幀數的能效是競品的 25 倍,而且不管是在延遲或運算空間的要求上,表現都優于市面上所有主流架構,甚至凌駕基于 4nm 工藝的 GPU。
不過,NorthPole 的優勢同時也是它的弱點所在,NorthPole 只能輕松讀取集成在芯片中的本地數據信息,讀取外界數據時,便沒有計算速度優勢。
Modha 聲稱,雖然 NorthPole 無法用來承載 GPT-4,但應該可滿足許多企業所需的模型推論要求。
目前 IBM Research 仍在研究 NorthPole 的適用領域,研究人員許多需要即時處理大量資料的邊緣計算可能非常適合 NorthPole,例如自動駕駛、遙感通信等領域,NorthPole 均有用武之地。
馮·諾依曼瓶頸
有些計算機芯片可以高效地處理這些計算,但每次計算一層時,它們仍需要使用稱為 RAM 的外部存儲器。這種在芯片間穿梭數據的方式會減慢速度--這種現象被稱為馮-諾依曼瓶頸(Von Neumann bottleneck),其名稱源自數學家約翰-馮-諾依曼(John von Neumann)。
馮-諾依曼瓶頸是導致計算機應用(包括人工智能)速度減慢的最重要因素之一。它還導致能源效率低下。Modha表示,他曾經估計,在這種架構上模擬人腦可能需要相當于 12 個核反應堆的輸出。