Hot Chips 2023:用至強處理器執行類腦推論
2023-10-18 11:35:28 科技新報 作者:癡漢水球來源:科技新報 作者:癡漢水球
可曾想過人為什么會有「意識」?理解世界的“智能”又從何而來?這和處理器業界的年度盛事 Hot Chips 又有什么千絲萬縷的關系?
被譽為世界科幻文學三巨頭之一的羅伯特·海萊恩(Robert Anson Heinlein),1961 年出版的《異鄉異客》(Stranger in a Strange Land),陳述在火星長大的孤兒,用非人類的眼光審視人類世界的故事。作者杜撰了一個詞「Numenta」,來自拉丁文的「心靈」(Mentis)之意。
2005 年,知名計算機科學家兼神經生物學家 Jeff Hawkins、Donna Dubinsky 和 Dileep George 創立 Numenta,目標通過開發基于大腦新皮質的原理,創造機器智能。之前 Jeff Hawkins 是 Palm 和 Handspring 創辦人,可謂掌上型運算領域先驅者,也創建紅杉神經科學研究所(Redwood Neuroscience Institute),身兼美國國家工程學院院士。
▲ Numenta 創辦人之一 Jeff Hawkins 是知名的計算機科學家與神經生物學家,更是 Palm、Handspring、紅杉神經科學研究所(Redwood Neuroscience Institute)和 Numenta 創辦者,曾主導 Palm 和 Treo 等早期掌上型運算平臺研發,并撰寫《On Intelligence》(創智慧)和《A Thoudand Brains》(千腦)兩本人工智能領域的名作。 據人類進化史,大腦皮質分為新皮層和古皮層,厚度約 2~4 毫米,位于腦半球頂層的新皮質,處理數據的手段與人類意識和知覺息息相關。 因此 Jeffrey 和伙伴一起寫了《On Intelligence》(中譯「創智慧」或「人工智能的未來」),提出「階層式時序記憶」(HTM,Hierarchical Temporal Memory)演算法,為 Numenta 核心技術,藉模擬新皮層機制,以人類認知世界的方式學習世界,可儲存、學習、推論和長序列回憶。Numenta 成立宗旨,不外乎逆向工程新皮質,最終制造出以相同理念運作的人工智能機器。 ▲ 不同神經元模型比較:A. 人工神經網絡。B. 生物神經元(新皮層錐體神經元)。C.HTM(階層式時序記憶)神經元。可清楚看到 Numenta 企圖變相復制更接近大腦的運作方式,再用于人工智能。 Jeff Hawkins 2018 年出版《A Thoudand Brains》,后來被微軟創辦人比爾蓋茲(Bill Gates)列入 2021 年底圣誕閱讀清單,探討「千腦理論」(The Thousand Brains Theory)徹底改變我們對大腦和人工智能前景的理解,介紹千腦理論如何影響機器智能的未來, 并試圖解釋大腦皮質每小部分都獨立學習對象模型,這些模型最后合并,形成整體認知。 換言之,人類智慧來自大腦無數個幾乎一模一樣的皮質柱(Cortical Column)共同作業,就好像大腦由「幾千個同時運行組件」組成。 更精確點,千腦理論可分成四部分:
「多重模型」:
皮層每部分都獨立學習對象模型。
這象征有成千上萬皮層區域同時學習和建立相同對象的模型。
「多重表征」:
皮層每部分都獨立學習對象,代表大腦有多個同對象的表征。
「投影框架」:
大腦使用稱為投影框架的方法確定物體的空間位置,意謂我們不僅學習物體本身,還要學習物體與其他物體的相對位置。
「結合模型」:
雖然皮層每部分都有獨立模型,但高層次整合或結合,形成完整的認知模型。
▲「千腦理論」是 Numenta 試圖解釋大腦皮層工作原理的神經科學理論,核心觀點在大腦皮層每小部分都獨立學習對象模型,這些模型最終會合并,形成整體認知。 既然 Numenta 開宗明義要「模仿人類大腦」,那像大腦與生俱來的「稀疏性(Sparsity)計算」,與避免神經網絡學習新任務或新數據時,可能會完全或部分忘記以前學到的信息或技能的「災難性遺忘」(Catastrophic Forgetting)造成連續學習(連續學習多任務, 而不是從頭開始)于傳統神經網絡的瓶頸,自然也是 Numenta 努力的重點。 ▲ Jeff Hawkins 兩本著作構成 Numenta 公司的技術思路基礎,闡述「千腦理論」的后者還曾被被微軟創辦人比爾蓋茨列為 2021 年底圣誕閱讀清單。 但你或許會疑惑:難道 Numenta 真要打造「與大腦同樣原理」的芯片?當然不是,且任何芯片都不做。Numenta 的訴求很簡單:普及的泛用服務器處理器(通指英特爾 Xeon)就可靠 AVX-512 指令集和內建「AI 的下一大步」AMX(Advanced Matrix Extensions)矩陣加速器,跑出優異的推論效能,更不需高階運算 GPU。這很可能讓人覺得 Numenta 的「格局」和這么多年于 Hot Chips 猛沖「人工智能」的眾多廠商,高下立判。 ▲ 英特爾AMX發布超過三年,但到今年第一季第四代Xeon-SP處理器Sapphire Rapids才讓人一親芳澤。就讓我們看看 Numenta 如何發揮 AMX 對人工智能的潛能。 歷經 20 年深入研究神經網絡,不久前 9 月 11 日,Numenta 終于宣布推出商業化人工智能產品:Numenta 智能運算平臺(NuPIC,Numenta Platform for Intelligent Computing),為 HTM 算法的實際商品,對應 C++、Python、Java 及 Clojure(Java 平臺 Lisp)等程式語言版。 現在就讓我們好好瞧瞧今年 Hot Chips,Numenta 怎樣使用普遍部署的 CPU 解決人工智能推理問題,如何活用 AVX-512 和 AMX,一睹足以讓英特爾自豪的成果。5GX5jWS8lpHVCZGUcuy9yR8tG49jquvrW9xgRIHDbPXzw/640?wx_fmt=jpeg" data-w="1000" data-index="6" src="http://www.xebio.com.cn/uploadfile/2023/1018/20231018113711989.jpg" _width="100%" crossorigin="anonymous" alt="圖片" data-fail="0" style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box; overflow-wrap: break-word !important; vertical-align: middle; height: auto !important; width: 677px;"/>
▲ Numenta 的目標:受神經科學啟發,將更多大腦運作方式用于人工智能。畢竟人腦功率約 20W,卻能超越功耗超出幾個量級的電腦。與為了密集計算(嘗試計算每種排列組合)而生的近代電腦,人腦是為大量稀疏計算(僅計算最相關和最有影響力組合)而設計。
▲ 神經元看起來很復雜,卻讓生物大腦在極度稀疏狀態運作。Numenta 將 HTM 算法應用到新型 CPU,可將運算變得超稀疏,消除 90% 權重同時,提供相似的精確度。
▲ 使用 GPU 推論的技術限制:現今 GPU 專為超高密度矩陣乘法運算量身訂做,須持續填充數據才能維持高效處理,且缺乏彈性,混合 CPU 和 GPU 的「兩塊內存」基礎架構也造成額外麻煩和挑戰。
▲ Numenta 利用 AVX-512 指令集、AMX 和英特爾數學核心函式庫(MKL,Math Kernel Library),達成約 90% 稀疏率。
▲ 英特爾延宕多次的第四代Xeon-SP處理器 Sapphire Rapids 首次引進AMX(Advanced Matrix Extensions),正如其名,旨在高效矩陣運算,特色在2D結構的數據寄存器Tile和每個時鐘周期可同時進行1,024個BF16格式數據計算的TMUL(Tile Matrix Multiply)執行單元,同時支持 FP32、FP16 和 INT8。后繼第六代 Granite Rapids 將新增 AMX-COMPLEX 半精度浮點復數。這次 Numenta 將對世人展示真正威力。
▲ Numenta 同步使用AVX-512和AMX,如AMX輸出FP32運算結果,用AVX-512轉換成BF16,再回饋給AMX下一步計算,充分掩蓋AMX載入Tile的延遲,盡量保持運作單元滿載,達成最大計算量。
▲ Numenta 充分運用AVX-512和AMX加持下,56核心的英特爾第四代Xeon-SP處理器,BERT(Bidirectional Encoder Representations from Transformers)模型推論效能達19倍、32核心第四代Xeon-SP Ice Lake的62倍和48核心AMD第三代EPYC Milan的123 倍。
▲ 結合 Numenta 的 HTM 算法和英特爾 AMX,第四代 Xeon-SP 有 Nvidia A100 十倍的推論輸出率。
▲ 相同計算成本,Numenta 有明顯較高精確度。Numenta 目標在通過改變模型計算需求,調整實現準確性成本曲線。
▲ Numenta 不但證明英特爾 AMX 可明顯提升大型語言模型(LLM,Large Language Model)效率,更可怕的是,假若換裝成內建 64GB HBM2e 的 Xeon Max,還可再提高到「三倍」輸出率。
▲ 最后,Numenta 強調「整個 NuPIC 可以只用 CPU 跑」(NuPIC can run entirely on CPUs),這還真是 Numenta 和英特爾的共同勝利。 自從英特爾 2020 年 6 月發布 AMX 后,大概因一再延期與坊間極度陌生的刻板印象,加上拜 OpenAI 之賜的 Nvidia「皮衣教主」熱潮,少人關注這技術的實際潛力,但「20 年磨一劍」的 Numenta,卻讓世人在 Hot Chips 首次見識到真正威力──況且這兩家公司很明顯合作密切,否則近年「核戰」一直處于上風的 AMD 就不會當沙包猛打了──即使拖出沒有AVX-512的AMD第三代EPYC Milan有點勝之不武。 ▲ 看來 Xeon Max 的 64GB HBM2e 的確有不錯效果,尤其對很吃帶寬的大型語言模型(LLM,Large Language Model)特別有效。 人工智能用戶用英特爾 Xeon 處理器執行近似人類大腦推論的 Numenta,最大貢獻在「連常規服務器也可跑很快」,不必癡癡等待缺貨的 Nvidia、尚未完備的 AMD MI300 與剛起步的英特爾 Gaudi 2 加速器。但話說回來,AMD 會不會全面性兼容AVX-512 后,也將實裝AMX 納入之后產品計劃,頗值得觀察。