被騰訊看中的人工智能芯片--DTU 1.0 亮相Hot Chips
2021-08-31 12:46:30 EETOP中國的頂級超級計算機--包括神威太湖之光或強大的天河 2A--都采用了本土技術,從芯片到互連。而中國的社交媒體巨頭,包括阿里巴巴和百度,已經在生產使用自研芯片的的設備,用于大規模的人工智能訓練和推理。
作為BAT 之一的騰訊目前還沒有推出自己的芯片。但值得注意的是,騰訊對總部位于上海的燧原科技進行了大量投資。
該公司很快將發布其第一代AI訓練設備--DTU 1.0,該設備自2018年以來一直在開發中。在過去三年里,燧原科技已經籌集了近5億美元的資金,由騰訊領頭。
最新信息是從天眼查app獲悉,8月20日燧原智能科技(深圳)有限公司成立,業務范圍包括集成電路芯片設計等服務。由上海燧原科技有限公司全資持股。
我們真正想關心的問題是,對于大規模訓練來說,這個芯片能做什么,而GPU卻做不到。答案可能很簡單,對于燧原科技最熱情的支持者騰訊來說,這可能是一項中國本土技術。騰訊需要效仿其百度、阿里等國內同行,打造出(或通過收購)自己的國產人工智能硬件。
本周,我們終于在Hot Chips上看到了燧原科技基于12納米FinFET工藝的訓練SOC。下面這個圖顯示了 32 個"人工智能計算核心 ",它們被分成四個集群。同時,還有另外四十個主機處理模塊沿著燧原科技自己的四個互連信道推送數據。每個設備有兩個 HBM2 模塊,帶寬為 512GB/秒。
可以看出,燧原科技SoC的人工智能部分與我們以前從英偉達看到的TensorCore概念有很多共同之處,現在正被添加到其他幾個CPU的設計中。燧原科技表示,它們的器件可以在 FP32 下達到 20teraflops。該器件還支持 FP16 和 Bfloat(均達到 80 teraflops 的峰值),并且可以支持具有 Int-32、18 和 8 位數據類型的混合精度工作負載。其中每一個都基于一個 256 張量的計算內核。
下面是張量單元的詳細介紹:
這家初創公司提供了一款名為云隧CloudBlazer的 PCIe Gen4 加速卡,根據配置的不同,功耗在 225W 到 300W 之間,其中功耗最大的是基于開放計算項目的 OAM(開放加速模型)設計的CloudBlazer T21。除了僅限 PCIe 的設備外,燧原科技還對系統進行了封裝打包,從單個節點到機架,再到具有 2D 環面互連的“pod”。
燧原科技分享了各種配置的擴展結果,顯示單卡在擴展到 160 張卡時達到 81.6%,在打包到一個節點時達到 87.8%。這與我們在 GPU 可擴展性方面所看到的大致相當,盡管它不是一個條件對等的比較。
EETOP獲悉,這家初創公司的創始人有著深厚的技術背景。該公司的首席執行官兼聯合創始人趙立東在舊金山灣區工作了 20 年,一直從事 GPU 的研發和產品工作,不過他并不在英偉達工作。在幫助 AMD 在中國建立研發中心之前,他有七年的時間在 AMD 為其 CPU/APU 部門研發產品。在此之前,他負責開發網絡安全設備,還曾在 S3 Inc. 從事 GPU 開發工作。另一位聯合創始人、同時也是燧原科技的首席運營官張亞林曾是趙立東在 AMD 工作時的同事,他在AMD擔任過高級芯片經理和全球器件研發技術經理,同時也從事 AMD 早期 GPU 的工作。