99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

震驚!FPGA運算單元可支持高算力浮點

2020-03-05 08:45:46 Achronix
點擊關(guān)注->創(chuàng)芯網(wǎng)公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
隨著機器學(xué)習(xí)(Machine Learning)領(lǐng)域越來越多地使用現(xiàn)場可編程門陣列(FPGA)來進行推理(inference)加速,而傳統(tǒng)FPGA只支持定點運算的瓶頸越發(fā)凸顯。

Achronix為了解決這一大困境,創(chuàng)新地設(shè)計了機器學(xué)習(xí)處理器(MLP)單元,不僅支持浮點的乘加運算,還可以支持對多種定浮點數(shù)格式進行拆分。

MLP全稱Machine Learning Processing單元,是由一組至多32個乘法器的陣列,以及一個加法樹、累加器、還有四舍五入rounding/飽和saturation/歸一化normalize功能塊。同時還包括2個緩存,分別是一個BRAM72k和LRAM2k,用于獨立或結(jié)合乘法器使用。MLP支持定點模式和浮點模式,對應(yīng)下面圖1和圖2。

圖1定點模式下的MLP框圖
圖2浮點模式下的MLP框圖

考慮到運算能耗和準(zhǔn)確度的折衷,目前機器學(xué)習(xí)引擎中最常使用的運算格式是FP16和INT8,而Tensor Flow支持的BF16則是通過降低精度,來獲得更大數(shù)值空間。下面的表1是MLP支持的最大位寬的浮點格式,表2說明了各自的取值范圍。

表1MLP支持的最大位寬的浮點格式
 
表2不同運算格式的取值范圍
 
而且這似乎也成為未來的一種趨勢。目前已經(jīng)有不少研究表明,更小位寬的浮點或整型可以在保證正確率的同時,還可以減少大量的計算量。因此,為了順應(yīng)這一潮流,MLP還支持將大位寬乘法單元拆分成多個小位寬乘法,包括整數(shù)和浮點數(shù)。詳見下表3。

值得注意的是,這里的bfloat16即Brain Float格式,而block float為塊浮點算法,即當(dāng)應(yīng)用Block Float16及更低位寬塊浮點格式時,指數(shù)位寬不變,小數(shù)位縮減到了16bit以內(nèi),因此浮點加法位寬變小,并且不需要使用浮點乘法單元,而是整數(shù)乘法和加法樹即可,MLP的架構(gòu)可以使這些格式下的算力倍增。

表3是Speedster7t系列1500器件所支持的典型格式下的算力對比,可以看到,單片FPGA的浮點算力最高可達到123TOPS。


表3Achronix的Speedster7t系列1500器件支持的典型格式的算力對比
下圖3是MLP中FP24/FP16乘加單元的簡化結(jié)構(gòu)圖,即一個MLP支持FP24/FP16的A*B+C*D,或者A*B,C*D。

圖3MLP中FP24/FP16乘加單元的簡化結(jié)構(gòu)圖

而以下的圖4則是塊浮點乘加單元結(jié)構(gòu)。

圖 4塊浮點乘加單元結(jié)構(gòu)



關(guān)鍵詞: FPGA

  • EETOP 官方微信

  • 創(chuàng)芯大講堂 在線教育

  • 半導(dǎo)體創(chuàng)芯網(wǎng) 快訊

全部評論

主站蜘蛛池模板: 古代级a毛片在线| 久草在线这里只有精品| 国产h在线观看| 热门国产xvideos中文| 国产精品入口麻豆| 鲁丝丝国产一区二区| 亚洲丶国产丶欧美一区二区三区 | 爱爱欧美| 成人免费xxx色视频| 久久r精品| 色妇色综合久久夜夜| 成人性欧美丨区二区三区| 国产v综合v亚洲欧美大片| 制服丝袜第一页在线| 麻豆传媒国产| 操网| 国产亚洲玖玖玖在线观看| 欧美嗯啊| 停停五月天| 亚洲国产精品久久| 亚洲一区二区精品| 97射射| 一级α片| 久久一区| 王色在线观看视频| 日成人网| 午夜国产大片免费观看| 在线观看免费精品国自产| 99久久综合狠狠综合久久aⅴ| 精品精品久久宅男的天堂| 欧美日韩亚洲另类| 午夜一区| 午夜资源在线| 午夜视频吧| 亚洲国产成人综合精品2020| 在线免费观看网站| a级毛片免费在线观看| 一区二区三区四区在线视频| 一级视频黄色| 一 级 黄 色蝶 片| 一级日本大片免费观看视频|