99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

揭秘NVIDIA加速AI推理的密碼,1臺(tái)T4服務(wù)器完勝200臺(tái)CPU服務(wù)器

2019-07-15 09:30:39 智東西
點(diǎn)擊關(guān)注->創(chuàng)芯網(wǎng)公眾號(hào),后臺(tái)告知EETOP論壇用戶名,獎(jiǎng)勵(lì)200信元


每天,數(shù)以萬(wàn)計(jì)的語(yǔ)音助手、翻譯、推薦、視頻管理、自動(dòng)駕駛等各類新興服務(wù),都在以超快速度完成深度學(xué)習(xí)推理。

用戶會(huì)看重AI產(chǎn)品的實(shí)時(shí)性、高準(zhǔn)確度,而對(duì)于開(kāi)發(fā)者來(lái)說(shuō),要考慮到的因素更多,不僅要滿足最終用戶的需求,還要考慮成本、能效等因素,因而,能滿足可編程性、低延遲、高準(zhǔn)確度、高吞吐量、易部署的成套AI推理軟硬件組合成為開(kāi)發(fā)者的心頭好。
 

而配備NVIDIA TensorRT超大規(guī)模推理平臺(tái)的GPU可以說(shuō)是學(xué)術(shù)界和產(chǎn)業(yè)界最受歡迎的AI推理組合之一,它們可以帶來(lái)速度、準(zhǔn)確度和快速響應(yīng)能力的成倍提升。
 

去年NVIDIA最新發(fā)布的Tesla T4 GPU,因其專為推理而生的超高效率、超低功耗,能為開(kāi)發(fā)者節(jié)省大筆預(yù)算,已成為業(yè)界首選AI推理神器。
 

本期的智能內(nèi)參,我們對(duì)《NVIDIA AI推理平臺(tái)》白皮書進(jìn)行解讀,看NVIDIA超大規(guī)模推理平臺(tái)如何協(xié)同頂尖AI推理加速器Tesla T4 GPU,為深度學(xué)習(xí)推理帶來(lái)吞吐量、速度等性能的倍增,并降低數(shù)據(jù)中心運(yùn)營(yíng)商的開(kāi)發(fā)成本。如果想查閱此白皮書《NVIDIA AI 推理平臺(tái)》,可直接點(diǎn)擊http://nvidia.zhidx.com/content-9-1114-1.html下載。
 

 

NVIDIA GPU推理的應(yīng)用價(jià)值
 

NVIDIA AI推理平臺(tái)就像一個(gè)隱形的推理助手,正通過(guò)互聯(lián)網(wǎng)巨頭的超大規(guī)模數(shù)據(jù)中心,為人們帶來(lái)各種新鮮且高效的AI體驗(yàn)。
 

 

相比傳統(tǒng)的CPU服務(wù)器,GPU產(chǎn)品推理組合不僅能提升推理性能,還能更節(jié)省成本。
 

比如京東的視頻審核就使用NVIDIA AI平臺(tái),將服務(wù)器數(shù)量減少了83%。
 

每天由第三方商家上傳到京東POP平臺(tái)的視頻數(shù)據(jù)不計(jì)其數(shù),京東必須確保上傳的信息安全無(wú)害。
 

以前,要審核1000路的視頻流,京東必須在云端部署1000枚CPU,而使用NVIDIA AI推理平臺(tái)后,吞吐量提升20倍,速度比CPU快40倍,1臺(tái)配備4個(gè)Tesla P40的服務(wù)器能代替超過(guò)約50臺(tái)CPU服務(wù)器。
 

 

T4作為NVIDIA專為加速AI推理打造的GPU,在推理性能和能效比上一代產(chǎn)品P4 更勝一籌。
 

如圖,左邊是200臺(tái)占用四個(gè)機(jī)架的CPU服務(wù)器,支持語(yǔ)音、NLP和視頻應(yīng)用,功耗達(dá)60千瓦。而相同的吞吐量和功能,一臺(tái)搭載16塊T4 GPU的服務(wù)器就足矣,不僅如此,這臺(tái)服務(wù)器還將功耗降為原來(lái)的1/30。
 

 
 

基于Turing架構(gòu)的Tesla T4 GPU
 

NVIDIA Tesla T4 GPU是全球頂尖的通用加速器,適用于所有AI推理工作負(fù)載,不僅有小巧的外形規(guī)格和僅70瓦的超低功耗,而且效率比前一代Tesla P4超出兩倍以上。
 

 

它采用的Turing架構(gòu),除了繼承Volta架構(gòu)為CUDA平臺(tái)引入的增強(qiáng)功能外,還新增獨(dú)立線程調(diào)度、統(tǒng)一內(nèi)存尋址等許多適合推理的特性。
 

Turing GPU能提供比歷代GPU更出色的推理性能、通用性和高效率,這主要?dú)w功于如下幾個(gè)創(chuàng)新特性:
 

1、新型流式多元處理器(SM)
 

新型SM具有Turing Tensor核心,基于Volta GV100架構(gòu)上經(jīng)過(guò)重大改進(jìn)的SM而構(gòu)建。
 

它能像Volta Tensor核心一樣,可提供FP16和FP32混合精度矩陣數(shù)學(xué),還新增了INT8和INT4精度模式。
 

通過(guò)實(shí)現(xiàn)線程間細(xì)粒度同步與合作等功能,Turing SM使得GPU的性能和能效均遠(yuǎn)高于上一代Pascal GPU,同時(shí)簡(jiǎn)化了編程。
 

2、包含實(shí)驗(yàn)特性,首用GDDR6
 

Turing是首款采用GDDR6顯存的GPU架構(gòu),最高可提供320GB/s的顯存帶寬,其存儲(chǔ)器接口電路也經(jīng)過(guò)全面重新設(shè)計(jì)。
 

相比此前Pascal GPU使用的GDDR5X。Turing的GDDR6將速度提升40%,能效提升20%。
 

3、專用硬件轉(zhuǎn)碼引擎
 

視頻解碼正呈現(xiàn)爆炸式增長(zhǎng),在內(nèi)容推薦、廣告植入分析、無(wú)人車感知等領(lǐng)域都獲得大規(guī)模應(yīng)用。
 

T4憑借專業(yè)的硬件轉(zhuǎn)碼引擎,將解碼能力提升至上代GPU的兩倍,可以解碼多達(dá)38路全高清視頻流,而且能在不損失視頻畫質(zhì)的前提下實(shí)現(xiàn)快速編碼或最低比特率編碼。
 

 

超大規(guī)模推理平臺(tái)TensorRT
 

僅有強(qiáng)大硬件還不夠,要搭配高適配度的軟件工具,才能最大化硬件算力的利用率,為開(kāi)發(fā)者帶來(lái)更完整和優(yōu)化的開(kāi)發(fā)體驗(yàn)。
 

NVIDIA加速推理的優(yōu)勢(shì)也正是在軟硬件的結(jié)合上凸顯出來(lái),既有專為深度學(xué)習(xí)定制的處理器,又具備軟件可編程特質(zhì),還能加速TensorFlow、PyTorch、MXNet等各種主流深度學(xué)習(xí)框架,為全球開(kāi)發(fā)者生態(tài)系統(tǒng)提供支持。
 

面向深度學(xué)習(xí)推理,NVIDIA提供了一套完整的推理套餐——TensorRT超大規(guī)模推理平臺(tái)。
 

TensorRT包含T4推理加速器、TensorRT5高性能深度學(xué)習(xí)推理優(yōu)化器和運(yùn)行時(shí)、TensorRT推理服務(wù)三部分,支持深度學(xué)習(xí)推理應(yīng)用程序的快速部署。
 

其中,TensorRT5將能夠優(yōu)化并精確校準(zhǔn)低精度網(wǎng)絡(luò)模型的準(zhǔn)確度,最終將模型部署到超大規(guī)模數(shù)據(jù)中心、嵌入式或汽車產(chǎn)品平臺(tái)。
 

TensorRT推理服務(wù)是NVIDIA GPU Cloud免費(fèi)提供的即用型容器,能提高GPU利用率,降低成本,還能簡(jiǎn)化向GPU加速推理框架的轉(zhuǎn)換過(guò)程,更加節(jié)省時(shí)間。
 

配備TensorRT的GPU,推理性能最高可達(dá)CPU的50倍。
 

這得益于TensorRT對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的重構(gòu)與優(yōu)化。在精度方面,TensorRT提供INT8和FP16優(yōu)化,通過(guò)降精度推理,在顯著減少應(yīng)用程序的同時(shí)保持高準(zhǔn)確度,滿足許多實(shí)時(shí)服務(wù)的需求。
 

 

另外,TensorRT還通過(guò)融合內(nèi)核的節(jié)點(diǎn),優(yōu)化GPU顯存和帶寬的使用,并以更大限度減少顯存占用,以高效方式重復(fù)利用張量?jī)?nèi)存。
 

TensorRT和TensorFlow現(xiàn)已緊密集成,Matlab也已通過(guò)GPU編碼器實(shí)現(xiàn)與TensorRT的集成,能協(xié)助工程師和科學(xué)家在使用MATLAB時(shí)為Jetson、NVIDIA DRIVE和Tesla平臺(tái)自動(dòng)生成高性能推理引擎。
 

TensorRT和Turing架構(gòu)兩相結(jié)合,能提供高達(dá)CPU服務(wù)器45倍的吞吐量。
 

智東西認(rèn)為,深度學(xué)習(xí)推理需要強(qiáng)大的計(jì)算平臺(tái),來(lái)滿足云端與終端日益增長(zhǎng)的AI處理需求。而一款強(qiáng)大的計(jì)算平臺(tái)不僅需要強(qiáng)大的芯片,還需要完整的生態(tài)系統(tǒng)。
 

通過(guò)軟硬件協(xié)同作用,NVIDIA TensorRT能在帶來(lái)高吞吐量和高能效的同時(shí),實(shí)現(xiàn)推理神經(jīng)網(wǎng)絡(luò)的快速優(yōu)化、驗(yàn)證和部署,既能降低開(kāi)發(fā)門檻,又能節(jié)省服務(wù)器成本,使得工程師和科學(xué)家更好地專注于深度學(xué)習(xí)研究,推動(dòng)各行業(yè)智能化升級(jí)。


免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),轉(zhuǎn)載目的在于傳遞更多信息,并不代表EETOP贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們,我們將在第一時(shí)間刪除!



 

關(guān)鍵詞: NVIDIA AI

  • EETOP 官方微信

  • 創(chuàng)芯大講堂 在線教育

  • 半導(dǎo)體創(chuàng)芯網(wǎng) 快訊

全部評(píng)論

主站蜘蛛池模板: 伊人精品影院| 玖玖草在线观看| 国产a三级三级三级| 成人国产在线看不卡| 微拍 福利 视频 国产| 久久精品视频3| 成年男女男精品免费视频网站| 国产精品99久久免费观看| 国产精品国色综合久久| 亚洲 日本 欧美 中文幕| 久久毛片免费| 亚洲逼院| 欧美一级做a影片爱橙影院| 国产精品高清视亚洲一区二区| 国产精品日日摸夜夜添夜夜添1| 手机看片在线播放| aaaaaa级特色特黄的毛片| 分享一个无毒不卡免费国产| 欧美日韩在线观看一区| 国产精品久久国产精品99| 精品国产一区二区三区四区色| 久草色香蕉| 日韩一区精品| 1024视频色版在线网站| 久久国产精品夜色| 久草视频2| 中文一级黄色片| 色综合久久综合中文小说| 国产一级精品高清一级毛片| 特黄a级毛片| 不卡视频在线观看| 成人合成mv福利视频网站| 99久久精品免费看国产免费| 国产在线麻豆精品观看| 欧美亚洲专区| 亚洲成人自拍| 日韩欧美第一页| 麻豆传媒地址| 欧美岛国| 日本福利片| 午夜视频你懂的|