99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

從優化案例看第四代英特爾至強處理器的表現

2023-04-21 11:21:57 EETOP原創
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元

今年1月,英特爾正式推出其面向數據中心的第四代英特爾至強可擴展處理器(代號 Sapphire Rapids)。近日,英特爾市場營銷集團副總裁,中國區數據中心銷售總經理兼中國區運營商銷售總經理莊秉翰在媒體技術交流會上介紹說:“第四代至強可擴展處理器產品在全世界已經有超過400款不同設計已經開發完成,200余款已經出貨,包括前十大云服務提供商也將在今年全年部署基于該款產品的云實例。”


 

 Sapphire Rapids的成功,離不開其技術迭代及創新應用帶來的大服務性能提升,其中內置加速器便是其中最閃耀的亮點在今年1月正式推出 Sapphire Rapids時,英特爾公布了這七大加速器“神器”,即加速深度學習實時推理和訓練性能提升的AMX加速器,加速處理網絡數據系統性能提升的DLB加速器,加速在存儲、網絡工作負載中常見的流數據移動的DSA加速器,加速在數據分析工作負載中優化內存占用和查詢吞吐量的IAA加速器,加速網絡吞吐量以及壓縮解壓縮功能的QAT加速器,加速平臺安全性能的安全技術策略組合,以及提供高帶寬內存的至強CPU Max系列。

 

其實不止7款加速器。莊秉翰興奮的分享說:“在今年2月我們又有了更新,那就是推出了集成vRAN Boost的第四代英特爾至強可擴展處理器該全新通用芯片將物理層加速功能完全集成到至強系統芯片SoC)中,無需外置加速卡。vRAN Boost使得運營商能夠在通用虛擬化平臺上整合所有基站層。未來,對這種虛擬基站,以通用的處理器來實現基站功能,vRAN Boost可以帶來很大性價比的提升,是又一神器。

 

為什么選擇內置加速器

 

CPU的發展,一直都是朝著核心越變越多,主頻越變越高的方向發展那為什么英特爾要選擇內置加速器的解決方案呢?英特爾技術專家為我們解惑說,在大數據時代,在數據中心的具體應用中,出現了一些特殊的需求,如壓縮/解壓縮、加/解密,以及內存搬移等方面的工作對于這些工作負載來說,其實增加CPU核心并不一定是高效的,但是如果能夠為其提供一個專有的加速器的話,反而會很高效。以前如果要處理一個工作負載,可能要堆好幾個核,如果在新的第四代至強可擴展處理器平臺上,通過加速器,有可能只用一個核,或是部分核就可以處理很復雜的業務。這也是英特爾在其第四代至強處理器中不遺余力推出7大加速神器的原因。當然,除此之外,英特爾技術專家介紹,加速器還可以帶來一個好處,也就時節能降耗。通過增加加速器,實際上可以提升每瓦性能,也就是提升能效比。從英特爾的角度來說,可以通過CPU核心和加速器結合,共同實現CPU性能的提升。

 

CPU中增加加速器的方法有內置和外置兩種,外置加速器也就是PCIe卡形態。相比于外置的PCIe,內置加速器則會給CPU設計帶來更大的挑戰。 Sapphire Rapids采用的就是內置加速器。英特爾技術專家分享道,雖然增加了CPU的設計難處,但是內置帶來的好處還是很多的。比如可以節約功耗,因為PCIe卡的功耗還是很高的;而當需要走PCIe設備時,如果是外置加速器,帶寬會導致CPU變得很慢,而內置加速器,它離內存更近,速度更快,可以帶來大幅的性能提升。這也是英特爾選擇內置加速器的關鍵因素之一。

 

那如何解決內置加速器給CPU帶來的設計挑戰。這就要說到第四代至強的又一項全新亮點了,也就是它是英特爾首款基于Chiplet(芯粒技術)設計的處理器,能夠在一個封裝上集成多達4個小芯片單元,并通過EMIB封裝技術相連接。英特爾的技術專家表示:IO die未來的趨勢是和Core die去做分解,來應對這種設計挑戰。

 

不過,英特爾的加速器并不是改變算法,而是加速算法的計算。英特爾技術專家分享說:算法和計算能力,有的時候是相輔相成的,我們算得更快,客戶就有動力去設計新的算法。還有可能是以前算不過來的算法,現在有了新的硬件以后就可以算得過來。

 

下面,我們跟著英特爾技術專家,來重點看看英特爾的幾個加速神器是如何工作的,以及又有哪些成功的優化案例吧。

 

AMXIAADSA三大加速神器

 

AMX高級矩陣擴展加速器

 

AMX是創新性的第一次在CPU平臺上應用到的用于矩陣運算的單元。AMX中,引入了硬件矩陣的積存器叫Tiles同時為了配合這些硬件的寄存器,又加入了一些運算的單元,以實現每一個CPU指令都可以進行矩陣運算。從CPU的角度出發,AMX可以有效提升算力,同時CPU還有一個特點,它可以支持很大的內存,比起例如目前普遍的超過8G就要拆的設備來說,難度降低了很多。AI方面,與前一代相比AMXPyTorch實時推理和訓練性能提升了10倍。

 image.png

回溯以往IntelCPU第三代至強可擴展處理器有兩個系列分別是Cooper LakeIce Lake支持INT8VNNI指令集在Cooper LakeIce Lake上都支持BF16的數據精度只在Cooper Lake處理器上支持。到了第四代至強可擴展處理器,除了全部支持前代所有的指令外,新增加的AMX計算單元支持兩種數據精度,一種是8bit的整形數據,另外一種是16bit的浮點數據,稱之為BF16。它和普通的16bit的浮點稍有區別。

 

英特爾技術專家進一步解釋說,人工智能運算領域,對數據精度的選擇往往是有一定要求的。如果需要高精度就需要數據位寬比較多的,像FP32FP16這樣的數據來運算;如果要求運算速度更快,可能會選擇數據寬度更小的,比如INT8這種數據精度。通常來說,在人工智能的場景當中,一般有兩種場景,訓練和推理。訓練是根據數據不斷迭代出一個模型來;推理則是基于訓練模型,針對新來的場景做出判斷。通常在訓練的時候,希望這個模型的數據精度能得到保證,那就要用BF16以上的數據精度來進行運算對于推理來說,因為運算量相對比較小,通常INT8就可以滿足要求。

 

英特爾技術專家以最近比較火的AIGC為例,進一步闡述Sapphire Rapids在提升AI性能方面的優異表現。事實上,AIGC成為熱點的背后是Stable Diffusion,它正在驅動很多客戶進行業務創新,以及模型創新,即深度學習模型。其中典型的兩個應用場景,一個是輸入文本生成高清圖片,另外一個是輸入圖片和一些提示詞生成另外一個圖片。這一類生成模型,不管是Stable Diffusion是現在更火的大語言模型,從技術角度來說,里面大量使用了注意力機制這個注意力機制在Stable Diffusion里面的占比是比較高的,一般可以從50%-80%

 

這個注意力機制主要包括了矩陣相乘的運算,還有大量的指數運算。英特爾Sapphire Rapids產品AMX BF16可以用來加速矩陣計算,AVX-512指令可以用來加速指數計算。英特爾技術專家介紹說:使用了英特爾PyTorch擴展插件的情況下,可以在512×512這種圖生成上,獲得3.82倍的吞吐提升,在720P上可以獲得5.26倍的吞吐提升。

 

不過,AMX是一個指令集擴展,最終執行還是在CPU核心上。為此英特爾增加了AIA架構,并且增加了新的指令對加速器進行支持。他們在增加加速器的時候,其實在整個棧做了許多工作,包括怎么和CPU協作。下面,我們來看一些優化案例,從中也可以看到AMX的實力如何。

 

AMX案例1阿里地址標準化

這個業務在淘寶應用相當廣泛的,每天有著千萬級的服務。這個業務的關鍵性能指標單位時間內能夠查詢到的數量(越多越好)。以這個需求為導向,英特爾與阿里展開合作,基于第四代英特爾至強可擴展處理器AMX單元用到了AMX INT8數據類型的精度,同時也輔助一些其它的軟件優化手段,如軟件運算時層級融合技術,以及英特爾開發的高性能運算優化庫等,最終相比基于第三代Ice Lake的整機,提升到原來的2.48

 

AMX案例2阿里手機淘寶APP首頁搜索業務

這個業務可為每一個客戶提供推薦的定制化首頁服務量相比案例1更多,每天服務請求數高達億次。這個業務用到了AMXBF16數據類型的精度,同時也做了一些軟件方面的優化,包括操作的融合,還有在AVX-512深入的調優,最終性能達到了原來的3倍。

 

AMX案例3:騰訊太極機器學習平臺支撐的搜索服務

騰訊太極機器學習平臺支撐的搜索服務不僅要求搜索次數越多越好,而且對搜索的延時要小于5毫秒。這個業務是部署在騰訊云上的,上兩個應用實例都是部署在整機的物理機上。通常,云服務實例有兩種一種是高精度實例;另一種是低精度實例高精度實例采用BF16進行數據處理,低精度實例選擇INT8的數據進行處理。經過第四代英特爾至強可擴展處理器優化后,包括一些軟件的優化不僅降低了云服務實例的CPU數量,同時性能上也得到很大提升,高精實例性能是原來的3倍,低精實例性能是原來的2倍。


AMX案例4獨立軟件服務商

在這個領域,英特爾第一個優化案例是跟亞信做的一個針對電信智能營業廳方案的通用OCR方案優化這個營業廳主要是用于電信客戶在晚上提交他的身份證件或者是工商營業執照進行識別。電信這個業務每年的服務量還是很大的,它每年提供2000萬次服務。最初的合作,是直接把電信的業務遷移到英特爾第四代至強可擴展處理器,并做了一些優化,如引入AMX進行軟硬件方面的優化性能達到了3.94倍的提升。后來,為了幫助客戶進行業務的遷移英特爾第三代至強可擴展處理器遷移到第四代至強可擴展處理器這種代和代的遷移,也帶來了性能上的提升,達到原來的3.38

 

此外,英特爾還和用友合作,在ERPOCR模塊上完成第四代至強可擴展處理器的遷移,同時使用AMX加速單元進行調優,結合INT8BF16兩種數據精度,最終性能有2.83倍的提升,達到了原來的3.83倍。金蝶的合作,也是ERP應用領域,主要是針對辦公領域的發票、文檔、票據上面文字方面識別。不同與和用友的合作,這次進行了兩步優化,首先由第三代遷移到第四代至強可擴展處理器沒有使用AMX單元,而是用它自帶的AVX-512單元,性能也能帶來1.65倍的提升。由于金蝶OCR掃描精度要求很高同時希望速度更快,文本識別的精度、出錯更少,于是英特爾進行了二次優化,用到BF16數據精度最終性能達到了原來的4.58

 

IAA存內分析加速器

 

IAAIn-Memory Analytics Accelerator英特爾在第四代至強上內置的存內分析加速可提高分析性能,能同時把任務從CPU 內核卸載,以加速數據庫查詢吞吐量和其它工作負載這個加速器是針對大數據、內存分析類型的數據庫這些數據場景。如大數據典型場景就是需要對數據進行壓縮,而在使用數據時,可能需要解壓查詢過濾等。這些工作都可以交由IAA加速器完成好處是可以釋放CPU的計算資源同時也可以整個計算的最大性能,有效提升每瓦性能,提升能效比。

 

IAA加速器的軟件棧中,最下層是IAA硬件,再往上就是用于支持數據中心的軟件,對于主流的OS操作系統IAA都支持。如Linux操作系統,或客戶定制化的OS,包括微軟的OS云計算當中的K8S。對于虛擬化的產品,如KVMHyper-VIAA加速器也提供技術支持。此外,英特爾還提供了一個比較簡單高效的用戶態庫QPL。通過這個庫,就可以操作IAA的硬件

 

IAA案例Clickhouse

Clickhouse是專做大數據分析的數據庫。通過對Clickhouse進行深度分析,英特爾發現它存在一個痛點,即當對數據進行壓縮/解壓縮,會帶來性能損失,或者說壓縮/解壓縮占用了CPU的資源,導致CPU不夠快。基于此,英特爾考慮到用IAA的壓縮/解壓縮功能去加速Clickhouse這部分功能。具體操作上,其實就是Clickhouse里面加了一個支持IAA -Deflate插件。對于Clickhouse原生的支持,像L2WZSTD的算法,英特爾增加了第三個插件,就是IAA-Deflate它是IAA支持的壓縮算法。

 

我們來看優化前后的數據對比。對比的基線Clickhouse里使用的比較廣泛的LZ4算法。它是軟件,優化采用了IAA-Deflate。針對不同查詢,IAA都會有提升其中Q4.1提升了40%帶來性能提升的同時,壓縮提升42%,從而大大節省了磁盤帶寬、內存的成本使用

 

DSA數據流加速器

DSA全稱是Data Streaming Accelerator,它主要是針對內存的搬移和傳輸的操作進行加速,可提高存儲、網絡和數據密集型工作負載的性能,讓數據密集型工作負載操作性能提升1.7倍。通常,一顆DSA可以支持30GB/s雙向的帶寬如果一個CPU里面有四顆的話,就可以支持120GB/s。除此之外,利用DSA加速器,在處理大的數據報文的時候,可以達到1.6倍的性能提升以及37%的延時降低。因此,特別對于內存有需求的一些應用,DSA是一個很好的加速器。目前,業界比較廣泛應用的DPDKSPDK,以及包括英特爾自己的軟件庫叫DML都已經集成了DSA

 

DSA案例:體育賽事直播或直播轉播

通常電視臺或者媒體去做體育賽事轉播的時候,是通過端側設備錄視頻,然后利用網絡傳到數據中心數據中心收到數據包(RTP包)之后,后端用戶需要把內容從網絡拷貝到自己的程序去處理,然后才能拿到真正的內容。英特爾把這個流程進行了優化,使用了DSAMedia Transport library(這其實是一個開源項目)。從優化結果來看,當網帶寬是一定的,并且要求同時支持54路的情況下,如果用傳統CPU,就需要6核心;如果用DSA,則只需要兩個核心,從而可以節省66%CPU資源。

 

數據服務類的應用案例

 

除了內置加速神器之外,第四代至強可擴展處理器在很多其他的方面也依然提供了更好的性能提升。數據服務便是其中一個很重要的場景。數據服務類的應用是一個非常大范圍的應用,包括內存數據庫、關系型數據庫、大數據分析應用,還有數據倉庫的應用、AI的應用,以及基于數據服務類應用。除此之外,還有一些企業的關鍵業務系統,比如說ERPSCMCRM系統。它們的性能都非常依賴于底層硬件平臺的支撐。在大數據分析當中一個經常使用的應用是SPARK的應用,如果說我們CPU核性能提升的情況下,內存帶寬往往是瓶頸。

 

第四代至強可擴展處理器英特爾把內存從DDR4升級到DDR5,得到了50%的內存帶寬的提升;同時還PCIe 4.0提升到PCIe 5.0,帶來了兩倍的IO帶寬提升。除了CPU核數提升之外,在CPU單核性能上也做了優化,如提高了CPU的各級緩存的大小。通過這些CPU內核的升級,根據多種應用的平均值,第四代至強可擴展處理器總體上帶來的是15%的單核性能的提升。在應用QAT加速時,對于數據壓縮的應用,可以達到2倍的壓縮吞吐提升。同時把計算資源交給了加速器,可以帶來95%核占用率的降低。

 

案例:國內領先的并行數據庫廠商Gbase

Gbase的旗艦產品是Gbase 8a這是一款性能表現優異的并行數據庫產品,在業內知名且標準的分析型數據庫評測TPC-DS中排名世界第三位。事實上,Gbase 8a只使用了8個節點,因此,如果是單節點性能的話,它可以算是世界第一。

Gbase 8a采用第四代至強可擴展處理器,除了帶來的常規性能提升之外,還專門針對IAA加速器進行了優化。Gbase 8a主要是基于兩種不同的加速算法,一是南大通用自研的壓縮算法RapidZGbase 8a默認壓縮算法,在沒有任何加速器優化的情況下,可以獲得1.58倍的性能提升;另一種業內比較常用的壓縮算法ZSTD,在沒有進行加速器優化的情況下,可獲得1.64倍的性能提升。在此基礎上,如果使用IAA加速器,對于RapidZ,可獲得1.66性能提升同時,RapidZ為了追求高性能,在壓縮率上做了一些犧牲,而基于第四代至強可擴展處理器,可以在保持較高性能提升的基礎上,壓縮率提高1.51倍。對于ZSTD來說,則可獲得1.84倍的性能提升,并且可以達到與ZSTD相似的壓縮率。

 

案例:國產開源數據庫PingCAPTiDB

對于PingCAPTiDB來說,即便沒有使用英特爾的加速器優化,在兩個場景,一個是Sysbenchread-only的場景里有1.62倍的性能提升,而對于read-write的場景來說,它的性能提升是1.43read-write場景性能提升的難度非常大,因為它需要寫盤,而寫盤的時候,其性能會受限于IO延遲的制約。

 

英特爾第四代至強可擴展處理器TiDB進行性能優化,而提升來源,主要是英特爾的加速器,以及更多的核、更大的內存帶寬以及單核性能的提升。如在第四代至強可擴展處理器上有一個叫Sub-NUMA Clustering(子NUMA 群集,SNC),它可以針對一些應用,將處理器的內核、緩存和內存劃分到多個NUMA域中。因為CPU的核數越來越多,但是對很多應用來說,在一個CPU上很難把所有的核用滿TiDB就是這樣的一個典型應用場景,如果它的核數超過了一定范圍,它的性能很難線性增長。這種情況下,通用的解決辦法是多實例部署,實現性能擴展英特爾SNC就是針對多實例部署的場景去做的。其實從上一代至強的SNC 2就是一顆CPU上可以模擬出兩個NUMA節點變成SNC 4對于TiBD數據庫來說,這種方式提供了很大的幫助。

 

結束語

 

莊秉翰介紹說,2017英特爾推出了第一款至強可擴展處理器以來,英特爾已經向全球客戶交付了超過8500萬顆至強可擴展處理器,支持著全世界的數據中心。其中,在過去兩年,第三代英特爾至強可擴展處理器已全球累計出貨1500萬顆。

 

英特爾看來,目前的處理器已經不單單需要傳統基礎算力性能,更需要專屬計算單元,以實現AI深度學習等性能的成倍提升,同時還需要擁有出色的能效和成本。因此,英特爾對其第四代至強可擴展處理器構建了以結果為導向、工作負載至上的策略,及針對特定工作負載高度優化的軟件,為不同工作負載和需求匹配對應的功耗和性能,并實現理想的總體擁有成本。

 

面對日益多元的數字化創新需求,英特爾提出XPU產品戰略,打造涵蓋從云到端的全面產品組合,提供從CPUGPUFPGAIPU等多種異構算力資源,為不同業務和應用場景需求提供定制化算力服務。在這些產品里面,CPU是重中之重,是通用計算重要的基石和基礎莊秉翰表示:未來的CPU目標,除了對傳統的虛機性能進一步提升之外,我們也會基于對這種需要更多核需求的場景,開發有針對性的新的CPU處理器提供。


關鍵詞: 優化 案例 四代

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 在线免费观看网址| 欧美大陆日韩一区二区三区| 久草热视频| 在线免费一级片| 国产xxxxxx久色视频在| 狠狠色丁香久久婷婷综| 99久久综合精品国产| 激情五月婷婷基地| 日韩视频网| 亚洲欧美专区精品久久| 三级成人影院| 曰曰鲁夜夜免费播放视频| 自拍视频网| 欧洲免费极品videos| 国产精品123区| 黄色大片视频| a4yy欧美一区二区三区| 国产亚洲美女精品久久久| 欧美日韩国产在线观看一区二区三区 | 久久青草91免费观看| 午夜高清性色生活片| 1024毛片| 一区二区三区福利视频| 日本xxx护士与黑人| 四色婷婷| 在线日韩| 成人mv高清在线| 免费jizz在线播放视频| 欧美日韩色视频| 国产一级片儿| 国产在线精品二区韩国演艺界| 香焦视频在线观看黄| 麻豆精品传媒成人精品| 91日本| 91视频首页| 国产999在线| 国产成人综合亚洲欧美在线n| 国产呦精品一区二区三区网站| 免费观看欧美一区二区三区| 啪啪综合| 青青草国产97免久久费观看|