小说阅读器,小说排行榜,完美世界txt下载

技術(shù)架構(gòu)揭秘：英特爾第五代至強可擴(kuò)展處理器

2024-03-23 20:39:21 Nancy，EETOP

點擊關(guān)注->創(chuàng)芯網(wǎng)公眾號，后臺告知EETOP論壇用戶名，獎勵200信元

當(dāng)前，AI應(yīng)用非?；鸨?。全球各種不同的調(diào)研結(jié)果都顯示，有58%的企業(yè)在非常近的未來，都會導(dǎo)入如生成式AI到他們的生意模式當(dāng)中。預(yù)計到2026年有超過3000億美金將投入到生成式AI當(dāng)中，這其中包括硬件、軟件、解決方案等。而其中有50%以上的邊緣應(yīng)用也會采用AI技術(shù)。到2028年有80%以上的PC都會轉(zhuǎn)換成AIPC，通過AI可以提升大家在PC上的生產(chǎn)力。還有80%以上的公司，也會在2026年之前會導(dǎo)入某種程度的生成式AI以提高企業(yè)生產(chǎn)力。

云計算時代，工作負(fù)載需要快速運行，底層硬件能力需要充分利用。對于云廠商而言，真正的核心競爭力之一在于實例的性價比。因此，效率的提升至關(guān)重要，其中的關(guān)鍵是效率和效能的提升。而到了AI時代，英特爾市場營銷集團(tuán)副總裁、中國區(qū)數(shù)據(jù)中心銷售總經(jīng)理兼中國區(qū)運營商銷售總經(jīng)理莊秉翰分享說：“我們發(fā)現(xiàn)數(shù)據(jù)中心的耗電量極高，一臺GPU服務(wù)器可達(dá)上萬瓦的功率，如果未來中國建造越來越多的數(shù)據(jù)中心，那么可持續(xù)性便是一大挑戰(zhàn)。其實眼下數(shù)據(jù)中心的成本當(dāng)中，電費占據(jù)了很大一塊。”

在英特爾于去年推出的第五代至強可擴(kuò)展處理器上，就可看到至強產(chǎn)品出來產(chǎn)品性能的持續(xù)迭代更新之外，在節(jié)能省電、降低能耗、提高AI推理能力方面，都有極大的提升。在硬件上，第五代至強升級到Raptor Cove核心，最多擁有64個核，內(nèi)存帶寬高達(dá)5600MT/s，級緩存的容量提升了三倍，并通過AMX、AVX等和AI相關(guān)的新的指令集來提高主頻和性能，可實現(xiàn)芯片內(nèi)部直接進(jìn)行數(shù)據(jù)處理。對比上一代，盡管架構(gòu)上沒有太大改變，都支持AMX和AVX-512，但是因為內(nèi)存IO部分的增強，AI推理能力也得到了增強。第五代相比第四代英特爾至強可擴(kuò)展處理器，推理能力可以提升42%。

微信圖片_20240323204113.png

此外，LLC大小從1.875MB增加到5MB。過去英特爾的LLC基本上在1M-2M。這是英特爾第一次在第五代英特爾至強可擴(kuò)展處理器，把LLC提升到5MB的水平?；贚LC和核數(shù)的提升，包括內(nèi)存帶寬的提升，帶來了其他類型的增強，如NLP以及圖像類AI的增強，同時支持20B參數(shù)以下的大語言模型，延遲可以低于100ms等。在性能能效方面，與第四代至強相比，SPEC integer有21%的提升。在預(yù)取相關(guān)的指令集方面，第五代至強相比第四代至強減少了超過18毫秒以上的內(nèi)存訪問延遲。第五代至強基于Intel 7制程，采用了Dual-poly-pitch SuperFin晶體管技術(shù)。該產(chǎn)品與上一代英特爾至強可擴(kuò)展處理器相比，在核數(shù)和不同的性能指標(biāo)上都有很大提升。

下面，我們來一一揭秘第五代志強處理器是如何實現(xiàn)這些性能指標(biāo)的。

圖片4.png

第五代至強架構(gòu)剖析

芯片布局

第四代至強把芯片分為相對對稱的四個部分，而第五代至強的切分方式則做了調(diào)整，把切四份的做法變成了切兩份。其內(nèi)部是一個7×7的網(wǎng)格，中間是模塊，包括CPU核心、三級緩存等。其中，東西兩邊是DDR接口，上面是PCIe、UPI，還有一些加速單元，中間一共有33個硅片。

其上下兩個芯片是由7個500G全帶寬的通路把上下兩個芯片互連。雖然物理上，它們是兩個分離的芯片，但通過增加兩個交錯互連，可以最大化的增加?xùn)|西向的帶寬的上線，避免出現(xiàn)任何帶寬上的瓶頸?；谶@樣的高帶寬連接，它們就可以實現(xiàn)一個邏輯上無縫連接。SCF是利用英特爾的2.5D封裝技術(shù)，也就是EMIB（嵌入式多芯片互連橋接）來進(jìn)行互連的，可實現(xiàn)芯片之間的高效互連。值得一提的是，第四代至強也采用的是EMIB技術(shù)進(jìn)行互連。

英特爾資深技術(shù)專家介紹說：“這樣的好處是，當(dāng)需要切四份的時候，每兩片之間相互進(jìn)行通信時，需要有一些芯片互連之間的接口，這需要占用額外的芯片面積，同時也有額外的功耗。通過芯片質(zhì)量控制，這種調(diào)整，可以支持在相對比較大的面積下得到很好的良率，并且通過把四片芯片改成兩片芯片的設(shè)計，可以更好的對芯片的面積進(jìn)行控制?！?/span>

三級緩存（LLC）

在英特爾的架構(gòu)當(dāng)中，存儲分為Core和Uncore。所有CPU里的執(zhí)行邏輯，不管是前端、后端，還是L1、L2 緩存，都算在Core的面積里；而LLC部分是算在Uncore里面。Core和Uncore都算在7×7的陣列模塊當(dāng)中。

LLC指的是LLC-data。緩存里面有兩部分，一部分是data部分，還有一部分是TAG部分。在第五代志強處理器中，每個模塊的LLC容量達(dá)到了5MB，所以這款芯片的緩存高達(dá)320MB。每個5MB的LLC是一個整體，這當(dāng)中還包括兩部分，即3.75MB的LSF和1MB的RSF。LSF是指一個核心有一個本地的L1和L2的Cache，另外一個核心也有本地的L1和L2的Cache，它們是用來做緩存一致性的。

英特爾資深技術(shù)專家分享說：“LLC采取了新的DEC和TED編碼方式，也就是當(dāng)在一個緩存行錯兩位的時候，還可以進(jìn)行糾正，出現(xiàn)三位錯的時候還可以去檢測。這樣比單位糾錯和兩位檢錯有了更強的糾錯能力，大大提升了系統(tǒng)的容錯性。還有數(shù)據(jù)修復(fù)方案，也提供了更多靈活性。”

內(nèi)存IO

第五代至強速度從4800MT/s提升到5600MT/s。內(nèi)存速度的增加，得益于很多方面的努力。其中在芯片設(shè)計方面，英特爾做了很多優(yōu)化，包括一些MIM的內(nèi)存、基板上走線的提升，以及片上的低噪聲的供電措施等。

英特爾資深技術(shù)專家補充說到：“還有很大的一個功能叫4-tap的DFE功能，它可以把數(shù)據(jù)采集起來，用來做下一個bit接收的調(diào)整，可以盡可能的減少碼間干擾（ISI）。那么不打開DFE和打開DFE，在5600MT/s這么高的速度下，也可以帶來非常好的信號完整性的表現(xiàn)?！?/span>

核數(shù)增加帶來的改變

眾所眾知，第五代至強處理器是從最多的60核升級到64核。英特爾資深技術(shù)專家表示，核數(shù)增加之后，“紅利”最大的是科學(xué)計算和大數(shù)據(jù)。

微信圖片_20240323204138.png

其實，大數(shù)據(jù)對熱數(shù)據(jù)要求不敏感，其采用的是MRU策略（Most Recently Used），處理完數(shù)據(jù)后便會清除數(shù)據(jù)。但是核數(shù)越多，它能夠把一個大任務(wù)拆分得越細(xì)，即大家同時進(jìn)行計算，速度會更快，核之間UPI總線也會越來越快。所以核數(shù)多少對于AI/大數(shù)據(jù)比較重要。

英特爾資深技術(shù)專家補充說：“當(dāng)然，若是底層主頻高了，內(nèi)存帶寬大了，4800MT/s提升至5600MT/s，那么大家都能獲益，但特性還是有所不同?！?/span>

據(jù)介紹，在AI當(dāng)中，AMX帶來的提升更重要。除了傳統(tǒng)的CPU普通核計算之外，第五代志強處理器還增加了英特爾^? AMX加速器，專門針對矩陣運算。AMX和普通核之間的互聯(lián)通信便是通過英特爾^? UPI，比PCIe要快。其能夠?qū)⒃S多矩陣運算從普通的CPU中卸載到AMX上，通過專用加速器處理專用的業(yè)務(wù)邏輯，性能便會大幅提升。所以面向AI時代，英特爾也在逐步優(yōu)化CPU的架構(gòu)。

CPU和GPU分別更適用什么場景？

英特爾資深技術(shù)專家形象的比喻：“對我來說，CPU更像是一個大俠，十八般武藝樣樣精通，一個人可以應(yīng)對很多人，單打獨斗能力很強。GPU更像是軍隊，每個人沒有什么特色，但是人多，執(zhí)行的任務(wù)簡單且并發(fā)高，因為GPU業(yè)務(wù)邏輯非常簡單，但是核數(shù)眾多?！?/span>

英特爾始終致力于在CPU上部署AI，并基于OpenVINO對整個模型進(jìn)行優(yōu)化、量化，包括推薦、語音識別、圖像識別、基因測序等，英特爾均做了大量的優(yōu)化，尤其是推薦系統(tǒng)，其模型非常大，當(dāng)GPU無法運行的時候，用CPU反而是主流的。英特爾資深技術(shù)專家解釋說：“因為GPU不夠的時候，就意味著需要跨GPU，或者說和CPU有頻繁交互。那么，跟主存有頻繁交互的時候，實際上使用CPU會更快。因此，對于推薦系統(tǒng)、大模型、稀疏矩陣等，用CPU效率更高?！?/span>

對于通用的AI工作負(fù)載，英特爾采用AMX和AVX-512兩個指令集，基于OpenVINO進(jìn)行優(yōu)化。在推理的過程中，指令集上可以進(jìn)行切分，通過加速器定向加速某一部分，整個效果替代傳統(tǒng)的基于GPU的AI模型，這個完全沒有問題。

微信圖片_20240323204157.png

除了上層的框架之外，英特爾開發(fā)了很多高性能庫，比如oneDNN、OneCCL。OneDNN能把單機性能提升到最高，OneCCL則提供可以集群式做運算的可能，使得20B參數(shù)以上的模型在CPU的場景下做推理成為可能。有了oneDNN和oneCCL的加持，就可以在CPU上做大模型的推理。

那么，CPU做大模型的能力如何？

據(jù)英特爾資深技術(shù)專家介紹，從橫向延遲的角度來看，基本上100ms是客戶業(yè)務(wù)的閾值，大于100ms時業(yè)務(wù)體驗就會差一些。因此，不同大小的模型需要不同的算力支持。如果卡在100ms的標(biāo)準(zhǔn)上，一顆第四代或第五代英特爾至強可擴(kuò)展處理器可以支持13B參數(shù)的模型。兩顆可以做到30B參數(shù)的模型，如果想要更短的延遲，只要把模型縮小就可以，而對于6B或者是7B參數(shù)的模型，一顆第四代英特爾至強可擴(kuò)展處理器可以做到60ms，在oneCCL的加持下的分布式推理，則可以支持更大的模型。

對于大模型來說，基本上所有計算都是在GPU的顯存上進(jìn)行的，但還有一種應(yīng)用是視頻的前處理，比如現(xiàn)在比較火的窄帶高清，大家主流的做法是在CPU側(cè)做視頻解碼，然后把圖像傳給GPU，GPU做AI圖像增強的預(yù)處理，再把數(shù)據(jù)傳給CPU做編碼，再通過視頻流出去。

英特爾資深技術(shù)專家介紹說：“這一整套的架構(gòu)是比較復(fù)雜的，因為我們需要調(diào)度FFmpeg和AI算法，因此內(nèi)存復(fù)制的次數(shù)比較多，導(dǎo)致整個算法和流程都要根據(jù)異構(gòu)定制，整個GPU的利用率也不是很高。在這樣的情況下，我們有沒有可能把這一部分AI預(yù)處理的工作移到CPU側(cè)，把所有的流程都放在CPU上進(jìn)行，也就是做好視頻解碼之后，直接利用CPU中AMX的能力，完成圖像增強和編碼?！?/span>

英特爾資深技術(shù)專家分享了英特爾和百度一起，使用四臺基于第五代英特爾至強可擴(kuò)展處理器的雙路服務(wù)器，一共8顆第五代至強芯片，就可以支持70B參數(shù)的模型，中間的互連采用oneCCL和RDMA網(wǎng)絡(luò)。由此可見，CPU也可以做70B參數(shù)模型的推理，并且延遲可以達(dá)到100ms以內(nèi)。所以，GPU并非是大模型的唯一選擇，CPU也有能力做同樣的事。

CPU另一大優(yōu)勢是靈活，無論是業(yè)務(wù)擴(kuò)容還是通過分布式快速地獲取部分資源，都不受限制。除了大模型之外，其實CPU還有很強的能力去構(gòu)建整個流程的應(yīng)用，沒有必要做異構(gòu)，CPU即可完成所有的工作。

結(jié)束語

除了以上介紹的性能提升和功能增強之外，第五代英特爾至強可擴(kuò)展處理器還有一個非常重要的特性叫TDX，即整個安全環(huán)境的部署。TDX對于AI來講也非常重要，因為有一些客戶想要上云來很好地保護(hù)自己的數(shù)據(jù)，TDX就是一個非常好的安全環(huán)境實例，可以讓客戶把他的AI應(yīng)用部署在公有云上。

莊秉翰分享：“未來，底層能源的利用率便是企業(yè)最大的優(yōu)勢，誰的能源利用率高，轉(zhuǎn)化率高，誰就更有競爭力。我們將推出P-core（性能核）和E-core（能效核）處理器，其中P-core看重整體性能的提升，而E-core則看重每瓦帶來的性能提升。”

關(guān)鍵詞：技術(shù) 架構(gòu) 揭秘