技術(shù)架構(gòu)揭秘:英特爾第五代至強可擴(kuò)展處理器
2024-03-23 20:39:21 Nancy,EETOP當(dāng)前,AI應(yīng)用非?;鸨?。全球各種不同的調(diào)研結(jié)果都顯示,有58%的企業(yè)在非常近的未來,都會導(dǎo)入如生成式AI到他們的生意模式當(dāng)中。預(yù)計到2026年有超過3000億美金將投入到生成式AI當(dāng)中,這其中包括硬件、軟件、解決方案等。而其中有50%以上的邊緣應(yīng)用也會采用AI技術(shù)。到2028年有80%以上的PC都會轉(zhuǎn)換成AIPC,通過AI可以提升大家在PC上的生產(chǎn)力。還有80%以上的公司,也會在2026年之前會導(dǎo)入某種程度的生成式AI以提高企業(yè)生產(chǎn)力。
云計算時代,工作負(fù)載需要快速運行,底層硬件能力需要充分利用。對于云廠商而言,真正的核心競爭力之一在于實例的性價比。因此,效率的提升至關(guān)重要,其中的關(guān)鍵是效率和效能的提升。而到了AI時代,英特爾市場營銷集團(tuán)副總裁、中國區(qū)數(shù)據(jù)中心銷售總經(jīng)理兼中國區(qū)運營商銷售總經(jīng)理莊秉翰分享說:“我們發(fā)現(xiàn)數(shù)據(jù)中心的耗電量極高,一臺GPU服務(wù)器可達(dá)上萬瓦的功率,如果未來中國建造越來越多的數(shù)據(jù)中心,那么可持續(xù)性便是一大挑戰(zhàn)。其實眼下數(shù)據(jù)中心的成本當(dāng)中,電費占據(jù)了很大一塊。”
在英特爾于去年推出的第五代至強可擴(kuò)展處理器上,就可看到至強產(chǎn)品出來產(chǎn)品性能的持續(xù)迭代更新之外,在節(jié)能省電、降低能耗、提高AI推理能力方面,都有極大的提升。在硬件上,第五代至強升級到Raptor Cove核心,最多擁有64個核,內(nèi)存帶寬高達(dá)5600MT/s,級緩存的容量提升了三倍,并通過AMX、AVX等和AI相關(guān)的新的指令集來提高主頻和性能,可實現(xiàn)芯片內(nèi)部直接進(jìn)行數(shù)據(jù)處理。對比上一代,盡管架構(gòu)上沒有太大改變,都支持AMX和AVX-512,但是因為內(nèi)存IO部分的增強,AI推理能力也得到了增強。第五代相比第四代英特爾至強可擴(kuò)展處理器,推理能力可以提升42%。
此外,LLC大小從1.875MB增加到5MB。過去英特爾的LLC基本上在1M-2M。這是英特爾第一次在第五代英特爾至強可擴(kuò)展處理器,把LLC提升到5MB的水平?;贚LC和核數(shù)的提升,包括內(nèi)存帶寬的提升,帶來了其他類型的增強,如NLP以及圖像類AI的增強,同時支持20B參數(shù)以下的大語言模型,延遲可以低于100ms等。在性能能效方面,與第四代至強相比,SPEC integer有21%的提升。在預(yù)取相關(guān)的指令集方面,第五代至強相比第四代至強減少了超過18毫秒以上的內(nèi)存訪問延遲。第五代至強基于Intel 7制程,采用了Dual-poly-pitch SuperFin晶體管技術(shù)。該產(chǎn)品與上一代英特爾至強可擴(kuò)展處理器相比,在核數(shù)和不同的性能指標(biāo)上都有很大提升。
下面,我們來一一揭秘第五代志強處理器是如何實現(xiàn)這些性能指標(biāo)的。
第五代至強架構(gòu)剖析
芯片布局
第四代至強把芯片分為相對對稱的四個部分,而第五代至強的切分方式則做了調(diào)整,把切四份的做法變成了切兩份。其內(nèi)部是一個7×7的網(wǎng)格,中間是模塊,包括CPU核心、三級緩存等。其中,東西兩邊是DDR接口,上面是PCIe、UPI,還有一些加速單元,中間一共有33個硅片。
其上下兩個芯片是由7個500G全帶寬的通路把上下兩個芯片互連。雖然物理上,它們是兩個分離的芯片,但通過增加兩個交錯互連,可以最大化的增加?xùn)|西向的帶寬的上線,避免出現(xiàn)任何帶寬上的瓶頸?;谶@樣的高帶寬連接,它們就可以實現(xiàn)一個邏輯上無縫連接。SCF是利用英特爾的2.5D封裝技術(shù),也就是EMIB(嵌入式多芯片互連橋接)來進(jìn)行互連的,可實現(xiàn)芯片之間的高效互連。值得一提的是,第四代至強也采用的是EMIB技術(shù)進(jìn)行互連。
英特爾資深技術(shù)專家介紹說:“這樣的好處是,當(dāng)需要切四份的時候,每兩片之間相互進(jìn)行通信時,需要有一些芯片互連之間的接口,這需要占用額外的芯片面積,同時也有額外的功耗。通過芯片質(zhì)量控制,這種調(diào)整,可以支持在相對比較大的面積下得到很好的良率,并且通過把四片芯片改成兩片芯片的設(shè)計,可以更好的對芯片的面積進(jìn)行控制?!?/span>
三級緩存(LLC)
在英特爾的架構(gòu)當(dāng)中,存儲分為Core和Uncore。所有CPU里的執(zhí)行邏輯,不管是前端、后端,還是L1、L2 緩存,都算在Core的面積里;而LLC部分是算在Uncore里面。Core和Uncore都算在7×7的陣列模塊當(dāng)中。
LLC指的是LLC-data。緩存里面有兩部分,一部分是data部分,還有一部分是TAG部分。在第五代志強處理器中,每個模塊的LLC容量達(dá)到了5MB,所以這款芯片的緩存高達(dá)320MB。每個5MB的LLC是一個整體,這當(dāng)中還包括兩部分,即3.75MB的LSF和1MB的RSF。LSF是指一個核心有一個本地的L1和L2的Cache,另外一個核心也有本地的L1和L2的Cache,它們是用來做緩存一致性的。
英特爾資深技術(shù)專家分享說:“LLC采取了新的DEC和TED編碼方式,也就是當(dāng)在一個緩存行錯兩位的時候,還可以進(jìn)行糾正,出現(xiàn)三位錯的時候還可以去檢測。這樣比單位糾錯和兩位檢錯有了更強的糾錯能力,大大提升了系統(tǒng)的容錯性。還有數(shù)據(jù)修復(fù)方案,也提供了更多靈活性。”
內(nèi)存IO
第五代至強速度從4800MT/s提升到5600MT/s。內(nèi)存速度的增加,得益于很多方面的努力。其中在芯片設(shè)計方面,英特爾做了很多優(yōu)化,包括一些MIM的內(nèi)存、基板上走線的提升,以及片上的低噪聲的供電措施等。
英特爾資深技術(shù)專家補充說到:“還有很大的一個功能叫4-tap的DFE功能,它可以把數(shù)據(jù)采集起來,用來做下一個bit接收的調(diào)整,可以盡可能的減少碼間干擾(ISI)。那么不打開DFE和打開DFE,在5600MT/s這么高的速度下,也可以帶來非常好的信號完整性的表現(xiàn)?!?/span>
核數(shù)增加帶來的改變
眾所眾知,第五代至強處理器是從最多的60核升級到64核。英特爾資深技術(shù)專家表示,核數(shù)增加之后,“紅利”最大的是科學(xué)計算和大數(shù)據(jù)。
其實,大數(shù)據(jù)對熱數(shù)據(jù)要求不敏感,其采用的是MRU策略(Most Recently Used),處理完數(shù)據(jù)后便會清除數(shù)據(jù)。但是核數(shù)越多,它能夠把一個大任務(wù)拆分得越細(xì),即大家同時進(jìn)行計算,速度會更快,核之間UPI總線也會越來越快。所以核數(shù)多少對于AI/大數(shù)據(jù)比較重要。
英特爾資深技術(shù)專家補充說:“當(dāng)然,若是底層主頻高了,內(nèi)存帶寬大了,4800MT/s提升至5600MT/s,那么大家都能獲益,但特性還是有所不同?!?/span>
據(jù)介紹,在AI當(dāng)中,AMX帶來的提升更重要。除了傳統(tǒng)的CPU普通核計算之外,第五代志強處理器還增加了英特爾? AMX加速器,專門針對矩陣運算。AMX和普通核之間的互聯(lián)通信便是通過英特爾? UPI,比PCIe要快。其能夠?qū)⒃S多矩陣運算從普通的CPU中卸載到AMX上,通過專用加速器處理專用的業(yè)務(wù)邏輯,性能便會大幅提升。所以面向AI時代,英特爾也在逐步優(yōu)化CPU的架構(gòu)。
英特爾資深技術(shù)專家形象的比喻:“對我來說,CPU更像是一個大俠,十八般武藝樣樣精通,一個人可以應(yīng)對很多人,單打獨斗能力很強。GPU更像是軍隊,每個人沒有什么特色,但是人多,執(zhí)行的任務(wù)簡單且并發(fā)高,因為GPU業(yè)務(wù)邏輯非常簡單,但是核數(shù)眾多?!?/span>
英特爾始終致力于在CPU上部署AI,并基于OpenVINO對整個模型進(jìn)行優(yōu)化、量化,包括推薦、語音識別、圖像識別、基因測序等,英特爾均做了大量的優(yōu)化,尤其是推薦系統(tǒng),其模型非常大,當(dāng)GPU無法運行的時候,用CPU反而是主流的。英特爾資深技術(shù)專家解釋說:“因為GPU不夠的時候,就意味著需要跨GPU,或者說和CPU有頻繁交互。那么,跟主存有頻繁交互的時候,實際上使用CPU會更快。因此,對于推薦系統(tǒng)、大模型、稀疏矩陣等,用CPU效率更高?!?/span>
對于通用的AI工作負(fù)載,英特爾采用AMX和AVX-512兩個指令集,基于OpenVINO進(jìn)行優(yōu)化。在推理的過程中,指令集上可以進(jìn)行切分,通過加速器定向加速某一部分,整個效果替代傳統(tǒng)的基于GPU的AI模型,這個完全沒有問題。
除了上層的框架之外,英特爾開發(fā)了很多高性能庫,比如oneDNN、OneCCL。OneDNN能把單機性能提升到最高,OneCCL則提供可以集群式做運算的可能,使得20B參數(shù)以上的模型在CPU的場景下做推理成為可能。有了oneDNN和oneCCL的加持,就可以在CPU上做大模型的推理。
那么,CPU做大模型的能力如何?
據(jù)英特爾資深技術(shù)專家介紹,從橫向延遲的角度來看,基本上100ms是客戶業(yè)務(wù)的閾值,大于100ms時業(yè)務(wù)體驗就會差一些。因此,不同大小的模型需要不同的算力支持。如果卡在100ms的標(biāo)準(zhǔn)上,一顆第四代或第五代英特爾至強可擴(kuò)展處理器可以支持13B參數(shù)的模型。兩顆可以做到30B參數(shù)的模型,如果想要更短的延遲,只要把模型縮小就可以,而對于6B或者是7B參數(shù)的模型,一顆第四代英特爾至強可擴(kuò)展處理器可以做到60ms,在oneCCL的加持下的分布式推理,則可以支持更大的模型。
對于大模型來說,基本上所有計算都是在GPU的顯存上進(jìn)行的,但還有一種應(yīng)用是視頻的前處理,比如現(xiàn)在比較火的窄帶高清,大家主流的做法是在CPU側(cè)做視頻解碼,然后把圖像傳給GPU,GPU做AI圖像增強的預(yù)處理,再把數(shù)據(jù)傳給CPU做編碼,再通過視頻流出去。
英特爾資深技術(shù)專家介紹說:“這一整套的架構(gòu)是比較復(fù)雜的,因為我們需要調(diào)度FFmpeg和AI算法,因此內(nèi)存復(fù)制的次數(shù)比較多,導(dǎo)致整個算法和流程都要根據(jù)異構(gòu)定制,整個GPU的利用率也不是很高。在這樣的情況下,我們有沒有可能把這一部分AI預(yù)處理的工作移到CPU側(cè),把所有的流程都放在CPU上進(jìn)行,也就是做好視頻解碼之后,直接利用CPU中AMX的能力,完成圖像增強和編碼?!?/span>
英特爾資深技術(shù)專家分享了英特爾和百度一起,使用四臺基于第五代英特爾至強可擴(kuò)展處理器的雙路服務(wù)器,一共8顆第五代至強芯片,就可以支持70B參數(shù)的模型,中間的互連采用oneCCL和RDMA網(wǎng)絡(luò)。由此可見,CPU也可以做70B參數(shù)模型的推理,并且延遲可以達(dá)到100ms以內(nèi)。所以,GPU并非是大模型的唯一選擇,CPU也有能力做同樣的事。
CPU另一大優(yōu)勢是靈活,無論是業(yè)務(wù)擴(kuò)容還是通過分布式快速地獲取部分資源,都不受限制。除了大模型之外,其實CPU還有很強的能力去構(gòu)建整個流程的應(yīng)用,沒有必要做異構(gòu),CPU即可完成所有的工作。
結(jié)束語
除了以上介紹的性能提升和功能增強之外,第五代英特爾至強可擴(kuò)展處理器還有一個非常重要的特性叫TDX,即整個安全環(huán)境的部署。TDX對于AI來講也非常重要,因為有一些客戶想要上云來很好地保護(hù)自己的數(shù)據(jù),TDX就是一個非常好的安全環(huán)境實例,可以讓客戶把他的AI應(yīng)用部署在公有云上。
莊秉翰分享:“未來,底層能源的利用率便是企業(yè)最大的優(yōu)勢,誰的能源利用率高,轉(zhuǎn)化率高,誰就更有競爭力。我們將推出P-core(性能核)和E-core(能效核)處理器,其中P-core看重整體性能的提升,而E-core則看重每瓦帶來的性能提升。”
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章