技術架構揭秘:英特爾第五代至強可擴展處理器
2024-03-23 20:39:21 Nancy,EETOP當前,AI應用非常火爆。全球各種不同的調研結果都顯示,有58%的企業在非常近的未來,都會導入如生成式AI到他們的生意模式當中。預計到2026年有超過3000億美金將投入到生成式AI當中,這其中包括硬件、軟件、解決方案等。而其中有50%以上的邊緣應用也會采用AI技術。到2028年有80%以上的PC都會轉換成AIPC,通過AI可以提升大家在PC上的生產力。還有80%以上的公司,也會在2026年之前會導入某種程度的生成式AI以提高企業生產力。
云計算時代,工作負載需要快速運行,底層硬件能力需要充分利用。對于云廠商而言,真正的核心競爭力之一在于實例的性價比。因此,效率的提升至關重要,其中的關鍵是效率和效能的提升。而到了AI時代,英特爾市場營銷集團副總裁、中國區數據中心銷售總經理兼中國區運營商銷售總經理莊秉翰分享說:“我們發現數據中心的耗電量極高,一臺GPU服務器可達上萬瓦的功率,如果未來中國建造越來越多的數據中心,那么可持續性便是一大挑戰。其實眼下數據中心的成本當中,電費占據了很大一塊。”
在英特爾于去年推出的第五代至強可擴展處理器上,就可看到至強產品出來產品性能的持續迭代更新之外,在節能省電、降低能耗、提高AI推理能力方面,都有極大的提升。在硬件上,第五代至強升級到Raptor Cove核心,最多擁有64個核,內存帶寬高達5600MT/s,級緩存的容量提升了三倍,并通過AMX、AVX等和AI相關的新的指令集來提高主頻和性能,可實現芯片內部直接進行數據處理。對比上一代,盡管架構上沒有太大改變,都支持AMX和AVX-512,但是因為內存IO部分的增強,AI推理能力也得到了增強。第五代相比第四代英特爾至強可擴展處理器,推理能力可以提升42%。
此外,LLC大小從1.875MB增加到5MB。過去英特爾的LLC基本上在1M-2M。這是英特爾第一次在第五代英特爾至強可擴展處理器,把LLC提升到5MB的水平?;贚LC和核數的提升,包括內存帶寬的提升,帶來了其他類型的增強,如NLP以及圖像類AI的增強,同時支持20B參數以下的大語言模型,延遲可以低于100ms等。在性能能效方面,與第四代至強相比,SPEC integer有21%的提升。在預取相關的指令集方面,第五代至強相比第四代至強減少了超過18毫秒以上的內存訪問延遲。第五代至強基于Intel 7制程,采用了Dual-poly-pitch SuperFin晶體管技術。該產品與上一代英特爾至強可擴展處理器相比,在核數和不同的性能指標上都有很大提升。
下面,我們來一一揭秘第五代志強處理器是如何實現這些性能指標的。
第五代至強架構剖析
芯片布局
第四代至強把芯片分為相對對稱的四個部分,而第五代至強的切分方式則做了調整,把切四份的做法變成了切兩份。其內部是一個7×7的網格,中間是模塊,包括CPU核心、三級緩存等。其中,東西兩邊是DDR接口,上面是PCIe、UPI,還有一些加速單元,中間一共有33個硅片。
其上下兩個芯片是由7個500G全帶寬的通路把上下兩個芯片互連。雖然物理上,它們是兩個分離的芯片,但通過增加兩個交錯互連,可以最大化的增加東西向的帶寬的上線,避免出現任何帶寬上的瓶頸?;谶@樣的高帶寬連接,它們就可以實現一個邏輯上無縫連接。SCF是利用英特爾的2.5D封裝技術,也就是EMIB(嵌入式多芯片互連橋接)來進行互連的,可實現芯片之間的高效互連。值得一提的是,第四代至強也采用的是EMIB技術進行互連。
英特爾資深技術專家介紹說:“這樣的好處是,當需要切四份的時候,每兩片之間相互進行通信時,需要有一些芯片互連之間的接口,這需要占用額外的芯片面積,同時也有額外的功耗。通過芯片質量控制,這種調整,可以支持在相對比較大的面積下得到很好的良率,并且通過把四片芯片改成兩片芯片的設計,可以更好的對芯片的面積進行控制?!?/span>
三級緩存(LLC)
在英特爾的架構當中,存儲分為Core和Uncore。所有CPU里的執行邏輯,不管是前端、后端,還是L1、L2 緩存,都算在Core的面積里;而LLC部分是算在Uncore里面。Core和Uncore都算在7×7的陣列模塊當中。
LLC指的是LLC-data。緩存里面有兩部分,一部分是data部分,還有一部分是TAG部分。在第五代志強處理器中,每個模塊的LLC容量達到了5MB,所以這款芯片的緩存高達320MB。每個5MB的LLC是一個整體,這當中還包括兩部分,即3.75MB的LSF和1MB的RSF。LSF是指一個核心有一個本地的L1和L2的Cache,另外一個核心也有本地的L1和L2的Cache,它們是用來做緩存一致性的。
英特爾資深技術專家分享說:“LLC采取了新的DEC和TED編碼方式,也就是當在一個緩存行錯兩位的時候,還可以進行糾正,出現三位錯的時候還可以去檢測。這樣比單位糾錯和兩位檢錯有了更強的糾錯能力,大大提升了系統的容錯性。還有數據修復方案,也提供了更多靈活性?!?/span>
內存IO
第五代至強速度從4800MT/s提升到5600MT/s。內存速度的增加,得益于很多方面的努力。其中在芯片設計方面,英特爾做了很多優化,包括一些MIM的內存、基板上走線的提升,以及片上的低噪聲的供電措施等。
英特爾資深技術專家補充說到:“還有很大的一個功能叫4-tap的DFE功能,它可以把數據采集起來,用來做下一個bit接收的調整,可以盡可能的減少碼間干擾(ISI)。那么不打開DFE和打開DFE,在5600MT/s這么高的速度下,也可以帶來非常好的信號完整性的表現?!?/span>
核數增加帶來的改變
眾所眾知,第五代至強處理器是從最多的60核升級到64核。英特爾資深技術專家表示,核數增加之后,“紅利”最大的是科學計算和大數據。
其實,大數據對熱數據要求不敏感,其采用的是MRU策略(Most Recently Used),處理完數據后便會清除數據。但是核數越多,它能夠把一個大任務拆分得越細,即大家同時進行計算,速度會更快,核之間UPI總線也會越來越快。所以核數多少對于AI/大數據比較重要。
英特爾資深技術專家補充說:“當然,若是底層主頻高了,內存帶寬大了,4800MT/s提升至5600MT/s,那么大家都能獲益,但特性還是有所不同?!?/span>
據介紹,在AI當中,AMX帶來的提升更重要。除了傳統的CPU普通核計算之外,第五代志強處理器還增加了英特爾? AMX加速器,專門針對矩陣運算。AMX和普通核之間的互聯通信便是通過英特爾? UPI,比PCIe要快。其能夠將許多矩陣運算從普通的CPU中卸載到AMX上,通過專用加速器處理專用的業務邏輯,性能便會大幅提升。所以面向AI時代,英特爾也在逐步優化CPU的架構。
英特爾資深技術專家形象的比喻:“對我來說,CPU更像是一個大俠,十八般武藝樣樣精通,一個人可以應對很多人,單打獨斗能力很強。GPU更像是軍隊,每個人沒有什么特色,但是人多,執行的任務簡單且并發高,因為GPU業務邏輯非常簡單,但是核數眾多?!?/span>
英特爾始終致力于在CPU上部署AI,并基于OpenVINO對整個模型進行優化、量化,包括推薦、語音識別、圖像識別、基因測序等,英特爾均做了大量的優化,尤其是推薦系統,其模型非常大,當GPU無法運行的時候,用CPU反而是主流的。英特爾資深技術專家解釋說:“因為GPU不夠的時候,就意味著需要跨GPU,或者說和CPU有頻繁交互。那么,跟主存有頻繁交互的時候,實際上使用CPU會更快。因此,對于推薦系統、大模型、稀疏矩陣等,用CPU效率更高?!?/span>
對于通用的AI工作負載,英特爾采用AMX和AVX-512兩個指令集,基于OpenVINO進行優化。在推理的過程中,指令集上可以進行切分,通過加速器定向加速某一部分,整個效果替代傳統的基于GPU的AI模型,這個完全沒有問題。
除了上層的框架之外,英特爾開發了很多高性能庫,比如oneDNN、OneCCL。OneDNN能把單機性能提升到最高,OneCCL則提供可以集群式做運算的可能,使得20B參數以上的模型在CPU的場景下做推理成為可能。有了oneDNN和oneCCL的加持,就可以在CPU上做大模型的推理。
那么,CPU做大模型的能力如何?
據英特爾資深技術專家介紹,從橫向延遲的角度來看,基本上100ms是客戶業務的閾值,大于100ms時業務體驗就會差一些。因此,不同大小的模型需要不同的算力支持。如果卡在100ms的標準上,一顆第四代或第五代英特爾至強可擴展處理器可以支持13B參數的模型。兩顆可以做到30B參數的模型,如果想要更短的延遲,只要把模型縮小就可以,而對于6B或者是7B參數的模型,一顆第四代英特爾至強可擴展處理器可以做到60ms,在oneCCL的加持下的分布式推理,則可以支持更大的模型。
對于大模型來說,基本上所有計算都是在GPU的顯存上進行的,但還有一種應用是視頻的前處理,比如現在比較火的窄帶高清,大家主流的做法是在CPU側做視頻解碼,然后把圖像傳給GPU,GPU做AI圖像增強的預處理,再把數據傳給CPU做編碼,再通過視頻流出去。
英特爾資深技術專家介紹說:“這一整套的架構是比較復雜的,因為我們需要調度FFmpeg和AI算法,因此內存復制的次數比較多,導致整個算法和流程都要根據異構定制,整個GPU的利用率也不是很高。在這樣的情況下,我們有沒有可能把這一部分AI預處理的工作移到CPU側,把所有的流程都放在CPU上進行,也就是做好視頻解碼之后,直接利用CPU中AMX的能力,完成圖像增強和編碼?!?/span>
英特爾資深技術專家分享了英特爾和百度一起,使用四臺基于第五代英特爾至強可擴展處理器的雙路服務器,一共8顆第五代至強芯片,就可以支持70B參數的模型,中間的互連采用oneCCL和RDMA網絡。由此可見,CPU也可以做70B參數模型的推理,并且延遲可以達到100ms以內。所以,GPU并非是大模型的唯一選擇,CPU也有能力做同樣的事。
CPU另一大優勢是靈活,無論是業務擴容還是通過分布式快速地獲取部分資源,都不受限制。除了大模型之外,其實CPU還有很強的能力去構建整個流程的應用,沒有必要做異構,CPU即可完成所有的工作。
結束語
除了以上介紹的性能提升和功能增強之外,第五代英特爾至強可擴展處理器還有一個非常重要的特性叫TDX,即整個安全環境的部署。TDX對于AI來講也非常重要,因為有一些客戶想要上云來很好地保護自己的數據,TDX就是一個非常好的安全環境實例,可以讓客戶把他的AI應用部署在公有云上。
莊秉翰分享:“未來,底層能源的利用率便是企業最大的優勢,誰的能源利用率高,轉化率高,誰就更有競爭力。我們將推出P-core(性能核)和E-core(能效核)處理器,其中P-core看重整體性能的提升,而E-core則看重每瓦帶來的性能提升?!?/span>