Arm發(fā)布5nm新架構(gòu):Cortex-A78和Cortex-X1,功耗暴降50%、性能提升30%
2020-05-27 12:56:00
EETOP 作者:易建芯
點(diǎn)擊關(guān)注->創(chuàng)芯網(wǎng)公眾號(hào),后臺(tái)告知EETOP論壇用戶名,獎(jiǎng)勵(lì)200信元
arm 昨天推出了Cortex-A78和Cortex-X1 cpu 架構(gòu),2021年的移動(dòng)設(shè)備將會(huì)搭載。
Cortex-A78是Cortex-A系列的迭代產(chǎn)品,Cortex-X1是一款新的高性能CPU。
據(jù)介紹,Arm的Cortex-A78和Cortex-X1都是基于上一代Cortex-A77,但這兩款A(yù)rm處理器的設(shè)計(jì)目標(biāo)不同,Cortex-A78側(cè)重于提供更高的每瓦性能,同時(shí)體積更小,而Cortex-X1則是追求最大性能。
兩款處理器都有望在2021年用于頂級(jí)SoC和智能手機(jī),甚至可能彼此結(jié)合使用。
Arm Cortex-A78:效率至上
根據(jù)官方的介紹,Cortex-A78主頻達(dá)到了3GHz,每核每瓦性能相比上代提升了20%,在同樣的性能下,Cortex-A78的能耗相比上代降低了50%。另外,A78的面積也小了5%,為四核集群節(jié)省了15%的面積,這為額外的GPU、NPU和其他組件騰出了更多的空間。
Cortex-A78架構(gòu)并沒有盲目追求性能提升,更注重性能、功耗、面積,也就是PPA的均衡。Cortex-A78通過更保守的性能改進(jìn)來優(yōu)化功率和面積。ARM把更高性能提升用于Cortex-X1架構(gòu)。
而Cortex-A78根據(jù)ARM的說法,Cortex-A78的架構(gòu)性能(也就是IPC)只提升了7%,功耗降低了4%,內(nèi)核小了5%,四核簇面積的縮小了15%。
根據(jù)ARM的說法,在同樣的每核心1W功耗下,7nm生產(chǎn)的Cortex-A77可以達(dá)到2.6GHz,而5nm生產(chǎn)的Cortex-A78頻率可達(dá)3.0GHz,同功耗下持續(xù)性能提升20%左右。
能耗方面,在相同的性能下,5nm工藝生產(chǎn)的2.1GHz Cortex-A78功耗比7nm工藝2.3GHz的Cortex-A77降低了50%,有助于提高5G手機(jī)的續(xù)航。
談到微體系結(jié)構(gòu),Arm進(jìn)行了許多重大更改。首先,Cortex-A78帶有可選的較小的32kB L1緩存配置,這可以節(jié)省大部分芯片空間。盡管Arm的合作伙伴仍然可以選擇更熟悉的64kB L1緩存來進(jìn)一步提高內(nèi)核的性能。高通公司為其Snapdragon Prime內(nèi)核在較大的L2緩存中做了類似的事情,并且在高達(dá)512kB的容量中仍保持了靈活性,以平衡這一代產(chǎn)品的性能,面積和功率。
為了抵消這種較小的L1內(nèi)存,分支預(yù)測器可以更好地覆蓋不規(guī)則搜索模式,并且現(xiàn)在能夠在每個(gè)周期跟蹤兩個(gè)已取分支。這樣可以減少L1高速緩存未命中的次數(shù)。與A77相比,流水線要長1個(gè)周期,從而確保A78達(dá)到3 GHz左右的時(shí)鐘頻率目標(biāo),但每個(gè)周期設(shè)計(jì)仍然是6條指令。
Arm還在執(zhí)行單元中引入了第二個(gè)整數(shù)倍數(shù)單元,并引入了一個(gè)額外的加載地址生成單元(AGU),以將數(shù)據(jù)加載帶寬增加50%。其他優(yōu)化包括更多融合的指令以及指令調(diào)度程序的效率改進(jìn),寄存器重命名結(jié)構(gòu)和重排序緩沖區(qū)。最重要的是,Cortex-A78是比A77更精簡,更優(yōu)化的CPU。
Cortex-A78的目標(biāo)是達(dá)到效率的峰值效率。這對(duì)于電池續(xù)航時(shí)間非常有用,但對(duì)于希望Android能夠在明年與蘋果縮小差距的發(fā)燒友而言卻并非如此。為此,這就需要Arm的高性能架構(gòu)Cortex-X1了。
Cortex-A78主要面向2021年的智能手機(jī)等產(chǎn)品,不過考慮到之前的情況,2021年很難普及Cortex-A78,ARM也沒提到有哪些公司現(xiàn)在應(yīng)用了這個(gè)架構(gòu)。
ArmCortex-X1:終極性能
Cortex-X1是Arm“CXC項(xiàng)目”的第一款商用產(chǎn)品。性能方面,Cortex-X1將比Cortex-A77提高30%,與Cortex-A78相比,Cortex-X1的的整數(shù)運(yùn)算性能提升了23%,Cortex-X1還擁有兩倍于Cortex-A78的機(jī)器學(xué)習(xí)能力。要實(shí)現(xiàn)Cortex-X1的目標(biāo)性能,需要進(jìn)行許多重大的微體系結(jié)構(gòu)更改。Cortex-X1的內(nèi)核比A77和A78要大得多,L2緩存的最大容量為1MB,帶寬是原來的兩倍,可以最大限度地提高性能,而共享的L3緩存可以達(dá)到8MB,是前幾代緩存的兩倍。有趣的是,Cortex-X1隨附了一個(gè)特定的動(dòng)態(tài)共享單元(DSU),以支持8MB配置,該配置也與集群中的所有Cortex-A78共享該內(nèi)存。
Cortex-X1在結(jié)構(gòu)設(shè)計(jì)上與Cortex-A78如出一轍,但幾乎在每個(gè)地方都進(jìn)行了擴(kuò)展。
前端解碼部分從4端口增加到了5端口,宏指令緩存直接加倍,達(dá)到3000條,甚至超過Intel的Sunny Cove(2250條),但少于Zen 2(4000條)。亂序重排緩沖區(qū)(ROB)的大小也是擴(kuò)充到224條,與Zen 2和Skylake持平。
執(zhí)行部分中變化最大的是FP單元,也就是ARM特有的NEON浮點(diǎn)引擎,Cortex-X1上面直接將FP單元的數(shù)量倍增,達(dá)到4x128B的規(guī)模,寬度上基本等同于目前的桌面x86處理器,不過ARM目前的指令集并不允許單個(gè)長度大于128B的向量,在吞吐上肯定是不如桌面端處理器的。
緩存部分也發(fā)生了較大的變化,除了同步Cortex-A78增加的一個(gè)Load AGU外,ARM允許Cortex-X1的二級(jí)緩存加倍,增加到1MB之多,同時(shí)L2 TLB較Cortex-A78翻倍,可覆蓋8MB的L3緩存。
Cortex-X1很像Cortex-A78,兩者共享了不少設(shè)計(jì)改進(jìn),但Cortex-X1明顯是沖著高性能去的,它很寬,有著更高的計(jì)算吞吐量。官方數(shù)據(jù)顯示它相比Cortex-A77在峰值性能上有30%的提升,是相當(dāng)巨大的。
在產(chǎn)品層面,智能手機(jī)的SoC似乎不太可能使用四Cortex-X1集群,單Cortex-X1與三個(gè)Cortex-A78將是不錯(cuò)的選擇。這樣的配置只比四核Cortex-A76集群多占用15%的空間,但提供了更高的單核性能。
預(yù)計(jì)未來的SoC產(chǎn)品會(huì)選擇1核X1、3核A78和4核A55的搭配,從而實(shí)現(xiàn)更好的的性能與能效的平衡。未來Windows on Arm產(chǎn)品則有可能會(huì)搭載多核Cortex-X1的SoC,從而大幅提升性能。
關(guān)鍵詞:
Arm
A78
Cortex-X1