160億晶體管!完爆英特爾!蘋果首款Mac處理器詳細(xì)解讀及評(píng)測(cè)!
2020-11-11 13:39:09 EETOP得益于公司在硬件和軟件之間的垂直集成,這是一個(gè)巨大的變化,只有蘋果公司才能如此迅速地迎來(lái)變革。上一次蘋果公司在2006年放棄了IBM的PowerPC ISA和處理器,轉(zhuǎn)而支持英特爾x86設(shè)計(jì)。今天,英特爾已經(jīng)放棄了基于ARM ISA構(gòu)建的公司自己的內(nèi)部處理器和CPU微體系結(jié)構(gòu)。如今,英特爾被拋棄,轉(zhuǎn)而采用建立在ARM ISA的基礎(chǔ)上的該公司自己的內(nèi)部處理器和CPU微架構(gòu)。
新處理器稱為Apple M1,這是該公司針對(duì)Mac的第一個(gè)SoC設(shè)計(jì)。它具有四個(gè)高性能大核,四個(gè)高效能的小核和一個(gè)8-GPU內(nèi)核GPU。在新的5nm工藝節(jié)點(diǎn)上集成了160億個(gè)晶體管。蘋果公司正在為此新系列處理器啟動(dòng)新的SoC命名方案,但至少在紙面上看起來(lái)確實(shí)像A14X。
新款A(yù)pple M1確實(shí)是Apple進(jìn)行新的重大旅程的開(kāi)始。在蘋果公司的演示中,該公司并沒(méi)有透露太多設(shè)計(jì)細(xì)節(jié),但是有一張PPT告訴了我們很多有關(guān)芯片的封裝和設(shè)計(jì)的信息:
這種將DRAM嵌入到有機(jī)封裝中的封裝風(fēng)格對(duì)于新的M1芯片來(lái)說(shuō)并不新鮮,因?yàn)槲覀円呀?jīng)在A12X上看到了這樣的設(shè)計(jì)。之所以沒(méi)有采用更通用的智能手機(jī)POP封裝,是因?yàn)檫@些芯片在設(shè)計(jì)時(shí)考慮了更高的TDP,并確保在新設(shè)計(jì)中可以更有效散熱。
這很可能意味著,我們還將在新芯片上看到一個(gè)128位的DRAM總線,與上一代A-X芯片的總線非常相似。
在蘋果提供的PPT上,看到了實(shí)際裸片(die)的照片。它與蘋果描述的芯片特性完全吻合,看起來(lái)就像一張真實(shí)的裸片照片。我們劃分了各個(gè)主要的功能塊:
可以在左側(cè)看到M1的四個(gè)新的高性能Firestorm CPU內(nèi)核。可以看到采用了大量的緩存,因?yàn)槎贏14仍僅具有8MB的L2緩存。這里的新緩存看起來(lái)可以分成3個(gè)更大的塊,這對(duì)于考慮到Apple在此新配置中從8MB過(guò)渡到12MB來(lái)說(shuō)是有道理的,畢竟這是由4核而不是2核。
4個(gè)Icestorm高效能核心位于SoC的中心,我們發(fā)現(xiàn)SoC的系統(tǒng)級(jí)緩存在所有IP塊之間共享。
8核GPU占用了大量的裸片空間,位于該裸片的上部。
M1最有趣的地方是它與Intel和AMD的其他CPU設(shè)計(jì)相比。蘋果公司提到M1是真正的SoC,上述所有模塊僅覆蓋整個(gè)芯片的一部分,其他部分集成了大量的輔助IP。其中包括以前Mac筆記本電腦中幾個(gè)分立芯片的功能。
蘋果聲稱新的CPU內(nèi)核是世界上最快的。在我們深入探討Firestorm內(nèi)核的微體系結(jié)構(gòu)以及為您提供Apple A14 SoC的性能數(shù)據(jù)時(shí),這將是今天文章的重點(diǎn)。
我們期望M1內(nèi)核比我們今天將要展示的A14更快,因此蘋果聲稱擁有世界上最快的CPU內(nèi)核的說(shuō)法似乎是非常合理的。
整個(gè)SoC集成了龐大的160億個(gè)晶體管,比最新iPhone中的A14高35%。如果蘋果公司將兩塊芯片之間的晶體管密度保持在相似水平,那么我們應(yīng)該算出的芯片尺寸約為120平方毫米,這比Macbooks內(nèi)部的上一代英特爾芯片要小得多。
那么蘋果打算如何在這個(gè)市場(chǎng)上與AMD和Intel競(jìng)爭(zhēng)呢?過(guò)去幾年來(lái)一直在關(guān)注蘋果在硅技術(shù)方面的努力的讀者一定不會(huì)驚訝地看到蘋果在活動(dòng)中宣稱的性能。
秘密之處在于蘋果公司內(nèi)部的CPU微體系結(jié)構(gòu)。蘋果進(jìn)入定制CPU微體系結(jié)構(gòu)的漫長(zhǎng)旅程始于2012年在iPhone 5中發(fā)布的Apple A6。甚至早在第一代“ Swift”設(shè)計(jì)時(shí),與移動(dòng)競(jìng)爭(zhēng)對(duì)手相比,該公司就已經(jīng)取得了令人印象深刻的性能數(shù)據(jù)。
然而真正讓業(yè)界震驚的是蘋果隨后在2013年的蘋果A7 SoC和iPhone 5S中發(fā)布的CycloneCPU微架構(gòu)。蘋果很早就采用了64位Armv8 ISA,這讓所有人都感到震驚,因?yàn)樵摴臼菢I(yè)界第一個(gè)實(shí)現(xiàn)新指令集架構(gòu)的公司,但他們甚至比Arm自己的CPU團(tuán)隊(duì)快了一年多的時(shí)間,因?yàn)镃ortex-A57(Arm自己的64位微架構(gòu)設(shè)計(jì))要到2014年年底才能見(jiàn)到曙光。
蘋果公司將其“ Cyclone”設(shè)計(jì)稱為“桌面級(jí)架構(gòu)”,在事后看來(lái),它可能應(yīng)該明顯地指向公司的發(fā)展方向。在隨后的幾代人中,蘋果公司以驚人的速度發(fā)展了他們的定制CPU微體系結(jié)構(gòu),每一代人都獲得了巨大的性能提升。
今年的A14芯片包括了蘋果64位微架構(gòu)家族中的第8代產(chǎn)品,而這個(gè)家族曾以A7和Cyclone設(shè)計(jì)為開(kāi)端。這些年來(lái),蘋果的設(shè)計(jì)節(jié)奏似乎已經(jīng)穩(wěn)定下來(lái),從A7芯片組開(kāi)始,圍繞著主要的兩代微架構(gòu)更新,A9、A11、A13都展現(xiàn)了其設(shè)計(jì)復(fù)雜度和微架構(gòu)寬度和深度的大幅提升。
鑒于蘋果公司并沒(méi)有披露任何細(xì)節(jié),蘋果的CPU仍然幾乎是一個(gè)黑箱設(shè)計(jì),唯一公開(kāi)的關(guān)于此事的資源可以追溯到A7 Cyclone時(shí)代的LLVM補(bǔ)丁,這些補(bǔ)丁與今天的設(shè)計(jì)已經(jīng)非常不相關(guān)。雖然我們沒(méi)有官方的手段和信息來(lái)了解蘋果CPU的工作原理,但這并不意味著我們無(wú)法弄清楚某些方面的設(shè)計(jì)。通過(guò)我們自己的內(nèi)部測(cè)試以及第三方微基準(zhǔn)(特別感謝@Veedrac的microarchitecturometer測(cè)試套件),我們卻可以揭開(kāi)蘋果設(shè)計(jì)的一些細(xì)節(jié)。以下披露的內(nèi)容是基于測(cè)試iPhone 12 Pro內(nèi)部最新的蘋果A14 SoC的行為而估算出來(lái)的。
蘋果最新一代A14內(nèi)部的大核心CPU設(shè)計(jì)代號(hào)為“Firestorm”,延續(xù)了去年蘋果A13內(nèi)部的“Lightning”微架構(gòu)。今天討論的核心是新的Firestorm核心和它多年來(lái)不斷改進(jìn)的血統(tǒng),這也是蘋果如何從英特爾x86設(shè)計(jì)大幅跳躍到他們自己內(nèi)部的SoC的關(guān)鍵部分。
上圖是蘋果最新的大核設(shè)計(jì)的估計(jì)功能布局--這里所代表的是我們?cè)诖_定新設(shè)計(jì)功能方面的最大努力嘗試,但肯定不是對(duì)蘋果設(shè)計(jì)的所有功能的詳盡鉆研--所以自然可能存在一些不準(zhǔn)確的地方。
真正將蘋果Firestorm CPU核心與業(yè)界其他設(shè)計(jì)區(qū)分開(kāi)來(lái)的,只是微架構(gòu)的寬度。蘋果的Firestorm擁有8個(gè)寬度的解碼塊,是目前業(yè)界最寬的商業(yè)化設(shè)計(jì)。IBM即將在POWER10中推出的P10內(nèi)核是唯一一個(gè)有望在市場(chǎng)上發(fā)布的具有如此寬解碼器設(shè)計(jì)的官方設(shè)計(jì),此前三星取消了自家的M6核心,而M6核心也被稱為采用相同寬度的設(shè)計(jì)。
當(dāng)代的其他設(shè)計(jì),如AMD的Zen(1到3)和Intel的μarch的,x86的CPU如今仍然只采用4寬的解碼器設(shè)計(jì),由于ISA固有的指令長(zhǎng)度可變的特性,相比ARM ISA的固定長(zhǎng)度指令,設(shè)計(jì)能夠處理架構(gòu)方面的解碼器更加困難,因此目前似乎還限制了它的寬度。在ARM方面,三星的設(shè)計(jì)從M3開(kāi)始一直是6寬,而Arm自己的Cortex內(nèi)核每一代都在穩(wěn)步變寬,目前現(xiàn)有的硅片中是4寬,預(yù)計(jì)在即將到來(lái)的Cortex-X1內(nèi)核中會(huì)增加到5寬設(shè)計(jì)。
蘋果最近的設(shè)計(jì)中,有一個(gè)我們從未真正能夠具體回答的問(wèn)題是,蘋果的亂序執(zhí)行能力有多強(qiáng)。Firestorm的ROB在630指令范圍內(nèi),這是去年A13閃電核心的升級(jí),它在560指令范圍內(nèi)測(cè)量。目前還不清楚這是否與其他架構(gòu)中的傳統(tǒng)ROB相同,但測(cè)試至少暴露了與ROB相關(guān)的微架構(gòu)限制,并暴露了行業(yè)中其他設(shè)計(jì)的正確數(shù)據(jù)。亂序窗口是指當(dāng)內(nèi)核試圖獲取并執(zhí)行每條指令的依賴關(guān)系時(shí),內(nèi)核可以“停放”的、等待執(zhí)行的指令數(shù)量。
對(duì)于蘋果的新核心來(lái)說(shuō),+-630深的ROB是一個(gè)極其巨大的亂序窗口,因?yàn)樗h(yuǎn)遠(yuǎn)超過(guò)了業(yè)界的任何其他設(shè)計(jì)。英特爾的Sunny Cove和Willow Cove核心以352條ROB結(jié)構(gòu)成為目前 "深度 "第二高的OOO設(shè)計(jì),而AMD最新的Zen3核心則以256條,最近的Arm設(shè)計(jì)如Cortex-X1則采用224條結(jié)構(gòu)。
究竟蘋果是如何以及為什么能夠?qū)崿F(xiàn)與業(yè)界其他所有設(shè)計(jì)者相比如此嚴(yán)重不成比例的設(shè)計(jì),目前還不完全清楚,但這似乎是蘋果實(shí)現(xiàn)高ILP(指令級(jí)并行)的設(shè)計(jì)理念和方法的一個(gè)重要特征。
在我們深入探討x86與AppleSilicon的爭(zhēng)論之前,不妨先詳細(xì)了解一下A14 Firestorm核心在A13 Lightning核心的基礎(chǔ)上有怎樣的改進(jìn),并詳細(xì)介紹一下新芯片5nm工藝節(jié)點(diǎn)的功耗和能效提升。
在這里的對(duì)比中,工藝節(jié)點(diǎn)其實(shí)是相當(dāng)?shù)膽沂?,因?yàn)锳14是市場(chǎng)上第一款5nm芯片組,緊隨其后的是華為Mate 40系列的麒麟9000。我們正好有兩款設(shè)備和芯片在內(nèi)部進(jìn)行測(cè)試,對(duì)比麒麟9000(N5上的Cortex-A773.13GHz)與驍龍865+(N7P上的Cortex-A773.09GHz),我們可以一定程度上推斷出工藝節(jié)點(diǎn)在功耗和效率上的影響有多大,將這些改進(jìn)轉(zhuǎn)化為A13與A14的對(duì)比。
從SPECint2006開(kāi)始,除了456.hmmer的巨大進(jìn)步外,我們并沒(méi)有看到A14的成績(jī)有什么非常異常的地方。其實(shí),這并不是因?yàn)槲⒓軜?gòu)的跳躍,而是由于Xcode12中新的LLVM版本的新優(yōu)化。這里看來(lái),編譯器采用了類似于GCC8上的循環(huán)優(yōu)化。A13的得分實(shí)際上已經(jīng)從47.79提高到64.87,但我還沒(méi)有在整個(gè)套件上運(yùn)行新的數(shù)據(jù)。
對(duì)于其余的工作負(fù)載,A14通??雌饋?lái)像是A13相對(duì)線性的演進(jìn),這說(shuō)明時(shí)鐘頻率從2.66GHz增長(zhǎng)到3GHz。該套件的總體IPC增益約為5%,雖然比通常的時(shí)鐘速度提高得大,但比Apple的前幾代要少一些。
新芯片的功耗實(shí)際上是一致的,有時(shí)甚至比A13更好,這意味著即使在最高性能點(diǎn),這一代的工作負(fù)載能效也得到了顯著改善。
與Android和Cortex核心的SoC相比,性能似乎更偏向于蘋果。最突出的一點(diǎn)是具有內(nèi)存密集型,稀疏內(nèi)存特征的工作負(fù)載,例如429.mcf和471.omnetpp,盡管所有芯片都在運(yùn)行類似的移動(dòng)級(jí)LPDDR4X/LPDDR5,但Apple設(shè)計(jì)的性能卻要高出兩倍以上。在我們的微架構(gòu)調(diào)查中,我們看到了蘋果設(shè)計(jì)中“memorymagic”的跡象,我們可能認(rèn)為他們使用了某種指針追逐預(yù)抓取機(jī)制。
在SPECfp中,A14比A13的增幅比線性時(shí)鐘頻率的增幅要高一些,因?yàn)槲覀冊(cè)谶@里測(cè)量的是10-11%的整體IPC提升??紤]到該設(shè)計(jì)多了第四條FP/SIMD流水線,這并不太令人意外,而與A13相比,該核心的整數(shù)方面相對(duì)沒(méi)有變化。
在整體的移動(dòng)對(duì)比中,我們可以看到,新的A14在性能提升方面比A13取得了強(qiáng)勁的進(jìn)步。與競(jìng)爭(zhēng)對(duì)手相比,蘋果已經(jīng)遙遙領(lǐng)先--我們必須等待明年的Cortex-X1設(shè)備才能看到差距再次縮小。
這里還需要注意的是,蘋果在取得這些成績(jī)的同時(shí),還保持了新芯片的功耗持平,甚至降低了功耗,尤其是降低了相同工作負(fù)載的能耗。
從麒麟9000與驍龍865+的對(duì)比來(lái)看,我們看到在性能相對(duì)相似的情況下,功耗降低了10%。兩款芯片使用的是相同的CPU IP,只是在工藝節(jié)點(diǎn)和實(shí)現(xiàn)方式上有所不同。看來(lái)蘋果這里的A14能夠取得更好的數(shù)據(jù),不僅僅是工藝節(jié)點(diǎn)的提升,鑒于它也是全新的微架
還有一個(gè)值得注意的是A14的小效率核心的對(duì)比數(shù)據(jù)。這一代我們看到這些新核心在微架構(gòu)上有很大的提升,相比去年的A13效率核心,現(xiàn)在的性能提升了35%--同時(shí)進(jìn)一步降低了能耗。我不知道這些小核心在蘋果的 Apple Silicon Mac設(shè)計(jì)上會(huì)有怎樣的表現(xiàn),但相比于其他Arm設(shè)計(jì),它們的性能肯定還是很強(qiáng)的,而且效率極高。
迄今為止,我們對(duì)Apple芯片組的性能比較一直是在iPhone評(píng)測(cè)的背景下進(jìn)行的。
我們目前還沒(méi)有蘋果硅設(shè)備,很可能再過(guò)幾周才能拿到手,但我們有A14,并預(yù)計(jì)新的Mac芯片將強(qiáng)烈基于我們看到的iPhone設(shè)計(jì)中采用的微架構(gòu)。當(dāng)然,我們?nèi)匀辉诒容^手機(jī)芯片與高端筆記本電腦甚至高端臺(tái)式機(jī)芯片。
這張圖上A14的性能數(shù)據(jù)比較讓人難以置信。如果我在公布這些數(shù)據(jù)的同時(shí)隱藏了A14的標(biāo)簽,人們會(huì)猜測(cè)這些數(shù)據(jù)點(diǎn)來(lái)自于AMD或Intel的其他x86 SKU。事實(shí)上,A14目前能與目前市場(chǎng)上x86廠商最優(yōu)秀的頂級(jí)性能設(shè)計(jì)相抗衡,實(shí)在是一個(gè)驚人的壯舉。
再來(lái)看看詳細(xì)的成績(jī),再次讓我們驚訝的是,A14不僅能跟上,而且在429.mcf和471.omnetpp等對(duì)內(nèi)存延遲敏感的工作負(fù)載上,A14居然比這兩個(gè)競(jìng)爭(zhēng)對(duì)手都要強(qiáng),盡管它們要么擁有相同的內(nèi)存(i7-1185G7,LPDDR4X-4266),要么擁有桌面級(jí)內(nèi)存(5950X,DDR-3200)。
同樣,不考慮A14的456.hmmer分?jǐn)?shù)優(yōu)勢(shì),那主要是由于編譯器差異造成的,減去33%,對(duì)比數(shù)據(jù)更貼切。
即使在SPECfp中,內(nèi)存負(fù)擔(dān)更多的工作量甚至占主導(dǎo)地位,A14不僅跟得上,而且通常比Intel CPU設(shè)計(jì)更勝一籌。如果沒(méi)有最新發(fā)布的Zen3設(shè)計(jì),AMD也比不過(guò)A14。
在總體SPEC2006圖表中,A14表現(xiàn)絕對(duì)出色,在絕對(duì)性能上領(lǐng)先,只是低于AMD最近的Ryzen5000系列。
事實(shí)上,蘋果能夠在一個(gè)包括SoC、DRAM和電源管理在內(nèi)的設(shè)備總功耗為5W的情況下實(shí)現(xiàn)這一點(diǎn),這絕對(duì)是令人震驚的。
對(duì)于GeekBench等比較常見(jiàn)的基準(zhǔn)套件有很多批評(píng),但坦率地說(shuō),我發(fā)現(xiàn)這些擔(dān)心或爭(zhēng)論是很沒(méi)有根據(jù)的。SPEC中的工作負(fù)載和GB5中的工作負(fù)載唯一的事實(shí)區(qū)別是,后者的異常值測(cè)試較少,而這些測(cè)試都是重內(nèi)存的,也就是說(shuō)它更多的是CPU基準(zhǔn),而SPEC則更傾向于CPU+DRAM。
蘋果公司在兩種工作負(fù)載中均表現(xiàn)出色,這證明它們具有極其平衡的微體系結(jié)構(gòu),并且將能夠在性能方面擴(kuò)展至“桌面工作負(fù)載”而不會(huì)出現(xiàn)太大問(wèn)題。
今天我們主要介紹了CPU方面的內(nèi)容。然而,我們不應(yīng)該忘記GPU,因?yàn)樾碌腗1代表著蘋果首次將他們的定制設(shè)計(jì)引入Mac領(lǐng)域。
我們知道的是,在移動(dòng)領(lǐng)域,蘋果在性能和能效方面是絕對(duì)領(lǐng)先的。上一次我們測(cè)試A12Z的時(shí)候,該設(shè)計(jì)就足以與集成顯卡設(shè)計(jì)相抗衡。但從那以后,我們看到AMD和英特爾都有了更顯著的提升。
蘋果聲稱M1是世界上最快的CPU。鑒于我們?cè)贏14上獲得的數(shù)據(jù),擊敗了英特爾的設(shè)計(jì),并且僅落后于AMD最新的Zen3芯片-更高的主頻超過(guò)3GHz的Firestorm,更大的L2緩存和釋放的TDP,我們可以肯定地說(shuō),只有蘋果M1才能實(shí)現(xiàn)這一要求。
英特爾已陷入停滯,并失去了今天的主要客戶。AMD最近展示了許多進(jìn)步,但是要趕上Apple的能效將非常困難。如果Apple的性能軌跡以這種速度繼續(xù)下去,則x86的性能王冠將永遠(yuǎn)無(wú)法奪回。
原文鏈接:
https://www.anandtech.com/show/16226/apple-silicon-m1-a14-deep-dive
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章