我欲封天耳根小说,新寡妇村传奇,完美世界国际版下载

三星自研處理器架構(gòu)的演變之路：從雄心勃勃到最終放棄

2020-06-04 13:02:33 EETOP

點(diǎn)擊關(guān)注->創(chuàng)芯網(wǎng)公眾號(hào)，后臺(tái)告知EETOP論壇用戶名，獎(jiǎng)勵(lì)200信元

在ISCA（國(guó)際計(jì)算機(jī)體系結(jié)構(gòu)研討會(huì)）會(huì)議中，三星的SARC（三星奧斯汀研發(fā)中心）CPU開(kāi)發(fā)團(tuán)隊(duì)發(fā)表了一篇題為“三星Exynos CPU架構(gòu)的演變”的論文，詳細(xì)介紹了該團(tuán)隊(duì)在其8年的發(fā)展過(guò)程中所做的努力，并介紹了其定制Arm的一些關(guān)鍵特征。 CPU內(nèi)核范圍從Exynos M1到最新的Exynos M5 CPU以及未發(fā)布的M6設(shè)計(jì)。

作為背景，三星的SARC CPU團(tuán)隊(duì)成立于2011年，以開(kāi)發(fā)定制的CPU內(nèi)核，然后三星LSI將其部署到其Exynos SoC中，從2015年在Galaxy S7中發(fā)布的第一代Exynos 8890開(kāi)始一直最新的用于Galaxy S20的M5內(nèi)核Exynos 990。目前，SARC已完成M6微體系結(jié)構(gòu)，SARC在2019年10月傳出CPU團(tuán)隊(duì)解散的消息之前，就已經(jīng)完成了M6微架構(gòu)。

在ISCA的論文中三星將開(kāi)發(fā)團(tuán)隊(duì)的一些被認(rèn)為值得保留的想法公布在公眾面前，基本上反應(yīng)了8年來(lái)的開(kāi)發(fā)歷程。

從M1到M6：持續(xù)演變的CPU微架構(gòu)

本文提供了三星定制CPU內(nèi)核之間的微體系結(jié)構(gòu)差異的總體概覽表：

披露內(nèi)容涵蓋了設(shè)計(jì)的一些眾所周知的特征，如三星在HotChips 2016的最初M1 CPU微體系結(jié)構(gòu)的深挖以及在HotChips 2018的最新M3所披露的那樣。它使我們可以洞悉我們?cè)赟10和S20評(píng)測(cè)中測(cè)得的新M4和M5微體系結(jié)構(gòu)，并讓我們對(duì)未來(lái)的M6有了初步的了解。

三星設(shè)計(jì)的一個(gè)關(guān)鍵特征是多年來(lái)，他們都是基于2011年開(kāi)發(fā)的M1內(nèi)核藍(lán)圖RTL為基礎(chǔ)，多年來(lái)不斷改進(jìn)內(nèi)核的功能模塊。但到了M3，內(nèi)核的設(shè)計(jì)發(fā)生了很大的變化。們從幾個(gè)方面大幅擴(kuò)展了內(nèi)核，例如從4寬設(shè)計(jì)到6寬中核。

三星設(shè)計(jì)的主要特征是多年來(lái)，它基于2011年以M1內(nèi)核開(kāi)始的RTL為基礎(chǔ)，并且多年來(lái)不斷改進(jìn)內(nèi)核的功能模塊。到M3的設(shè)計(jì)發(fā)生了很大的變化，從幾個(gè)方面大幅擴(kuò)展了內(nèi)核，例如從4-wide設(shè)計(jì)到6-wide中核。

之前尚未公開(kāi)的新披露內(nèi)容將涉及新的M5和M6內(nèi)核。對(duì)于M5，三星對(duì)內(nèi)核的緩存層進(jìn)行了較大的更改，例如用新的更大的共享緩存替換了私有L2緩存，以及公開(kāi)了L3結(jié)構(gòu)從3組設(shè)計(jì)到2組的變化。具有較少延遲的Bank設(shè)計(jì)。

就微體系結(jié)構(gòu)而言，正在開(kāi)發(fā)中的尚未發(fā)布的M6內(nèi)核似乎是一個(gè)更大的飛躍。SARC團(tuán)隊(duì)在這里進(jìn)行了較大的改進(jìn)，例如將L1指令和數(shù)據(jù)緩存從64KB增加到128KB，這是目前蘋(píng)果的CPU核心從A12開(kāi)始才實(shí)現(xiàn)的設(shè)計(jì)選擇。

據(jù)說(shuō)L2的帶寬能力提高了一倍，最高可達(dá)64B /周期，L3的帶寬也將從3MB增加到4MB。

M6可能是8-wide解碼核心，據(jù)我們所知，這將是我們所知道的最寬的商業(yè)微體系結(jié)構(gòu)-至少在解碼方面。

有趣的是，即使內(nèi)核要寬得多，整數(shù)執(zhí)行單元也不會(huì)做太多改變，只是看到一個(gè)復(fù)雜的管道增加了第二個(gè)整數(shù)除法能力，而加載/存儲(chǔ)管道將保持與上一個(gè)相同。具有1個(gè)加載單元，1個(gè)存儲(chǔ)單元和1個(gè)1加載/存儲(chǔ)單元的M5。

在浮點(diǎn)/ SIMD 流水線上，我們將看到具有FMAC功能的第四個(gè)單元。

TLB可能會(huì)發(fā)生一些大變化，例如L1 DTLB從48頁(yè)增加到128頁(yè)，而主TLB從4K頁(yè)增加到8K頁(yè)（32MB覆蓋）。

自M3以來(lái)，M6也是第一次，將增加內(nèi)核的無(wú)序窗口，并使用更大的整數(shù)和浮點(diǎn)物理寄存器文件，以及從以下時(shí)間開(kāi)始增加ROB（重排序緩沖區(qū)）：228至256。

SARC內(nèi)核的一個(gè)主要弱點(diǎn)似乎仍然存在于M5和即將推出的M6內(nèi)核中，這是其更深層次的流水線階段導(dǎo)致相對(duì)昂貴的16周期錯(cuò)誤預(yù)測(cè)損失的結(jié)果，遠(yuǎn)高于Arm的最新設(shè)計(jì)（11級(jí)）周期。

這篇論文更深入地介紹了分支預(yù)測(cè)器設(shè)計(jì)，展示了基于核的可縮放哈希感知器設(shè)計(jì)。這些年來(lái)，設(shè)計(jì)一直在不斷改進(jìn)，提高了分支的準(zhǔn)確性，從而不斷降低了MPKI（mis-predictsper kilo-instructions）。

如下的一個(gè)有趣的表格顯示的是分支預(yù)測(cè)器在前端所占用的存儲(chǔ)結(jié)構(gòu)數(shù)量，單位為Kbytes：

本文進(jìn)一步詳細(xì)介紹了內(nèi)核的預(yù)取方法，包括M5代的μOP緩存的引入，以及團(tuán)隊(duì)對(duì)內(nèi)核的安全漏洞（如Spectre）的抵御。

IPC的改進(jìn)：每年遞增20％，6年達(dá)到2.71倍

本文進(jìn)一步描述了SARC團(tuán)隊(duì)為改善各代產(chǎn)品的內(nèi)存延遲所做的努力。在M4核心中，團(tuán)隊(duì)采用了負(fù)載－負(fù)載級(jí)聯(lián)機(jī)制，將后續(xù)負(fù)載的有效L1周期延遲從4個(gè)周期減少到3個(gè)周期。M4還引入了帶有新接口的路徑旁路，從CPU核心直接到內(nèi)存控制器，避免了通過(guò)互連的流量，這解釋了我們?cè)贓xynos 9820中看到的更大的延遲改進(jìn)。M5引入了推測(cè)性高速緩存查找旁路，同時(shí)向互連和高速緩存標(biāo)簽發(fā)出了一個(gè)請(qǐng)求，這可能節(jié)省了高速緩存未命中的等待時(shí)間，因?yàn)閮?nèi)存請(qǐng)求已經(jīng)在進(jìn)行中。通過(guò)數(shù)代迭代發(fā)展，平均負(fù)載延遲不斷得到改善，從M1上的14.9個(gè)周期下降到M6上的8.3個(gè)周期。

在IPC改進(jìn)方面，SARC團(tuán)隊(duì)在過(guò)去的8年中已設(shè)法平均每年獲得20％的改進(jìn)。如圖所示，M3特別是IPC的一大飛躍。M5與我們?cè)诨鶞?zhǔn)測(cè)試中看到的大致相關(guān)，大約提高了15-17％。據(jù)披露，M6的IPC平均值為2.71，而M1的平均值為1.06，此處的圖表通常似乎表明與M5相比提高了20％。

放棄自研

在會(huì)議的問(wèn)答環(huán)節(jié)中，論文的主持人布萊恩·格雷森（Brian Grayson）回答了有關(guān)自研架構(gòu)計(jì)劃取消的問(wèn)題。團(tuán)隊(duì)在每一代產(chǎn)品的性能和效率改進(jìn)方面一直都是按計(jì)劃進(jìn)行的。據(jù)說(shuō)，團(tuán)隊(duì)最大的困難是對(duì)未來(lái)的設(shè)計(jì)變更非常小心，因?yàn)閳F(tuán)隊(duì)永遠(yuǎn)沒(méi)有資源完全從頭開(kāi)始或完全重寫(xiě)代碼塊。事后看來(lái)，團(tuán)隊(duì)在過(guò)去會(huì)對(duì)一些設(shè)計(jì)方向做出不同的選擇。這種串行化的設(shè)計(jì)方法與Arm的定位形成了鮮明的對(duì)比，Arm有多個(gè)躍遷設(shè)計(jì)中心和CPU團(tuán)隊(duì)，讓他們可以做一些類(lèi)似于Cortex-A76這樣的接地氣的重新設(shè)計(jì)的事情。

對(duì)于即將到來(lái)的M7等核心，團(tuán)隊(duì)有很多改進(jìn)的想法，但據(jù)說(shuō)取消該計(jì)劃的決定來(lái)自于三星的高層。與Arm的設(shè)計(jì)相比，SARC的CPU核心從來(lái)就沒(méi)有那么強(qiáng)的競(jìng)爭(zhēng)力，在功耗效率、性能和面積使用方面都有所下降。由于Arm上周發(fā)布了最新的Cortex-X1以獲得全面的性能，因此在我看來(lái)SARC的M6設(shè)計(jì)可能會(huì)遇到與之競(jìng)爭(zhēng)的問(wèn)題。

免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，轉(zhuǎn)載目的在于傳遞更多信息，并不代表EETOP贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)聯(lián)系我們，我們將在第一時(shí)間刪除！

關(guān)鍵詞：三星處理器 COU