99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

三星自研處理器架構(gòu)的演變之路:從雄心勃勃到最終放棄

2020-06-04 13:02:33 EETOP
點(diǎn)擊關(guān)注->創(chuàng)芯網(wǎng)公眾號(hào),后臺(tái)告知EETOP論壇用戶名,獎(jiǎng)勵(lì)200信元
在ISCA(國(guó)際計(jì)算機(jī)體系結(jié)構(gòu)研討會(huì))會(huì)議中,三星的SARC(三星奧斯汀研發(fā)中心)CPU開(kāi)發(fā)團(tuán)隊(duì)發(fā)表了一篇題為“三星Exynos CPU架構(gòu)的演變”的論文,詳細(xì)介紹了該團(tuán)隊(duì)在其8年的發(fā)展過(guò)程中所做的努力,并介紹了其定制Arm的一些關(guān)鍵特征。 CPU內(nèi)核范圍從Exynos M1到最新的Exynos M5 CPU以及未發(fā)布的M6設(shè)計(jì)。

作為背景,三星的SARC CPU團(tuán)隊(duì)成立于2011年,以開(kāi)發(fā)定制的CPU內(nèi)核,然后三星LSI將其部署到其Exynos SoC中,從2015年在Galaxy S7中發(fā)布的第一代Exynos 8890開(kāi)始一直最新的用于Galaxy S20的M5內(nèi)核Exynos 990。目前,SARC已完成M6微體系結(jié)構(gòu),SARC在2019年10月傳出CPU團(tuán)隊(duì)解散的消息之前,就已經(jīng)完成了M6微架構(gòu)。
在ISCA的論文中三星將開(kāi)發(fā)團(tuán)隊(duì)的一些被認(rèn)為值得保留的想法公布在公眾面前,基本上反應(yīng)了8年來(lái)的開(kāi)發(fā)歷程。

從M1到M6:持續(xù)演變的CPU微架構(gòu)
本文提供了三星定制CPU內(nèi)核之間的微體系結(jié)構(gòu)差異的總體概覽表:

披露內(nèi)容涵蓋了設(shè)計(jì)的一些眾所周知的特征,如三星在HotChips 2016的最初M1 CPU微體系結(jié)構(gòu)的深挖以及在HotChips 2018的最新M3所披露的那樣。它使我們可以洞悉我們?cè)赟10和S20評(píng)測(cè)中測(cè)得的新M4和M5微體系結(jié)構(gòu),并讓我們對(duì)未來(lái)的M6有了初步的了解。


三星設(shè)計(jì)的一個(gè)關(guān)鍵特征是多年來(lái),他們都是基于2011年開(kāi)發(fā)的M1內(nèi)核藍(lán)圖RTL為基礎(chǔ),多年來(lái)不斷改進(jìn)內(nèi)核的功能模塊。但到了M3,內(nèi)核的設(shè)計(jì)發(fā)生了很大的變化。們從幾個(gè)方面大幅擴(kuò)展了內(nèi)核,例如從4寬設(shè)計(jì)到6寬中核。

三星設(shè)計(jì)的主要特征是多年來(lái),它基于2011年以M1內(nèi)核開(kāi)始的RTL為基礎(chǔ),并且多年來(lái)不斷改進(jìn)內(nèi)核的功能模塊。到M3的設(shè)計(jì)發(fā)生了很大的變化,從幾個(gè)方面大幅擴(kuò)展了內(nèi)核,例如從4-wide設(shè)計(jì)到6-wide中核。

之前尚未公開(kāi)的新披露內(nèi)容將涉及新的M5和M6內(nèi)核。對(duì)于M5,三星對(duì)內(nèi)核的緩存層進(jìn)行了較大的更改,例如用新的更大的共享緩存替換了私有L2緩存,以及公開(kāi)了L3結(jié)構(gòu)從3組設(shè)計(jì)到2組的變化。具有較少延遲的Bank設(shè)計(jì)。

就微體系結(jié)構(gòu)而言,正在開(kāi)發(fā)中的尚未發(fā)布的M6內(nèi)核似乎是一個(gè)更大的飛躍。SARC團(tuán)隊(duì)在這里進(jìn)行了較大的改進(jìn),例如將L1指令和數(shù)據(jù)緩存從64KB增加到128KB,這是目前蘋(píng)果的CPU核心從A12開(kāi)始才實(shí)現(xiàn)的設(shè)計(jì)選擇。

據(jù)說(shuō)L2的帶寬能力提高了一倍,最高可達(dá)64B /周期,L3的帶寬也將從3MB增加到4MB。

M6可能是8-wide解碼核心,據(jù)我們所知,這將是我們所知道的最寬的商業(yè)微體系結(jié)構(gòu)-至少在解碼方面。

有趣的是,即使內(nèi)核要寬得多,整數(shù)執(zhí)行單元也不會(huì)做太多改變,只是看到一個(gè)復(fù)雜的管道增加了第二個(gè)整數(shù)除法能力,而加載/存儲(chǔ)管道將保持與上一個(gè)相同。具有1個(gè)加載單元,1個(gè)存儲(chǔ)單元和1個(gè)1加載/存儲(chǔ)單元的M5。

在浮點(diǎn)/ SIMD 流水線上,我們將看到具有FMAC功能的第四個(gè)單元。
TLB可能會(huì)發(fā)生一些大變化,例如L1 DTLB從48頁(yè)增加到128頁(yè),而主TLB從4K頁(yè)增加到8K頁(yè)(32MB覆蓋)。

自M3以來(lái),M6也是第一次,將增加內(nèi)核的無(wú)序窗口,并使用更大的整數(shù)和浮點(diǎn)物理寄存器文件,以及從以下時(shí)間開(kāi)始增加ROB(重排序緩沖區(qū)):228至256。
SARC內(nèi)核的一個(gè)主要弱點(diǎn)似乎仍然存在于M5和即將推出的M6內(nèi)核中,這是其更深層次的流水線階段導(dǎo)致相對(duì)昂貴的16周期錯(cuò)誤預(yù)測(cè)損失的結(jié)果,遠(yuǎn)高于Arm的最新設(shè)計(jì)(11級(jí))周期。

這篇論文更深入地介紹了分支預(yù)測(cè)器設(shè)計(jì),展示了基于核的可縮放哈希感知器設(shè)計(jì)。這些年來(lái),設(shè)計(jì)一直在不斷改進(jìn),提高了分支的準(zhǔn)確性,從而不斷降低了MPKI(mis-predictsper kilo-instructions)。
如下的一個(gè)有趣的表格顯示的是分支預(yù)測(cè)器在前端所占用的存儲(chǔ)結(jié)構(gòu)數(shù)量,單位為Kbytes:

本文進(jìn)一步詳細(xì)介紹了內(nèi)核的預(yù)取方法,包括M5代的μOP緩存的引入,以及團(tuán)隊(duì)對(duì)內(nèi)核的安全漏洞(如Spectre)的抵御。
 
IPC的改進(jìn):每年遞增20%,6年達(dá)到2.71倍

本文進(jìn)一步描述了SARC團(tuán)隊(duì)為改善各代產(chǎn)品的內(nèi)存延遲所做的努力。在M4核心中,團(tuán)隊(duì)采用了負(fù)載-負(fù)載級(jí)聯(lián)機(jī)制,將后續(xù)負(fù)載的有效L1周期延遲從4個(gè)周期減少到3個(gè)周期。M4還引入了帶有新接口的路徑旁路,從CPU核心直接到內(nèi)存控制器,避免了通過(guò)互連的流量,這解釋了我們?cè)贓xynos 9820中看到的更大的延遲改進(jìn)。M5引入了推測(cè)性高速緩存查找旁路,同時(shí)向互連和高速緩存標(biāo)簽發(fā)出了一個(gè)請(qǐng)求,這可能節(jié)省了高速緩存未命中的等待時(shí)間,因?yàn)閮?nèi)存請(qǐng)求已經(jīng)在進(jìn)行中。通過(guò)數(shù)代迭代發(fā)展,平均負(fù)載延遲不斷得到改善,從M1上的14.9個(gè)周期下降到M6上的8.3個(gè)周期。

在IPC改進(jìn)方面,SARC團(tuán)隊(duì)在過(guò)去的8年中已設(shè)法平均每年獲得20%的改進(jìn)。如圖所示,M3特別是IPC的一大飛躍。M5與我們?cè)诨鶞?zhǔn)測(cè)試中看到的大致相關(guān),大約提高了15-17%。據(jù)披露,M6的IPC平均值為2.71,而M1的平均值為1.06,此處的圖表通常似乎表明與M5相比提高了20%。
 
放棄自研
 
在會(huì)議的問(wèn)答環(huán)節(jié)中,論文的主持人布萊恩·格雷森(Brian Grayson)回答了有關(guān)自研架構(gòu)計(jì)劃取消的問(wèn)題。團(tuán)隊(duì)在每一代產(chǎn)品的性能和效率改進(jìn)方面一直都是按計(jì)劃進(jìn)行的。據(jù)說(shuō),團(tuán)隊(duì)最大的困難是對(duì)未來(lái)的設(shè)計(jì)變更非常小心,因?yàn)閳F(tuán)隊(duì)永遠(yuǎn)沒(méi)有資源完全從頭開(kāi)始或完全重寫(xiě)代碼塊。事后看來(lái),團(tuán)隊(duì)在過(guò)去會(huì)對(duì)一些設(shè)計(jì)方向做出不同的選擇。這種串行化的設(shè)計(jì)方法與Arm的定位形成了鮮明的對(duì)比,Arm有多個(gè)躍遷設(shè)計(jì)中心和CPU團(tuán)隊(duì),讓他們可以做一些類(lèi)似于Cortex-A76這樣的接地氣的重新設(shè)計(jì)的事情。
對(duì)于即將到來(lái)的M7等核心,團(tuán)隊(duì)有很多改進(jìn)的想法,但據(jù)說(shuō)取消該計(jì)劃的決定來(lái)自于三星的高層。與Arm的設(shè)計(jì)相比,SARC的CPU核心從來(lái)就沒(méi)有那么強(qiáng)的競(jìng)爭(zhēng)力,在功耗效率、性能和面積使用方面都有所下降。由于Arm上周發(fā)布了最新的Cortex-X1以獲得全面的性能,因此在我看來(lái)SARC的M6設(shè)計(jì)可能會(huì)遇到與之競(jìng)爭(zhēng)的問(wèn)題。

免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),轉(zhuǎn)載目的在于傳遞更多信息,并不代表EETOP贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)聯(lián)系我們,我們將在第一時(shí)間刪除!

關(guān)鍵詞: 三星 處理器 COU

  • EETOP 官方微信

  • 創(chuàng)芯大講堂 在線教育

  • 半導(dǎo)體創(chuàng)芯網(wǎng) 快訊

全部評(píng)論

主站蜘蛛池模板: 一区二区不卡在线观看| 国产一在线观看| 激情影院成人区免费观看视频| 亚洲日本乱码中文在线电影亚洲| 天天看片网站| 亚洲欧美日韩中文高清ww| 欧美精品不卡| 国产美女精品| 高清性色生活片免费视频软件| 国产精品人人爱一区二区白浆 | 亚洲精品一区二区三区网址| 欧美黄色影院| 国产自自拍| 久久福利国产| 色天天综合| 亚洲图片二区| 99久久中文字幕伊人情人| 日韩免费在线视频观看| 在线 中文字幕 日韩 欧美| 青青热在线精品视频免费| 国产伦精品一区三区视频| 特及毛片| 精品三级在线观看| 国产精品不卡在线观看| 久久久久亚洲| 欧美日韩国产亚洲综合不卡| 亚洲免费在线| 伊人激情网| 97视频在线免费播放| 三级理论中文字幕在线播放| 日本一区二区三区久久精品| 日韩精品一级a毛片| 欧美毛片一级| 热久久国产欧美一区二区精品| 超清波多野结衣精品一区| 国产精品亚洲片在线观看不卡| 久久在视频| 久久综合九色综合欧洲| 欧美精品一区二区三区在线播放| 色综合99| 日韩欧免费一区二区三区|