99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

三星自研處理器架構的演變之路:從雄心勃勃到最終放棄

2020-06-04 13:02:33 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
在ISCA(國際計算機體系結構研討會)會議中,三星的SARC(三星奧斯汀研發中心)CPU開發團隊發表了一篇題為“三星Exynos CPU架構的演變”的論文,詳細介紹了該團隊在其8年的發展過程中所做的努力,并介紹了其定制Arm的一些關鍵特征。 CPU內核范圍從Exynos M1到最新的Exynos M5 CPU以及未發布的M6設計。

作為背景,三星的SARC CPU團隊成立于2011年,以開發定制的CPU內核,然后三星LSI將其部署到其Exynos SoC中,從2015年在Galaxy S7中發布的第一代Exynos 8890開始一直最新的用于Galaxy S20的M5內核Exynos 990。目前,SARC已完成M6微體系結構,SARC在2019年10月傳出CPU團隊解散的消息之前,就已經完成了M6微架構。
在ISCA的論文中三星將開發團隊的一些被認為值得保留的想法公布在公眾面前,基本上反應了8年來的開發歷程。

從M1到M6:持續演變的CPU微架構
本文提供了三星定制CPU內核之間的微體系結構差異的總體概覽表:

披露內容涵蓋了設計的一些眾所周知的特征,如三星在HotChips 2016的最初M1 CPU微體系結構的深挖以及在HotChips 2018的最新M3所披露的那樣。它使我們可以洞悉我們在S10和S20評測中測得的新M4和M5微體系結構,并讓我們對未來的M6有了初步的了解。


三星設計的一個關鍵特征是多年來,他們都是基于2011年開發的M1內核藍圖RTL為基礎,多年來不斷改進內核的功能模塊。但到了M3,內核的設計發生了很大的變化。們從幾個方面大幅擴展了內核,例如從4寬設計到6寬中核。

三星設計的主要特征是多年來,它基于2011年以M1內核開始的RTL為基礎,并且多年來不斷改進內核的功能模塊。到M3的設計發生了很大的變化,從幾個方面大幅擴展了內核,例如從4-wide設計到6-wide中核。

之前尚未公開的新披露內容將涉及新的M5和M6內核。對于M5,三星對內核的緩存層進行了較大的更改,例如用新的更大的共享緩存替換了私有L2緩存,以及公開了L3結構從3組設計到2組的變化。具有較少延遲的Bank設計。

就微體系結構而言,正在開發中的尚未發布的M6內核似乎是一個更大的飛躍。SARC團隊在這里進行了較大的改進,例如將L1指令和數據緩存從64KB增加到128KB,這是目前蘋果的CPU核心從A12開始才實現的設計選擇。

據說L2的帶寬能力提高了一倍,最高可達64B /周期,L3的帶寬也將從3MB增加到4MB。

M6可能是8-wide解碼核心,據我們所知,這將是我們所知道的最寬的商業微體系結構-至少在解碼方面。

有趣的是,即使內核要寬得多,整數執行單元也不會做太多改變,只是看到一個復雜的管道增加了第二個整數除法能力,而加載/存儲管道將保持與上一個相同。具有1個加載單元,1個存儲單元和1個1加載/存儲單元的M5。

在浮點/ SIMD 流水線上,我們將看到具有FMAC功能的第四個單元。
TLB可能會發生一些大變化,例如L1 DTLB從48頁增加到128頁,而主TLB從4K頁增加到8K頁(32MB覆蓋)。

自M3以來,M6也是第一次,將增加內核的無序窗口,并使用更大的整數和浮點物理寄存器文件,以及從以下時間開始增加ROB(重排序緩沖區):228至256。
SARC內核的一個主要弱點似乎仍然存在于M5和即將推出的M6內核中,這是其更深層次的流水線階段導致相對昂貴的16周期錯誤預測損失的結果,遠高于Arm的最新設計(11級)周期。

這篇論文更深入地介紹了分支預測器設計,展示了基于核的可縮放哈希感知器設計。這些年來,設計一直在不斷改進,提高了分支的準確性,從而不斷降低了MPKI(mis-predictsper kilo-instructions)。
如下的一個有趣的表格顯示的是分支預測器在前端所占用的存儲結構數量,單位為Kbytes:

本文進一步詳細介紹了內核的預取方法,包括M5代的μOP緩存的引入,以及團隊對內核的安全漏洞(如Spectre)的抵御。
 
IPC的改進:每年遞增20%,6年達到2.71倍

本文進一步描述了SARC團隊為改善各代產品的內存延遲所做的努力。在M4核心中,團隊采用了負載-負載級聯機制,將后續負載的有效L1周期延遲從4個周期減少到3個周期。M4還引入了帶有新接口的路徑旁路,從CPU核心直接到內存控制器,避免了通過互連的流量,這解釋了我們在Exynos 9820中看到的更大的延遲改進。M5引入了推測性高速緩存查找旁路,同時向互連和高速緩存標簽發出了一個請求,這可能節省了高速緩存未命中的等待時間,因為內存請求已經在進行中。通過數代迭代發展,平均負載延遲不斷得到改善,從M1上的14.9個周期下降到M6上的8.3個周期。

在IPC改進方面,SARC團隊在過去的8年中已設法平均每年獲得20%的改進。如圖所示,M3特別是IPC的一大飛躍。M5與我們在基準測試中看到的大致相關,大約提高了15-17%。據披露,M6的IPC平均值為2.71,而M1的平均值為1.06,此處的圖表通常似乎表明與M5相比提高了20%。
 
放棄自研
 
在會議的問答環節中,論文的主持人布萊恩·格雷森(Brian Grayson)回答了有關自研架構計劃取消的問題。團隊在每一代產品的性能和效率改進方面一直都是按計劃進行的。據說,團隊最大的困難是對未來的設計變更非常小心,因為團隊永遠沒有資源完全從頭開始或完全重寫代碼塊。事后看來,團隊在過去會對一些設計方向做出不同的選擇。這種串行化的設計方法與Arm的定位形成了鮮明的對比,Arm有多個躍遷設計中心和CPU團隊,讓他們可以做一些類似于Cortex-A76這樣的接地氣的重新設計的事情。
對于即將到來的M7等核心,團隊有很多改進的想法,但據說取消該計劃的決定來自于三星的高層。與Arm的設計相比,SARC的CPU核心從來就沒有那么強的競爭力,在功耗效率、性能和面積使用方面都有所下降。由于Arm上周發布了最新的Cortex-X1以獲得全面的性能,因此在我看來SARC的M6設計可能會遇到與之競爭的問題。

免責聲明:本文由作者原創。文章內容系作者個人觀點,轉載目的在于傳遞更多信息,并不代表EETOP贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時聯系我們,我們將在第一時間刪除!

關鍵詞: 三星 處理器 COU

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 农村一级黄色片| 中文字幕色综合久久| 国产成人综合精品| 999国内精品永久免费视频| 欧美制服| 国产91小视频在线观看| 亚洲色图国产精品| 一级免费黄色毛片| 免费一级生活片| 爱爱视频在线播放| 成人 亚洲| 日韩精品国产精品| 久久在线国产| 成人黄色一级毛片| 国产线路 中文字幕| 国产精品三级一区二区| 亚洲精品自拍视频| 日本xxwwwxxxx18| 亚洲一区免费视频| 欧美黄区| 放几个免费的毛片出来看| 精品国产人成亚洲区| 国产精品白丝喷水在线观看| 久久久久久久99精品免费| 伊人亚洲影院| 97综合久久| 九一国产在线观看| 亚洲在线免费视频| 成人免费视频一区二区| 免费成人在线观看| 欧美日韩黄色大片| 国产精品成人在线| 99久久er热在这里都是精品66 | 国产又黄又免费aaaa视频| 国产精品高清在线观看| 高清欧美一区二区免费影视| 日本亚洲精品无码专区| 4455永久在线毛片观看| 日本a在线观看| 日本欧美中文字幕| 成人18免费入口|