英特爾與AMD的x86服務器戰(zhàn)爭編年史
2021-05-10 12:28:30 科技新報 作者:癡漢水球本篇文章將帶你了解 :
x86 是怎么一步一步取得服務器市場的主導地位?「x86 Everywhere」怎么產生的?x86 雙雄將如何面對服務器市場巨變
英特爾前陣子「總算」正式發(fā)布拖延已久的第三代Xeon-SP 平臺Whitley 與Ice Lake-SP(ICX)處理器,也順勢表示,自從2017 年推出第一款Xeon-SP 以來,英特爾向全球客戶交貨了超過5 千萬顆Xeon-SP 處理器。此外,從2013 年開始,云端服務業(yè)者總計部署超過10 億個Xeon 核心,超過800 家云端服務供應商導入Xeon 處理器。
打開百度APP看高清圖片
誕生于1998 年6 月29 日的Xeon,是英特爾第一個貨真價實的服務器產品品牌,歷經超過20 年的光陰,更早已成為x86 指令集兼容處理器,站穩(wěn)服務器市場的不動象征。
英特爾有支撐獲利的服務器產品線Xeon,從2003 年到2017 年,AMD 也曾經擁有過Opteron,更曾在2003~2007 年這段期間,在服務器市場極盛一時,象征AMD 最輝煌的黃金歲月。
如同在GPU 戰(zhàn)場,對英特爾和AMD 最重要的議題,在于能否重返高性能運算和人工智能應用,并擺脫軟件生態(tài)系統(tǒng)遠不如nVidiaCUDA 的困境。在CPU 領域,英特爾和AMD 真正的決戰(zhàn)焦點,更絕非桌機筆電,而是帶來更高獲利的服務器與數據中心,而英特爾這市場曾經擁有超過九成占有率。
但很不幸的,英特爾卻在今年第一季財報,上演英特爾財報出現(xiàn)「服務器毛利率低于個人電腦」的世界奇觀(這應該是1998年Xeon品牌誕生以來首次),以及AMD靠反攻數據中心的戰(zhàn)果,交出營收年增93%的漂亮財報。背后代表的意涵,不言可喻。
筆者曾在2017年夏天,發(fā)布《為何AMD近十年x86 CPU打不過英特爾?戰(zhàn)局會改觀嗎?》一文,以編年史體裁,寫了落落長流水帳,也預言 AMD的反攻機會,將來自云端服務業(yè)者的真實需求。現(xiàn)在我們就以服務器角度,重新檢視英特爾和AMD那將近30年的服務器市場開拓史,并留給各位認真思考「x86雙雄的未來」的空間。
經過超過25年的努力,英特爾和AMD攜手建立x86指令集兼容處理器,在今日數據中心與服務器的主宰地位。昔日難登大雅之堂、只能屈居個人電腦的吳下阿蒙,突破眾多「RISC諸神」(MIPS、SPARC、PA-RISC、Power、Alpha)建立的馬奇諾防線,并讓「RISC諸神的黃昏」成為眾多「計算機組機結構正統(tǒng)教義派」和「RISC十字軍」不愿面對的現(xiàn)實。
踏入時間軸之前,筆者先分別以「技術」、「商業(yè)」和「政治」的角度,剖析為何x86 走到這一步,然后未來又將面對哪些挑戰(zhàn)。
第一個大哉問:就「技術」的角度,x86 是怎么一步一步取得服務器市場的主導地位?
我們就先從技術層面開始講起。
x86 處理器在服務器市場最重要的一天?
1995 年11 月1 日,英特爾發(fā)布P6 微架構的Pentium Pro,這是這間公司史上最重要的芯片,沒有之一。
1990 年開始萌芽的當代高性能處理器微架構,有所謂的「4S 指標」:超標量(Superscalar)、超流水線(Superpipeline)、多處理器可擴展性(Scalability)、系統(tǒng)管理能力(System Management) 。
Pentium Pro 是當時x86 處理器唯一兼顧4S 者,同期Cyrix 與AMD 均難以望其項背,且Pentium Pro 的整數運算性能,足以跟同期高端RISC 處理器分庭抗禮。至于浮點運算全面超車RISC 陣營,是SSE2 指令集誕生后的事了。
Pentium Pro 到底厲害在哪?
結合高效率的系統(tǒng)總線、改良后的內建式可編程中斷控制器(APIC)、絲毫不會浪費系統(tǒng)總線帶寬的獨立第二階快取存儲器,與處理器核心具備非循序存儲器存取能力,PentiumPro 替x86 敲開服務器天堂的大門,讓英特爾過了快7 年的好日子,直到被宿敵AMD 用名為K8 的大榔頭(Hammer)狠狠敲昏為止。
那一天x86 處理器奠定在服務器市場的不動地位?
1998 年6 月29 日問世的Xeon 品牌,從此成為x86 服務器的象征,以及英特爾最重要的現(xiàn)金母牛(Cash Cow)。
依據英特爾的既定戰(zhàn)略,服務器的大旗應由Itanium 一肩扛起,那為何失敗?
因為英特爾一連串策略失誤,加上缺乏對高端服務器市場的基本認知,讓「64 位元真命天子」IA-64 指令集和Itanium處理器,不得不消失在歷史的洪流,也結束了英特爾企圖消滅80x86 的野心。現(xiàn)在看來這偉大的「歷史使命」,似乎落在ARM 陣營的肩上?
AMD 又是如何踏入服務器市場?
理所當然的是2002 年4 月24 日發(fā)布的Opteron 品牌,「剛剛好」微軟也在同一天宣布即將推出x86-64 版Windows 操作系統(tǒng)。
骨灰級電腦玩家一定記得2001 年6 月5 日的Athlon MP,但源自Alpha 的EV6 總線,大幅提高實做多處理器平臺的門檻,基本上可謂無疾而終,很快就被Opteron 取代。
AMD 的Opteron 又厲害在哪些地方?
講白了,AMD K8 微架構從內到外的每個環(huán)節(jié),幾乎比照高端RISC 辦理,假若把K7 看成「x86世界的Alpha 21264」,那K8 就是「窮人版的Alpha 21364」。
AMD K8 微架構的Hyper-Transport 系統(tǒng)總線、處理器整合存儲器控制器、更先進的MOSEI 快取數據一致性協(xié)定、強大的RAS(可靠性、可用性、可服務性)、與諸多節(jié)能特色等優(yōu)勢,為x86 服務器帶來前所未有的多處理器及多核心延展能力,勿需價高量少的特殊服務器芯片組,任何一家服務器廠商都可輕松打造「四顆甚至八顆處理器的x86服務器」。
AMD K8 帶領x86 進入64 位元的世界,徹底摧毀了中低端RISC / Unix 服務器僅存的脆弱保護傘。K8 激增AMD 的市場影響力,讓AMD 在高性能x86處理器技術領域,擁有足以和英特爾平起平坐的地位。Xeon 與Opteron兩大品牌雙日爭輝、兄弟登山各自努力,擴大x86 在服務器世界的版圖。
那為何RISC 諸神就從此一蹶不振,只剩下IBM Power 碩果僅存?
因為它叫「IBM」。
第二個大哉問:就商業(yè)和政治角度,「x86 Everywhere」又怎么產生的?
天底下任何產品演進和市場發(fā)展,都是「技術」、「商業(yè)」與「政治」彼此交錯影響的結果。x86 指令集兼容處理器能夠「反淘汰」RISC 諸神,相較冷冰冰的技術,商業(yè)和政治更舉足輕重。
1990 年代末期,x86 處理器逐步支配服務器市場的關鍵性因素?
Windows NT。Linux(筆者私心想加上FreeBSD)。出貨量持續(xù)激增的個人電腦市場。沒了,就這樣。
個人電腦市場跟服務器又有什么關系?
1998年全球出貨量突破「1億」大關的個人電腦市場,成為英特爾和AMD長期維系半導體業(yè)界最先進制程與最龐大研發(fā)團隊的基本盤,不僅對「RISC諸神」享有壓倒性成本優(yōu)勢,讓更多的電晶體數量,充分彌補 x86指令集的眾多先天缺陷(Pentium比PowerPC 601多30%電晶體,只為了維持x86指令集兼容性),更分攤天文數字般的產品研發(fā)開銷。x86處理器在服務器市場的成長,可視為「下克上」的日本戰(zhàn)國時代故事。
RISC 指令集應該更容易打造能耗比更高的處理器,但到頭來在服務器市場并不是這么回事?
這跟x86處理器在1990年代末期延伸到筆記型電腦,有根深蒂固的關聯(lián),尤其當英特爾為了Centrino量身訂做Pentium M處理器,奠定「追求高能耗比」的長期發(fā)展方向后,服務器產品線也雨露均沾。2006年Merom微架構一統(tǒng)服務器、桌機和筆電,更讓Xeon產品線「強迫中獎」,讓IBM Power和Oracle / Sun的SPARC相較之下,根本毫無優(yōu)勢。
這些年來,假如各位也有關心那票前仆后繼、有一陣沒一陣的「ARM服務器」,也勢必會注意到,那些規(guī)格看起來很暴力的ARM處理器,怎么好像也沒省電到那去?其實當處理器微架構的復雜度抵達「某條看不見的臨界點」,「相對復雜又毫無道理可尋的」x86指令集帶來的額外「賦稅」也就不會那么明顯了。
IBM 不是一直想推動Power Everywhere,為何難以成功?
因為IBM 自己也在做服務器,會有「球員兼裁判」的疑慮,這就是非常顯而易見的政治因素。
誰能動搖x86 處理器在近代數據中心的主導地位?
唯有這票大型云端服務業(yè)者通通自研自制自家專用的「非x86」(不見得是ARM,如Google 的TPU)處理器并全部取而代之,否則將難以動搖x86 的地位。況且先進制程晶圓代工廠的產能,也是處于供不應求的緊繃狀態(tài),貿然放棄擁有大量自有產能的英特爾處理器,風險不能說不小。看看AMD 的缺貨窘境就知道了,產品再好,出不了貨也只是白費力氣。
至于一般商用服務器市場,也是要等到ARM 在企業(yè)服務器應用的生態(tài)系統(tǒng),成熟到連一般的MIS 都愿意采用,這之前講再多都多余。
無論英特爾還是AMD,近代主流x86 微架構都是「服務器、桌機、筆電」共用,那眼前的Xeon-SP 和EPYC,難道真是「100% 服務器最佳化」設計嗎?
這就是x86 指令集的原罪:超級長的產品開發(fā)及驗證時程,強迫擁有巨大研發(fā)能量的英特爾和AMD,也只能將資源聚焦在極為少數的專案,也難以迅速應對新興的應用需求,這就是ARM 等IP 授權商、EDA 工具軟件和專業(yè)晶圓代工,會主導消費性產品芯片的主因。
這才是ARM 陣營在服務器領域的最佳切入點,但偏偏也只有「實際的使用者」才知道需要的產品規(guī)格究竟是什么,而他們卻都有自己開發(fā)芯片的本錢。
最后,ARM 能在服務器市場引發(fā)迅速的「典范轉移」嗎?
坦白講,怎么想都非常的困難,除非革命性的應用,像軟件定義網絡、網絡功能虛擬化和25G+以太網絡,讓從1G邁向10G花了整整十年以太網絡,只花不到3年就跑出一狗票Smart NIC,讓整體數據中心應用架構出現(xiàn)顛覆性演化,要不然都是難如登天。也許大家可以多多關切 Nvidia企圖發(fā)動的革命,以及云端巨頭又有哪些風吹草動。
更何況英特爾和AMD 又不會躺著等死,一切都還很有得瞧。當然,AMD 自己帶頭做ARM 版EPYC 的話,那又是另一條截然不同的世界線了。
現(xiàn)在就讓我們想像搭上時光機,回到世人對x86 的刻板印象,難以與「服務器」劃上等號的古老年代。
1995~1998 年:英特爾發(fā)動的醞釀期
個人電腦普及化,帶來更慘烈的價格競爭,1990 年代后期的英特爾和AMD 為了維持獲利,投入服務器市場,實乃不得不然。在1994 年第一季,主頻100MHz 的Pentium 可賣到「995美元」(今天都足以組出一臺頂規(guī)桌機),只過個半年就要打七折了。
個人電腦出貨量抵達1億臺歷史新高的1998年,「600美元個人電腦」蔚為風潮,引爆低端處理器的價格戰(zhàn)爭,導致英特爾的Celeron和 AMD的K6-2 大打出手,還「順便」打垮一票x86處理器小廠(Cyrix、Centaur、Rise),入門級CPU的平均售價(ASP),更是下探到100美元之譜。
Xeon 并非英特爾首次進軍服務器市場,第二代Pentium(P54C)內建支持雙處理器組態(tài)的先進可程式化中斷控制器(APIC),和Pentium Pro(P6)帶來革命性處理器微架構與嶄新系統(tǒng)平臺,都是以功敗垂成黯然收場的嘗試。好吧,200MHz Pentium Pro「膽敢」開價1,989 美元,也算很了不起的豐功偉業(yè)了。
反觀那票從1980 年代末期開始,已經盤據服務器市場已久的「RISC 諸神」,早就享受豐厚利潤,以Sun 的UltraSPARC 為例,1998 年第二季,也是個人電腦市場的削價戰(zhàn)殺聲震天之際,主頻360MHz 的UltraSPARC II模組,要價高達3,961 美元。
我們也知道,今天即使同樣晶粒,封裝印著不同品牌,價格就天差地遠。AMD 還曾為了解釋單處理器的Opteron 100 系列和桌機的Athlon 64 究竟有何不同,特別制作說明用簡報,大意就是Opteron 用的晶粒品質比較好、驗證項目比較多、微碼(Microcode)修補bug 重點不同之類的。
這也是為何這些年來,連發(fā)跡于消費性電子產品的RISC指令集,像目前最普及的ARM,陣營也汲汲營營服務器市場。x86處理器世界快沒存在感的VIA也沉潛多年,生出目標5G邊緣服務器(MEC)的 CHA系統(tǒng)單芯片。充滿神秘俄系血統(tǒng)的俄羅斯Elbrus,更在多處理器服務器耕耘已久,只為了讓CPU不受制于「邪惡的美國帝國主義者」。
對技術有深度認知的讀者,或多或少也了解,服務器用的CPU不僅需要更好性能、出色的多處理器擴充性與性能延展性、更完備的高可靠性、滴水不漏的可用性,并搭配強大的系統(tǒng)芯片組和更高容量的系統(tǒng)主存儲器。
但商業(yè)因素卻遠比技術門檻更嚴峻:英特爾和AMD 要如何說服企業(yè)客戶,一間長期研制100 美元桌上型便宜貨的廠商,有資格銷售3,500 美元等級的服務器高級品,所以就像另外成立「豪華車專屬品牌」的汽車廠商,英特爾必須創(chuàng)造Xeon 以區(qū)隔市場。英特爾的老對手AMD,于兼容Alpha EV6 總線的Athlon MP 企圖搶灘服務器市場失敗之后,2002 年4 月24 日也借Opteron 之名,踏上一條殊途同歸的荊棘之路。
1998~2001 年:Xeon 誕生的開創(chuàng)期
英特爾首要之務莫過于推出「一看就知道是服務器專用」的產品,巨大Slot-2「彈夾」就為此而生。
但英特爾并非只為了讓Xeon看起來比較專業(yè),才搞出這樣的巨大塑膠盒,更為了因應更高容量的同核心主頻L2快取存儲器,原先242只針腳的Slot-1無法滿足供電需求,Slot-2擴展為330只,趁機塞入系統(tǒng)管理總線(SMBus),并將原生的多處理器支持性,恢復到Pentium Pro的4顆(Pentium II僅2顆)。此外,為確保四處理器時,系統(tǒng)總線可跑到100MHz,在英特爾擁有專利的GTL+之外,進一步引進AGTL+訊號,在Pentium III世代再提升到133MHz。
「擴大存儲器容量」和「快取存儲器的定址范圍」也是另一場重頭戲。為了突破32位元的4GB限制,除了PentiumPro問世的PAE-36模式,Pentium II世代Xeon 追加「性能較低,但比較不需要修改操作系統(tǒng)」的PSE-36。Pentium II世代Xeon的L2快取存儲器可涵蓋到整個64GB可定址存儲器范圍,不像早期的Pentium II有512MB或4GB限制。提高數據可靠度的ECC糾錯,更是必備的制式武裝。
如同低價電腦Celeron,Pentiun III時代后期的Xeon,隨著制程技術的進步,逐步將外部快取存儲器塞回CPU本體。2001年3月21日登場的Xeon 900A,內建多達2MB的L2快取,開英特爾實作超大型化快取存儲器之先例。也難怪日后英特爾常被取笑:這間公司最大的業(yè)務不是CPU,而是制造快取存儲器。
2001~2004年:Xeon的擴張期與AMD Opteron即將帶來的風暴
英特爾2001年之后的Xeon產品線命名,完全拿掉Pentium字樣,借此徹底擺脫個人電腦形象,也在這段32位元NetBurst微架構期間,確立了Xeon DP(雙處理器)和Xeon MP(四處理器)分立的局面,也結束了Pentium II / Pentium III時期,桌機處理器可以同時插兩顆的美好年代。要支持多處理器,請乖乖掏錢購買更貴的Xeon。
因服務器產品追求更高的可靠性和穩(wěn)定性,導致驗證時期較長,XeonMP通常推出時程較晚,且主頻也較低,也有更大容量的快取存儲器。相較之下,Xeon DP比較像桌機處理器換成另一種封裝產物。從NetBurst開始出現(xiàn)的xAPIC,將APIC的3位元專屬總線,直接融入系統(tǒng)總線的通訊協(xié)定,避免APIC運作時影響存儲器存取性能,并將處理器核心上限激增到255個。
如同初代180nm制程Pentium 4被批評空有高主頻,但部分性能不如前代Pentium III甚至AMD Athlon MP,初期的Xeon DP也被指責整體性能不及擁有2MB L2快取存儲器的末代Pentium III Xeon,這問題到了130納米制程世代,主頻大幅提升后,才漸漸消失。
此外,一般資深電腦玩家對英特爾的HyperThreading的初次登場,印象多半是2002年11月之后的130納米制程Pentium 4,但其實早在當年2月的130納米制程Xeon DP就問世了。對于多人多工作業(yè)的服務器來說,可改善整體輸出率的同步多線程(SMT)技術,確實是天作之合。
更重要的是,英特爾以實際行動證實180納米制程的NetBurst核心,已經內建HyperThreading的謠傳,2003年3月的Xeon MP就支持這「一顆當兩顆用」的神秘功能。至今英特爾尚未透露為何初代Pentium 4要這樣留一手,主因可能是個人電腦操作系統(tǒng)的多處理器支持性。
面對來勢洶洶的AMD K8,英特爾在2003年9月,搶在Athlon 64和Athlon 64 FX前一周,發(fā)布將Xeon專用核心「下放」到桌機的Pentium 4 Extreme Edition,但仍然難以挽回頹勢,也讓2004年2月的90納米制程Pentium 4 Prescott產品定位,顯得更尷尬。
Xeon MP一次連接四顆CPU的SMP系統(tǒng)總線,以及共用的存儲器控制器,成為明顯的性能瓶頸,也突顯AMD K8內建存儲器控制器與HyperTransport總線的絕大優(yōu)勢。在2003年4月22日,AMD Opteron的降臨,讓英特爾做了好幾年惡夢,也讓英特爾的處理器產品時程表,陷入了前所未見的極大混亂。
2003年:開啟AMD全盛期的Opteron
英特爾跟HP合作的IA-64指令集與Itanium處理器,策略失當與出師不利,送給了AMD伺機殺入服務器市場的大好機會。相較于英特爾,AMD Opteron不僅享有壓倒性的技術優(yōu)勢,其產品編號也極度的清晰易懂,可以想見「有備而來」的程度。
1開頭:單處理器。2開頭:雙處理器。8開頭:多處理器(四顆或八顆)。邁進DDR2存儲器后,編碼變成x200,以此類推,2即代表「第二世代」。
加上當時正是x86服務器也需要直接定址超過4GB主存儲器的心理關鍵時刻,讓AMD發(fā)布于1999年的x86-64指令集,因具備x86回溯兼容性兼具倍增數據暫存器,變成很具吸引力的64位元方案。
2002年4月24日,AMD公布Opteron品牌,同一天微軟也「很巧合」宣布將發(fā)行x86-64版Windows,讓英特爾欽定的「64位元真命天子」Itanium處理器的未來,蒙上不祥的陰霾。
同場加映AMD其他K8產品線品牌的發(fā)布日期,這也代表著64位元x86指令集,逐步推廣到其他應用領域的里程碑。
Athlon 64(桌機):2002年11月19日。Sempron(低價產品):2004年6月7日。BBS連線硬體版戲稱為「散步龍」,和英特爾的「洗地龍」(Celeron)相互輝映,唯一的共同點就是「散步」和「洗地」都象征「跑不快」。Turion 64(筆電):2005年1月10日,筆者還依稀記得HP還是帶頭沖第一的筆電廠商。AMD之所以能短短兩年就席卷服務器市場,從英特爾手上硬搶下超過30%市場占有率,除了64位元,還有很多重要因素。
服務器等級的偵錯容錯機制:從ECC單位元糾錯的L1數據快取與L2快取、預防存儲器多位元錯誤的存儲器Chipkill技術、Parity位元偵錯的L1指令快取、巨大的轉譯后備緩沖區(qū)(TLB)、到回報系統(tǒng)錯誤的MCA(Machine Check Architecture)機能,都充分展現(xiàn)了AMD搶攻服務器市場的決心。
HyperTransport總線: Opteron直接提供點對點連接處理器的方式,不像英特爾的傳統(tǒng)北橋架構,每個處理器都要共用有限的FSB頻寬外,打造大型系統(tǒng)也需要昂貴復雜的芯片組、如橋接芯片,這讓實作Opteron多處理器環(huán)境遠比Xeon輕松。
也因此,大型Opteron多處理器平臺享有比Xeon MP更短的研發(fā)時間,不僅成本比較低廉,性能和可靠度上更是毫無妥協(xié),一度讓AMD在四處理器以上x86服務器,曾有40 %以上市占率。英特爾是到2008年的Nehalem有了QPI,才追上AMD。
高效率的快取數據一致性協(xié)議(CacheCoherence Protocol):這對多處理器環(huán)境性能有著舉足輕重的影響,而AMD的MOESI協(xié)定有極為出色的表現(xiàn)。
和處理器核心同主頻的整合型存儲器控制器:多處理器環(huán)境變成CC-NUMA(Cache Coherence-Non Unified Memory Architecture)分散式存儲器架構,讓Opteron整體存儲器性能,遠勝過英特爾的系統(tǒng)前端總線(FSB)連接北橋(North Bridge)的架構。
整合式存儲器控制器讓處理器數量越多,可擴增的存儲器容量也會更大。2005年,企業(yè)需要128GB主存儲器容量的服務器,采用Itanium的HP SuperDome要價4千萬臺幣,但八顆Opteron的系統(tǒng),如Sun X4600和Iwill H8501,每顆安裝16GB存儲器,價格卻僅十分之一,巨大優(yōu)勢不言可喻。
直沖原生雙核心:當北橋存儲器控制器都位于在處理器晶粒之中,自然也不必擔憂雙核心什至多核心的內部頻寬與延遲問題。AMD打從2001年,就宣布讓K8直奔原生雙核心(請注意下圖的CPU 0和CPU 1),更在2004年8月31日(2004年秋季IDF)就公開雙核心樣品,2005年4月準時登場,這是AMD x86處理器發(fā)展史上最重大的戰(zhàn)略勝利。
K7演進而來的成熟微架構:K8是以K7為基礎進行改良的產物,相較于同時期的英特爾NetBurst體系,也享有壓倒性的低功耗。AMD在2002年2月26日(2002年春季IDF)首次展示單核心K8,隔年4月正式上市,屢次用較低的運作主頻「屠殺」英特爾NetBurst體系的產品線。
強大動態(tài)分支預測和存儲器轉譯后備緩沖區(qū):足以應付「分支密集且狂吃存儲器頻寬」的服務器端應用軟件的行為模式。
值得一提的是,因為K8的L1 / L2快取數據「互斥」(Exclusive),AMD還利用「L1指令快取的數據,被擠回L2時,L2的ECC形同浪費」(L1指令快取只有Parity)特色,將分支選擇器「偷放」在這個欄位,以增強分支預測器的容量,并兼顧性能與成本,堪稱非常厲害的巧思,畢竟L1指令快取被偵測到數據受損,頂多從存儲器重新擷取一次就好了。
2003年底上市的Opteron 848,售價高達「3,199美元」,這對過去只能在個人電腦市場跟英特爾打削價戰(zhàn)的AMD來說,簡直是連想都不敢想的夢。
2004年6月14日,AMD發(fā)新聞稿,昭告天下「我們已經設計完畢原生雙核產品」,并大方攤開產品時程表給大家看。
2004年7月17日:Cray宣布將建造由10880顆Opteron構建出來的Red Storm超級電腦。
2004年8月23日:AMD與Newisys在IEEEHotChips 16發(fā)布Horus芯片組,這是AMD史上首款32處理器的大型系統(tǒng)架構(即使后來胎死腹中)。
2005年4月21日,AMD風光發(fā)布雙核心的Opteron 800系列,領先英特爾的Core 2家族整整超過一年,堪稱這間公司最意氣風發(fā)的時刻。
只不過,再多好運也有用完的一天。當時無人預料到,AMD不僅將面對英特爾即將發(fā)動的帝國大反擊(還是由Pat Gelsinger領軍),更將在邁向原生四核心處理器之路,重重跌了一跤,還再不能爬起來。
2004~2006年:陷入空前混亂的英特爾
AMD在服務器市場趁勢崛起的期間,英特爾的64位元布局,被AMD搞得陣腳大亂,陷入內外交逼困境,結果就是一連串趕鴨子上架的64位元x86指令集、東拼西湊的性能改進方案、以及換湯不換藥的「雙餡水餃」雙核心。
這時期的Xeon,除了具備大型化L3快取的Xeon MP,和看起來有點像勉強趕工出來的雙核Xeon DP,清一色都是桌機體系的衍生品,只差在芯片封裝是包一顆還是包兩顆,然后順便「解放」被封印的64位元。
此外,值得一提的是,后來在這NetBurst混亂期的末期,英特爾確立了Xeon MP 7000和Xeon DP 5000命名體系。你現(xiàn)在看到Xeon的四碼數字型號,就是以這時候為起點。
但AMD在服務器市場帶來的空前威脅,逼出英特爾全部潛力,也讓Xeon逐漸具備了更強大的多處理器競爭力。以Xeon MP平臺Truland為例,E8500系列芯片組不僅藉由兩條系統(tǒng)前端總線稍微彌補跟AMD Opteron的頻寬差距,更「外掛」存儲器緩沖控制器(XMB,External Memory Buffer),實現(xiàn)更高的存儲器容量與頻寬。
芯片組的管腳數量有限,就算不惜血本,在北橋芯片組內「硬干」八通道存儲器,屆時單一存儲器通道能夠「推的動」幾條模組,也將會是個大難題。不如分而治之,把部份存儲器控制器的機能分割出來,反正高單價的多處理器服務器,也足以吸收這些額外的成本。有點年紀的讀者也應當知曉,這早已是眾多高端服務器(像IBM的Power和Z系列大型主機)行之有年的特色。
日后一系列的Xeon MP也依循同樣方式,像八核的Nehalem-EX、十核的Westmere-EX、十五核的Ivy Bridge-EX、十八核的Haswell-EX和二十四核的Broadwell- EX,直到英特爾從14納米制程「牙膏期」的Xeon-SP之后,將存儲器控制器機能全數收回到CPU內部。
為了提升服務器的網絡存取性能,微軟2006年3月發(fā)布Scalable Networking Pack(SNP)與NDIS 5.2 Miniport驅動程式架構,技術核心的NetDMA規(guī)范,企圖打通一條從網絡卡直奔應用程式存儲器的「煙囪」,而英特爾的XeonDP Bensley平臺就成為首款對應I/OAT的產品。英特爾的I/OAT也陸續(xù)演進了好幾個世代,唯一不變的就是「從CPU到芯片組到網絡卡,都要用英特爾的東西」。
總之,以2005年為起點,以Xeon MP和Opteron x800系列為主的x86處理器,在四處理器以上高端服務器的出貨量急速攀升,蠶食鯨吞傳統(tǒng)高端RISC服務器的地盤,到了2014年,英特爾的Xeon足足吃下94%市場,即使產品單價較低,也吞食超過80%營收,RISC服務器的出貨量更從一年32,000臺掉到9,000臺。
順便一提,在這塊市場,2014年IBM是12%~15%,并購Sun的Oracle更只剩下5%。既然連四處理器都如此,單處理器和雙處理器平臺就更連想都不用想了。這些年來,昔日呼風喚雨的眾多「RISC諸神」,淪落至此,令人不勝唏噓。
英特爾原先預定的「三軌共構」(服務器Itanium、桌機NetBurst、筆電Pentium M)產品發(fā)展計畫,2005年完全推翻,確立回歸x86為中心,集中資源發(fā)展同時滿足筆電、桌機和服務器的x86處理器微架構,為對AMD發(fā)動帝國大反擊的開路先鋒。英特爾的鐘擺巨輪(Tick-Tock)開始緩緩轉動,徹底輾碎AMD的服務器戰(zhàn)線。
英特爾看到Google這些云端服務業(yè)者,為了降低成本,數據中心大量采用單處理器平臺(Google第一世代自制服務器使用單顆Pentium III),英特爾也將Xeon產品線延伸到單處理器、和桌機相同管腳、相同產品代號的3000系列,落后AMD Opteron 100系列好幾年。掛上Xeon品牌的價格當然比較昂貴,至于產品有沒有比較可靠,就只有這些客戶才會知道了。
根據不同管腳,Xeon產品線分成3塊:
單處理器Xeon UP:LGA775的3000雙處理器Xeon DP:LGA771的5000四處理器Xeon MP:Socket 604的7000,這個看似老舊的管腳,生命周期長到讓人訝異。相對應的系統(tǒng)芯片組,也采取同樣的命名方式,讓客戶更容易理解哪些CPU應該搭配哪些芯片組。在數字編號之外,以65納米制程的四核心為起點,型號另外加注E(高能耗)、L(低功耗)和X(高性能),突顯產品屬性。
這時的Xeon,排除英特爾在印度班加羅爾的研發(fā)團隊所負責操刀的原生六核Dunnington,其余的四核心,也都還是包兩顆芯片的「雙餡水餃」,整合式存儲器控制器和分散式主存儲器仍付之闕如,相較AMD在2007年底就發(fā)布原生四核K8(K10),英特爾Xeon仍看似落后AMD一大截。
眼尖的讀者勢必察覺到某顆Xeon DP很不一樣,特別標示超低電壓(ULV)的特色。Xeon LV的存在理由不外乎當時流行的刀鋒服務器,帶動超低功耗服務器CPU的需求,雖然以事后諸葛的角度回顧這段歷史,刀鋒服務器的風潮,「曇花一現(xiàn)」差可比擬。
其實這顆雙核心的Xeon LV,源自于Core微架構(Merom)的前身Yonah,也同樣出自于以色列海法研發(fā)團隊之手,可視為從NetBurst轉型到Core的「過渡時期實驗性產品」。除了沒有64位元,眾多Merom的特點,像雙核心共用大型化L2快取存儲器,Yonah都看得到。英特爾研發(fā)資源之充沛,由此可見一班。
當CPU核心倍增,更需要大幅度提升存儲器容量與頻寬,也因此,英特爾在Xeon DP與Xeon MP的系統(tǒng)芯片組,導入FB-DIMM(Fully-Buffered DIMM),透過近似PCI Express的序列式(Serial)總線與通訊協(xié)定,連接存儲器控制器與存儲器模組上的AMB(Advanced Memory Buffer)。
如果讀者還記得前面提到的英特爾E8500芯片組的IMI與XMB,就可以把FB-DIMM想像成「把IMI / XMB概念,轉移到存儲器模組的JEDEC標準」。不過,F(xiàn)B-DIMM存活在市場上的時間并不長,主因在于高昂的成本與過長的存儲器存取延遲,導致普及度不高,搞到連AMD都不想用,也僅Sun UltraSPARC T2共襄盛舉,最終默默的消失在所有廠商的產品時程表。
那時入門級服務器導向的5100芯片組(San Clemente)因維持「傳統(tǒng)」的DDR2存儲器,加上性能表現(xiàn)也沒比那票FB-DIMM的產品來得差,被視為「一股清流」 。比較高端的芯片組,如5000X(Greencreek)、5400(Seaburg)和7300(Clarksboro),均內建快取數據一致性協(xié)定窺探過濾器(Snoop Filter),一個紀錄存儲器區(qū)塊位址共享狀態(tài)的快取存儲器,減少窺探廣播的次數,以減輕系統(tǒng)總線的負擔。
Core 2世代的英特爾Xeon并未一舉擊倒在系統(tǒng)平臺架構仍享有技術優(yōu)勢的AMD Opteron,到了Nehalem / Westmere才開花結果,讓AMD從此一蹶不振到2017年。
這張圖片是原生八核、24MB L3快取存儲器、晶粒面積高達648平方公厘的Nehalem-EX(Beckton),這顆「巨獸」也是英特爾徹底終結AMD優(yōu)勢(以及摧毀自家的Itanium)的終極象征。雖然源自于筆電需求的Core微架構,已經明顯優(yōu)于AMD K8與K10,但系統(tǒng)架構層面仍落后于AMD。英特爾在Nehalem世代一次「補好補滿」,徹底瓦解AMD的服務器戰(zhàn)線。
雖然說自從Merom之后,英特爾所有x86處理器微架構,都須兼顧服務器、桌機和筆電,但Nehalem最重要的任務,只有「盡速將AMD逐出服務器市場」,所以一切以服務器和高性能桌機為最高優(yōu)先權,到了32納米制程的Westmere才搶灘筆電市場。
這段期間,除了單處理器3000、雙處理器5000和四處理器7000,Xeon產品命名規(guī)則,新增以下項目:
雙處理器的核心代號多了EP(Efficient Performance),多處理器則是EX(Expandable)。6000系列:將最高端7000系列的處理器,「下放」成雙處理器版本。因QPI大幅提升多處理器延展性,7000 / 8000系列可直接對應8處理器平臺,不再是AMD Opteron x800系列的特權。英特爾主流桌機腳座的Socket H系列,以H1(LGA1156)為起點,直到今天的H5(LGA1200)。Jasper Forest是內建PCI Express NTB(Non-Transperent Bridge)技術的特規(guī)版Nehalem,白話一點,就是方便廠商研制雙控制器(Dual Controller)相互備援的高可靠度硬體平臺,如雙控制器的企業(yè)級儲存設備等。
相較于Merom,Nehalem最重大的突破,由內到外,可簡述為以下幾點:
HyperThreading復活,CPU再度一顆當兩顆用。所有核心獨享L2快取,共用內建的L3快取存儲器。CPU整合存儲器控制器,MCH就此消失。引進源自于Alpha EV7的QPI總線,并一并翻修快取數據一致性協(xié)定(Cache Coherence Protocol)成MESIF。Nehalem的x2APIC處理器核心數目上限是232-1=4294967295,可視為無限大。八核心的Nehalem-EX,也導入處理器內的環(huán)狀(Ring)總線,奠定未來數年英特爾「恐龍化」多核心x86處理器的技術基礎,到了Xeon-Phi和Xeon-SP才更替換成網狀結構(Mesh)。
微架構層面,今日成為英特爾AMD處理器共通制式武裝的「微指令快取」(uOp Cache),只要命中就不須啟動復雜又耗電的指令解碼器,可同時改善功耗和性能,從NetBurst那失敗的Trace Cache為起點,一路演進到Nehalem,才算出現(xiàn)真正雛型。
這也讓Nehalem微架構的Xeon平臺,呈現(xiàn)和過去截然不同的風貌,也長得更像過去幾年的AMD Opteron,即使多一顆有點礙眼、到Sandy Bridge才消失的IOH。不再受制于系統(tǒng)前端總線和MCH的Nehalem世代,擁有更巨大的系統(tǒng)總線與存儲器頻寬,整體性能表現(xiàn)更是脫胎換骨,讓AMD再也沒有翻身的可能。
四處理器和八處理器Xeon平臺為了支持高容量存儲器與更多的存儲器通道,NetBurst時代Xeon MP的IMI(Internal Memory Interface)界面XMB(External Memory Buffer),替換成更先進SMI(Scalable Memory Interface)界面的SMB(Scalable Memory Buffer)。
此外,為了強化服務器的RAS(可靠性、可用性、可服務性),英特爾在Nehalem-EX(Xeon 7500系列)將Itanium那一整套RAS架構原封不動的移植到x86平臺,「MCA(MachineCheck Architecture )Recovery」可在存儲器區(qū)塊標示硬體無法修復的錯誤,通知操作系統(tǒng)或虛擬機器管理員(Hypervisor),不能再使用這些單元,關閉標示錯誤的數據,并重新啟動程式。
當然,這也需要操作系統(tǒng)的配合,例如從2008年Windows Vista和Windows Server 2008開始引進的WHEA(Windows Hardware Error Architecture)。持續(xù)不斷的補強,讓x86處理器正式站穩(wěn)高端服務器的舞臺。
從Merom到Nehalem的「帝國大反擊」,讓AMD在x86服務器的市占率急速下滑,更一舉跌破10%到個位數水準,讓一度響亮的Opteron品牌黯淡無光。AMD從Zen世代開始企圖「重返農藥」,也將服務器品牌重新更名為EPYC,不再使用這曾代表AMD最輝煌歲月的名稱。
這段期間AMD發(fā)生了什么事?
這張照片是原生四核心的K10 Barcelona,也是AMD Opteron極盛而衰的轉捩點。
AMD從2003~2007年,壓著英特爾猛打了好幾年。但英特爾從2006年吹起反攻號角,AMD在2006年的夏天,耗資54億美元并購ATi,也嚴重影響AMD內部產品研發(fā)時程,并造成一連串骨牌效應。
當2006年的圣誕節(jié),AMD宣布原生四核心的K10完成設計,并由執(zhí)行長Hector Ruiz親自主持慶功的圣誕晚會時,全世界都感受的到AMD早已力不從心。結果2007年11月,爆發(fā)會造成系統(tǒng)死當的TLB臭蟲事件,但透過更新BIOS關閉TLB,將會降低10%~30%的性能。AMD在服務器市場的氣勢,就如同自由落體直線下墜,再也沒有挽回的可能。
AMD在2009年6月準時推出原生六核K10 Istanbul,并在產品行銷簡報內大肆宣揚「使命必達的執(zhí)行力」,但這也是AMD成功的極限,融合CPU與GPU的Fusion大戰(zhàn)略,讓AMD從此備多力分,產品時程也漸漸脫軌,接著得來不易的服務器市占率,就被英特爾的鐘擺巨輪狠狠輾碎,讓AMD陷入長達十年的黑暗期。
AMD從Socket G34「包雙晶粒水餃」時,也將Opteron產品線精簡成4000(單處理器或雙處理器,Socket C32)與6000(雙處理器或多處理器,Socket G34)系列,但x86服務器市占率依舊跌至個位數。姍姍來遲的「救世主」推土機(Bulldozer)家族能否救駕成功?但事后證明,根本只是提油救火。
英特爾不動聲色在22納米制程,默默導入3D立體結構的Tri-Gate(三閘極)電晶體,并在2011年5月才正式昭告天下,領先其他廠商的FinFET起碼超過三年,堪稱這間以摩爾定律奉為登山寶訓的公司,在先進半導體制程領域最意氣風發(fā)的時刻。
當英特爾在2014年2月10日的舊金山IEEE ISSCC(國際固態(tài)電路研討會),正式公布代號Ivytown的Ivy Bridge-EX的技術細節(jié),核心數量相較前代Sandy Bridge-EP幾乎倍增的原生十五核,象征AMD Opteron被英特爾Xeon徹底壓垮,連想利用雙餡水餃的倍增核心數量,勉強抗衡英特爾的機會都沒有。
以2011年Sandy Bridge(Tock)為起點,英特爾的鐘擺(Tick-Tock)巨輪開始全速轉動,接連的Ivy Bridge(Tick)、Haswell(Tock)和Broadwell(Tick),制程從32納米、22納米演進到14納米,穩(wěn)定推陳出新,讓英特爾Xeon在服務器市場的優(yōu)勢更難以撼動。
英特爾在精準執(zhí)行鐘擺節(jié)奏的幾年內,為了因應不同產品線需求,同一世代微架構的處理器組態(tài),逐漸成形成LCC(Low Core Count,低數量核心)、HCC(High Core Count,高數量核心)與XCC(Extreme Core Count,超級多核心)等三種等級晶粒。Xeon的推出時程,因較長的產品開發(fā)與驗證時間,和桌機筆電的「時差」也越拉越長,最高端產品甚至可晚兩年以上。
眼光移向英特爾的鐘擺節(jié)奏,就不難理解為何這些年是AMD最難過、最不堪回首的日子。知名技術評論家、Real World Tech站長David Kanter曾這樣形容英特爾的鐘擺「Damn Excellent At Execution」,的確是最貼切的寫照。
2011年(Tock):SandyBridge,系統(tǒng)架構揚棄又熱又燙的IOH,引進AVX指令集,具備貨真價實的微指令快取(uOp cache),換裝NetBurst體系的非循序指令執(zhí)行引擎,指令重新排序緩沖區(qū)與實體數據暫存器分而治之,以減少CPU內部的數據流動量,利于省電。這時AMD推土機家族的Opteron,仍可用兩倍的核心數勉強抗衡。
2012年(Tick):IvyBridge,最主要的改進還是跑出十五核Ivy Bridge-EX這個妖怪,不給AMD的「雙餡十六核」任何反擊的機會。
分配、協(xié)調各I/O周邊裝置存取處理器需求,發(fā)出中斷(Interrupt)時,知道該由哪個處理器負責,是近代多處理器環(huán)境的必要條件,而起源于1993年Pentium的先進可程式化中斷控制器(APIC, AdvancedProgrammable Interrupt Controller)則是技術核心。但和存儲器虛擬化的狀況如出一轍,讓VMM建立軟件模擬的Shadow APIC不僅耗費處理器性能,更會造成虛擬機頻繁的進出執(zhí)行環(huán)境。英特爾則是在2013年發(fā)布APICv(APICVirtualization)實用于Ivy Bridge微架構的Xeon E5-2600 v2。
因應激增的核心數,為了確保充裕的存儲器頻寬與容量,繼Boxboro-EX(Nehalem-EX / Westmere-EX)平臺的SMI之后,Brickland平臺(Ivy Bridge-EX / Haswell-EX /Broadwell-EX )升級成SMI2,數據傳輸界面從序列(Serial)轉為64位元并列(Parallel),訊號線從70根爆增到110根,電氣特性也截然不同,總之就是砍掉重練。
2013年(Tock):Haswell,新增AVX2指令集,并帶來英特爾x86處理器微架構史上,最大規(guī)模的執(zhí)行單元擴張行動,并大幅強化虛擬化機能,進一步追求控制不同虛擬機器占用L3快取空間與存儲器頻寬的精細調控機制,實現(xiàn)「L3快取存儲器層級的QoS(Quality-Of-Service)」,避免系統(tǒng)資源被少數虛擬機吃光,或讓VMM集中資源在最需要的虛擬機。Haswell-EP/EX最大核心組態(tài)再度略增到十八核,讓AMD連核心數都占不了便宜。
2014年(Tick):Broadwell,虛擬化機能更精進,如更徹底的硬體化APICv(APIC Virtualization)和正名為Resouce Director Technology的L3快取存儲器QoS,Broadwell-EX更將核心數推進到二十四核。
為了阻止ARM或其他RISC陣營,藉由低功耗和網絡儲存等應用「滲透」服務器市場,英特爾推出整合網絡控制器和一堆I/O界面的Xeon-D系統(tǒng)單芯片Broadwell-DE,在入門級企業(yè)儲存與網通產品大受歡迎,日后并升級成Skylake-DE。
這時AMD Opteron已走到生命盡頭。
AMD當初挖角IBM Power4首席工程師Chuck Moore,開發(fā)「號稱可以只增加50%晶粒面積,即可提升80%輸出率」的叢集多執(zhí)行緒(CMT,Cluster-basedMulti-Threading),卻被一再延宕的產品研發(fā)時程拖累。
AMD也仿照英特爾,同時開發(fā)大核與小核,后者雖然在游戲機領域得到重大戰(zhàn)果,卻也挽回不了整間公司的頹勢。
AMD錯估英特爾鐘擺節(jié)奏的進步幅度,規(guī)格四處偷工減料的推土機(Bulldozer),也注定對抗不了融合P6與NetBurst技術大成的SandyBridge,AMD服務器戰(zhàn)線就此徹底崩盤,直到2017年EPYC才重返戰(zhàn)場。
各位讀者可先復習一下AMD近代x86處理器的家族簡史,你會對2010年之后AMD產品線亂象更有感。
原本AMD打算靠著連續(xù)四個世代的叢集多執(zhí)行緒微架構:推土機(Bulldozer)、打樁機(Piledriver)、壓路機(Steamroller)、挖土機(Excavator),用兩個比較簡單的整數運算核心打英特爾一個大核,雙核心共用的浮點運算器則「依據Fusion大戰(zhàn)略,假以時日替換成GPU」,重奪Opteron的技術優(yōu)勢。
結果到頭來AMD Opteron連核心數都輸人,這場走音工地秀也無法走到盡頭,叢集多執(zhí)行緒的Opteron實際只進展到第二代(挖土機的X3000是沿用桌機的低端產品),還亂入毫無競爭優(yōu)勢的ARM Cortex-A57核心的A1100系列。「正統(tǒng)」Opteron處理器的發(fā)展只撐到了2012年,就黯然劃下句點,接著就是等到Lisa Su走馬上任,將滿天飛舞的簡報通通束之高閣,傾盡全力研發(fā)Zen。
物極必反,否極泰來,就輪到AMD吹起反攻的號角了,雖然在2017年6月初代EPYC準備跟姍姍來遲的Skylake-SP Purley平臺對壘時,聲音還是相當微弱,幾乎沒有人聽見。
可能領先優(yōu)勢已經拉太開,IBM也遲遲難以有效將Power「下放」到一般平民百姓家,看在毫無競爭對手的份上,英特爾2015年(Tock)「集技術之大成的最終英特爾x86處理器微架構」Skylake問世后,鐘擺巨輪慢慢停下,轉型成「14納米制程Skylake牙膏廠」。
英特爾金雞母的Xeon亦不可免俗,意圖「一次到位」、滿足所有市場需求的Skylake-SP Purley平臺,歷經多次延宕,到2017年7月才姍姍來遲,接著就被AMD一口咬住,啟動「重返農藥」大反擊。
既然Skylake微架構是「奮鐘擺六世之余烈」的技術集大成,那以它為心臟的Xeon當然也不能丟臉,不讓世人感到「耳目一新」實在說不過去。Skylake-SP之所以多出那個SP(Scalable Platform,可延展性平臺),充分彰顯了英特爾的企圖:統(tǒng)合過去Xeon MP和Xeon DP及EN /EP / EX的系統(tǒng)架構,不再分而治之,并企圖降低整體成本。
所以Skylake-SP呈現(xiàn)了和過去的Xeon平臺截然不同的嶄新面貌,筆者僅列出幾個比較顯眼的重點:
Skylake-SP核心比一般桌機筆電版,多了AVX-512指令集,為此新增兩個專用執(zhí)行單元(部份低端型號Xeon僅啟動一個),L2 / L3快取存儲器也針對服務器,調整容量與區(qū)塊置換策略,這也讓單一核心面積肥大化,也在日后「吸引」了不少事后諸葛的批判,像Linus Torvalds就希望「AVX-512應該痛苦的死去」。UPI(Ultra Path Interconnect)總線取代QPI。省略掉XMB、SMB、SMB2存儲器緩沖器,存儲器模組通通直連CPU,從雙處理器、四處理器、八處理器,統(tǒng)一成六通道DDR4存儲器。系統(tǒng)芯片組整合對應iWARP的10GbE以太網絡控制器,與提升數據壓縮和加解密運算的QuickAssist輔助處理器。部分型號內建英特爾自訂的OmniPath總線控制器,超低延遲的特性利于高性能運算(HPC)等應用。不過英特爾在2019年宣布放棄OmniPath了。3D XPoint存儲器模組Optane Apache Pass,但卻延后到2年后的微幅改進版Cascade Lake-SP。產品命名系統(tǒng)除了數字,更加上白金、金牌、銀牌、銅牌等名稱,看似80 PLUS電源供應器的效率等級認證。至于2019年4月登場的Cascade Lake-SP,則在AVX-512追加以Deep Learning Boost為名的VNNI指令(重點在于支持人工智能推論需要的INT8 / INT16短整數)與「幽靈(Spectre)、熔斷(Meltdown)」資安攻擊的防御措施,2020年6月的CooperLake-P則再補上深度學習必備的BFloat16數據格式,補強重點都集中在人工智能,制程也依舊「死守」14納米。
面對AMD EPYC來勢洶洶的壓倒性核心數量優(yōu)勢,英特爾也得重演「雙餡水餃」的舊戲碼,創(chuàng)造了400W功耗、最多56核的CascadeLake-AP。
這張表格應可幫助讀者迅速理解英特爾Xeon-SP「牙膏期」的更迭史。
挺過Cooper Lake-SP被腰斬的風波,隨著英特爾「終于」在2020年的夏天,在HotChips 32公開Ice Lake-SP技術細節(jié),看似漫長的「14納米Skylake牙膏期」即將劃下句點,但Ice Lake-SP推遲到2021年第二季。
值得注意的是,英特爾在第三代Xeon-SP短暫重現(xiàn)Xeon MP和Xeon DP分立的樣貌,在第四代的Eagle Stream平臺和Sapphire Rapids處理器之前,如果需要BF16浮點格式做人工智能深度學習,就請乖乖掏錢購買比較貴的Cedar Island平臺和Cooper Lake-P處理器。
時過境遷,AMD總算挺過了最黑暗的10年,但服務器市場的市占率,卻仍看不到當年Opteron全盛時期的車尾燈。身為Opteron繼承者,EPYC跟英特爾的Xeon-SP之間的激戰(zhàn),依舊是未來數年內,泛用處理器技術領域最值得關注的焦點:假若ARM沒有在數據中心領域出現(xiàn)爆發(fā)性成長。
至于AMD EPYC的反攻之路,相信各位早已耳孰能詳,在此不論,請各位回顧先前筆者發(fā)布過的文章。
2021年之后:英特爾再度重啟鐘擺巨輪
Pat Gelsinger回鍋英特爾后,宣布重啟鐘擺巨輪,但這次面臨的局勢,遠比15年前更嚴峻。
綜觀已知的英特爾未來數年Xeon產品時程表,重點都不在于規(guī)格細節(jié)和有沒有看起來好棒棒的尖端技術,而是英特爾能否重現(xiàn)「鐘擺期」(2011~2017)使命必達的優(yōu)異執(zhí)行力。
除此之外,英特爾還得面對兩個問題:「利潤下滑」和「來自ARM的潛在威脅」。
現(xiàn)今以云端服務業(yè)者的數據中心為大宗的服務器市場,處理器采購案可謂殺價殺到刀刀見骨的程度,動輒砍到牌價三四成的慘案,亦隨處可聞。這也是為何AMD寧愿付出性能代價、寧可讓多芯片封裝衍生出較長的數據存取延遲、選擇Chiplet多餡水餃路線的主因,并且利于因應供貨需求、靈活調配服務器和桌機的出貨比例。
當然,握有絕大多數市場的英特爾可透過大量的「商業(yè)手段」和「生態(tài)系統(tǒng)」維持市占率于不墜,不過因為產品逐漸失去競爭力而導致獲利下滑,對英特爾才是最致命的一擊。請別忘了Xeon一直是英特爾最重要的現(xiàn)金母牛,很不幸的,這件事已經成為現(xiàn)在進行式了。
x86雙雄將如何面對服務器市場巨變
此外,對業(yè)界動態(tài)敏感的讀者,應該有留意到一件看似微不足道、但絕對影響深遠的小事:VMware在2020年10月6日(那時Pat Gelsinger還是VMware執(zhí)行長),發(fā)布Arm版ESXiHypervisor。這代表VMware可能認定Arm在服務器應用的爆發(fā)性成長,即將抵達微妙的臨界點與心理關鍵時刻。
回過頭來,ARM要切入個人電腦市場的成功率,最終仍取決于微軟的態(tài)度,是否愿意再大費周章建立全新的生態(tài)系統(tǒng)。但假若UEFI和ACPI等規(guī)范,在ARM處理器平臺發(fā)展成熟度,可和現(xiàn)有x86平起平坐,讓自行更替操作系統(tǒng)更方便,那服務器市場將會呈現(xiàn)截然不同的局面。
各位可以想像一個畫面:假以時日,ARM在服務器市場的確占有一席之地,并持續(xù)攻城掠地,然后AMD順勢推出管腳與x86版本兼容的K12核心EPYC,并可無痛轉換。那畫面實在太美,美到英特爾大概一輩子都不想看到的程度。
但對x86雙雄來說,最可怕的長期危機還是「云端業(yè)者越來越有自己開發(fā)芯片」的本錢與條件,如果有人跟你講「Google搞不好已經正在秘密開發(fā)可取代英特爾AMD的RISC -V指令集兼容處理器」,你大概也不會訝異。
總之,Xeon、Opteron和EPYC,不只是x86站穩(wěn)服務器市場的象征,更是見證英特爾與AMD興衰的圖騰,也許在過去難以想像、甚至連想都不敢想的巨變,將以出乎意料的速度,出現(xiàn)在我們眼前。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導體創(chuàng)芯網 快訊
相關文章