32GT/s PCIe 5.0,SOC芯片關(guān)鍵設(shè)計(jì)與挑戰(zhàn)
2019-04-30 09:52:52 Synopsys 作者:Gary Ruggles每一代 PCIe 的帶寬都會增加一倍,現(xiàn)在已經(jīng)從 16 GT/s PCIe 4.0 變成 32 GT/s PCIe 5.0。最近發(fā)布的 0.9 版 PCIe 5.0 基本規(guī)范鎖定了針對規(guī)范的功能變更,使設(shè)計(jì)人員可以放心地著手設(shè)計(jì)。
除了帶寬加倍之外,該規(guī)范還提出了一些新功能,例如加快鏈路啟動的均衡旁路模式、有助于避免突發(fā)錯誤(可能是由更高的判決反饋均衡 (DFE) 分接比引起的)的預(yù)編碼支持,以及支持進(jìn)行串?dāng)_模擬的環(huán)回增強(qiáng)。隨著 PCIe 5.0 技術(shù)的迅速普及,SoC 設(shè)計(jì)人員應(yīng)該了解并考慮他們將面臨的一些關(guān)鍵設(shè)計(jì)挑戰(zhàn),例如增多的信道損耗、復(fù)雜的控制器考量、PHY 和控制器集成、封裝和信號完整性問題以及建模和測試要求。本文概述了改用 PCIe 5.0 接口所面臨的設(shè)計(jì)挑戰(zhàn),以及如何使用成熟的 IP 來成功克服挑戰(zhàn)。這種 IP 經(jīng)過設(shè)計(jì)和測試,可滿足 32 GT/s PCIe 5.0 主要功能的要求。
將數(shù)據(jù)速率從 16 GT/s 加倍到 32 GT/s 后,奈奎斯特頻率也會加倍到 16 GHz,從而加重頻率相關(guān)的插入損耗。此外,頻率升高時增加的電容耦合會加重信號的干擾或噪聲,使串?dāng)_比 PCIe 4.0 信道中的串?dāng)_更嚴(yán)重。這些因素累積在一起,使 PCIe 5.0 信道成為 SoC 設(shè)計(jì)人員遇到的最具挑戰(zhàn)性的非歸零 (NRZ) 信道。
選擇的 PCB 材料(FR4、Megtron、Tachyon、iSpeed)會對各個區(qū)域的插入損耗產(chǎn)生巨大影響。圖 1 是一個簡單示例,顯示了 16 GT/s(8 GHz 奈奎斯特)和 32 GT/s(16 GHz 奈奎斯特)數(shù)據(jù)速率下,穿過各種 PCB 材料的 16 英寸走線的插入損耗。FR4 是一種常見且使用廣泛的材料,其插入損耗從 8GHz 奈奎斯特(第 4 代數(shù)據(jù)速率)時的 19.34 dB 增長為 16 GHz 奈奎斯特(第 5 代數(shù)據(jù)速率)時的 33.44 dB。因此,用于 PCIe 5.0 系統(tǒng)的 FR4 變得完全不實(shí)用,因?yàn)?16 英寸不是很長,并且電路板損耗只是總信道損耗的一小部分(PCIe 5.0 規(guī)范定義的不超過約 36 dB),并且還包括封裝、多個 PCB、連接器等。現(xiàn)實(shí)中的 PCIe 5.0 系統(tǒng)需要比 FR4 更好的材料。
圖 1:信道材料的插入損耗從 PCIe 4.0(16 GT/s)顯著增加到 PCIe 5.0(32 GT/s)
除了信道材料之外,信道配置也會嚴(yán)重影響總插入損耗和信道的整體凹凸情況,因?yàn)槊看螐囊环N材料過渡到另一種材料時都會引起信號反射。例如,最簡單的一種信道是穿過基板或電路板的芯片到芯片接口,它不帶任何額外的連接器,可呈現(xiàn)平滑的插入損耗曲線。但是,在一路添加更多連接器之后,信道性能就會迅速變差。例如,現(xiàn)實(shí)中的芯片到芯片信道可能包含一個夾層連接器,或者是使用轉(zhuǎn)接卡和附加卡的兩個連接器,也可能是兩個以上的背板連接器和一個夾層連接器。每次將連接器添加到信道時,發(fā)送器和接收器都必須克服額外的信道損耗,并且必須能夠均衡造成主光標(biāo)顯示許多單位間隔的干擾源。這通常需要復(fù)雜的多抽頭 DFE 接收器設(shè)計(jì),加入固定和浮動抽頭,旨在完全均衡信道并在 32 GT/s 的速度下開啟眼圖。
設(shè)計(jì)人員將盡最大努力預(yù)判這些挑戰(zhàn),并設(shè)計(jì)一個具有足夠裕量的穩(wěn)健系統(tǒng),保證實(shí)現(xiàn)無錯數(shù)據(jù)傳輸。設(shè)計(jì) PCIe 5.0 時,設(shè)計(jì)人員必須能夠利用 PCIe 4.0 規(guī)范中引入的 RX 通路裕量來評估實(shí)際系統(tǒng)中的實(shí)際接收器容限。雖然 PCIe 4.0 規(guī)范僅需要在時序(水平眼圖開度)上使用 RX 通路裕量,但 PCIe 5.0 規(guī)范 (32 GT/s) 也需要將 RX 通路裕量用于電壓(眼高)以幫助確保系統(tǒng)的穩(wěn)定性。
配置 PCIe 5.0 控制器時,數(shù)據(jù)有效負(fù)載大小 對于優(yōu)化性能和吞吐量具有重要意義。由于每個分組的開銷都相對固定,通常每個事務(wù)層分組 (TLP) 大約占用 20 到 24 個字節(jié),小的有效載荷表現(xiàn)低效,因此控制器必須盡量留出足夠大的有效載荷來滿足必要的吞吐量。PCIe 規(guī)范定義的有效載荷高達(dá) 4096 字節(jié),而行業(yè)平均值通常僅為 256 字節(jié)。但是,設(shè)計(jì)人員需要為其目標(biāo)應(yīng)用選擇合適的最大有效載荷,以實(shí)現(xiàn) PCIe 5.0 控制器的理想性能水平,同時還要了解 PCIe 鏈路合作伙伴支持的有效載荷的潛在范圍。設(shè)計(jì)人員還必須明白,確定可實(shí)現(xiàn)的吞吐量時必須考慮 TLP 標(biāo)頭開銷:LCRC、序列和成幀、潛在的 ECRC,以及 128b/130b 編碼造成的損耗。
為了在 PCIe 5.0 系統(tǒng)中實(shí)現(xiàn)最佳性能,設(shè)計(jì)人員必須確定等待的未發(fā)布請求 (NPR) 的最大數(shù)量,并確保提供足夠數(shù)量的標(biāo)簽。標(biāo)簽數(shù)量是控制器的一個屬性,因此必須根據(jù)系統(tǒng)要求正確設(shè)定數(shù)量。最新版本的 PCIe 5.0 規(guī)范支持使用 10 位標(biāo)簽,該標(biāo)簽最多可支持 768 個唯一標(biāo)簽(由于保留了一些位值,因此預(yù)期限值為 1024)。選擇的標(biāo)簽太少就會對性能產(chǎn)生負(fù)面影響。隨著總往返傳輸時間或延遲的增加,在 32 GT/s 的速度下保持系統(tǒng)最佳性能所需的標(biāo)簽數(shù)量也會增多。所需的標(biāo)簽數(shù)量還會受到保持最大吞吐量所需的有效載荷和最小讀取請求大小的影響。PCIe 5.0 所需的標(biāo)簽數(shù)量也更大,因?yàn)樵?32 GT/s 時系統(tǒng)吞吐量更高。
圖 2:實(shí)現(xiàn) PCIe 4.0 和 PCIe 5.0 鏈路最大吞吐量所需的標(biāo)簽數(shù)量
理想的情況是由同一家供應(yīng)商實(shí)現(xiàn)完整的 PHY 和控制器 IP 解決方案。在混合和匹配不同供應(yīng)商的解決方案時,設(shè)計(jì)人員必須考慮某些集成難題。英特爾已經(jīng)為 PCIe (PIPE) 定義了一個稱為 PHY 接口的規(guī)范來幫助實(shí)現(xiàn)這種集成,但由于 PIPE 規(guī)范發(fā)生了更改,所以務(wù)必要了解該接口及其實(shí)現(xiàn)的詳情。PIPE 4.4.1 接口不明確支持 PCIe 5.0 技術(shù),因?yàn)樗幚砀叩乃俣龋托枰芳蛹拇嫫魑弧H绻O(shè)計(jì)人員期望使用這個版本的 PIPE 規(guī)范,設(shè)計(jì)人員和 IP 供應(yīng)商就必須處理許多技術(shù)細(xì)節(jié),這可能很麻煩。新的 PIPE 5.1.1 規(guī)范為 PCIe 5.0 技術(shù)提供了第一個真正的支持。它具有許多新功能,設(shè)計(jì)人員必須全面了解:
低引腳數(shù)接口將以前的帶外引腳改為寄存器位,從而簡化了 PHY 控制器接口。最初引入這個概念是為了采用一組數(shù)量有限的引腳來傳輸 PCIe 4.0 RX 通路裕量信號,而后它在 PIPE 5.1.1 中得到極大的擴(kuò)展,提供了大幅簡化的接口。
始終都要權(quán)衡數(shù)據(jù)路徑寬度和 PIPE 接口處時序收斂的頻率。設(shè)計(jì)人員擁有的 PCIe 4.0 的一些選項(xiàng)在 PCIe 5.0 上可能不再可用。在 32 GT/s 時,PIPE 接口必須至少為 32 位寬,以避免超過 1GHz 的時序收斂。64 位 PIPE 接口可以作為一個選項(xiàng),支持在 500 MHz 時的時序收斂,但它不適合最寬的接口。要想理解這一點(diǎn),請考慮表 1 中所示的一些配置。對于 32 GT/s 時的 PCIe 5.0,可以排除 16 位 PIPE,因?yàn)樗枰?2GHz 的時序收斂,這一頻率極難甚至不可能達(dá)到。這樣還剩下 32 位或 64 位 PIPE 選項(xiàng)。但是,如果設(shè)計(jì)人員通過實(shí)現(xiàn) x16 鏈路來利用最大可用吞吐量,那么就只剩下一個選項(xiàng)了:具有 32 位 PIPE 接口和 1GHz 時序收斂的 512 位控制器。否則,就需要 1024 位控制器架構(gòu),目前任何 IP 供應(yīng)商都無法供應(yīng)該架構(gòu)。
表格 1:收斂時序時,關(guān)鍵是要在速度和寬度之間達(dá)成可以實(shí)現(xiàn)的權(quán)衡
因此,對于按照 32 GT/s 運(yùn)行的 x16 鏈路,必須使用 512 位控制器,這使得設(shè)計(jì)人員必須使用經(jīng)過硅驗(yàn)證和測試的 512 位控制器 IP 架構(gòu)。改用 512 位架構(gòu)還意味著每個時鐘周期都可以有多個數(shù)據(jù)包。這意味著控制器架構(gòu)必須能夠正確處理 TLP 的序列化和排序,避免給設(shè)計(jì)人員的應(yīng)用邏輯帶來不必要的復(fù)雜性。這就需要采用經(jīng)過驗(yàn)證的 512 位解決方案,最好是利用標(biāo)準(zhǔn)庫(而不是昂貴的高速庫)在 1GHz 的頻率時,在 PIPE 接口成功展示時序收斂的解決方案。
為保證封裝和信號完整性,必須設(shè)定并滿足新的插入損耗和串?dāng)_規(guī)范,以適應(yīng)更快的 32 GT/s 數(shù)據(jù)速率和 16 GHz 奈奎斯特頻率。必須在封裝外形中細(xì)致處理走線長度和布線,以避免串?dāng)_沖突并滿足新的插入損耗和串?dāng)_規(guī)范。配電也是一個重要因素,因?yàn)?32 GT/s 設(shè)計(jì)需要在封裝時降低電感。由于浪涌電流 (di/dt) 增大,必須降低電感才能將電壓噪聲保持在同等水平。
32 GT/s 數(shù)據(jù)速率下的反射和串?dāng)_問題更加突出,而且必須仔細(xì)分析垂直互連訪問等信號路徑中的所有不連續(xù)性。垂直互連訪問包括 VIA、球柵陣列 (BGA) 球、連接器、隔直電容等。VIA 區(qū)域中的發(fā)送器和接收器布線如果不恰當(dāng),就會增加相鄰信號或通路之間的串?dāng)_。設(shè)計(jì)人員必須盡量保持走線的最大間距,確保即便在如此擁擠的 VIA 區(qū)域也能避免串?dāng)_。
隨著數(shù)據(jù)速率的提高,所需電源電流的幅度和頻率也會增加,但維持穩(wěn)定供電電壓的難度仍然基本相同。例如,一條通路中的電源狀態(tài)變化會為另一條在連續(xù)發(fā)射模式下運(yùn)行的通路產(chǎn)生浪涌電流,從而產(chǎn)生很大的供電電壓峰值。設(shè)計(jì)人員必須能夠?qū)﹄娏鬏斁W(wǎng)絡(luò)進(jìn)行適當(dāng)?shù)姆治觯员悖?/span>
利用足夠的去耦電容和封裝/電路板電感,驗(yàn)證所有通路的噪聲是否符合交流紋波規(guī)范
檢查板載濾波器組件是否具有效果最好的頻率響應(yīng),并能根據(jù)需要進(jìn)行改進(jìn)
確認(rèn)一條通路中的模式變更不會影響另一條通路中的操作
了解封裝和信號完整性問題,并在必要時與在設(shè)計(jì)封裝和電路板方面經(jīng)驗(yàn)豐富的公司合作實(shí)現(xiàn)高數(shù)據(jù)速率
準(zhǔn)確仿真 PCIe 5.0 系統(tǒng)的唯一方法是針對 PHY TX 和 RX 接口使用輸入/輸出緩沖器信息規(guī)范算法建模接口 (IBIS-AMI) 模型。設(shè)計(jì)人員可以將其 PHY IP 供應(yīng)商的 IBIS-AMI 模型與封裝、PCB 和連接器模型合并為一個完整的信道模型,用來運(yùn)行精確的系統(tǒng)仿真。圖 3 展示了 IBIS-AMI 模型仿真(左側(cè))與通過系統(tǒng)板仿真實(shí)際測量的眼圖(右側(cè))之間的對比。IBIS-AMI 仿真準(zhǔn)確性高,與實(shí)際硅數(shù)據(jù)相符。
圖 3:要在系統(tǒng)仿真期間獲得準(zhǔn)確結(jié)果,必須構(gòu)建 IBIS-AMI 模型
對于量產(chǎn)設(shè)備,在 32 GT/s 速率下的制造測試需要能夠驗(yàn)證鏈路的快速測試。此類測試通常使用內(nèi)置環(huán)回模式、圖形發(fā)生器和接收器(集成在 PHY 和控制器 IP 中)。一些測試設(shè)置也可以利用通常并入 PCIe 5.0 PHY IP 的內(nèi)置示波器功能。應(yīng)當(dāng)利用 PCIe 控制器 IP 解決方案的內(nèi)置調(diào)試、錯誤注入和統(tǒng)計(jì)功能來完成穩(wěn)定的系統(tǒng)測試。這有助于確保固件和軟件正確預(yù)測可能遇到的任何潛在的實(shí)際系統(tǒng)問題。
對于 PHY 測試,如果設(shè)計(jì)人員需要詳細(xì)了解 32 GT/s PHY 的性能,通常會使用高速示波器來測量 TX 抖動和其他參數(shù)。改用 32 GT/s 意味著示波器帶寬也需要提高,但要提高多少呢? 即便信號上升時間會催生這一要求,但實(shí)際的 PHY 通常也會有一些上升時間限制,以便保證電源具有實(shí)用性。因此,50 GHz 示波器通常就具有足夠的帶寬,可以正確分析 32 GT/s 信號1。
隨著 32 GT/s PCIe 5.0 技術(shù)的加速采用,SoC 設(shè)計(jì)人員必須在轉(zhuǎn)換時了解并應(yīng)對一些設(shè)計(jì)挑戰(zhàn)。32 GT/s 設(shè)計(jì)具有極具挑戰(zhàn)性的 NRZ 信道,這些信道具有極高的損耗和波動性,引發(fā)大量的不連續(xù)性,致使插入損耗高達(dá) 36dB 以上。PCIe PHY 設(shè)計(jì)必須包含獨(dú)特的架構(gòu),配備經(jīng)過驗(yàn)證的模擬前端、連續(xù)時間線性均衡器和先進(jìn)的多抽頭決策反饋均衡器,可以無縫協(xié)作以緩解設(shè)計(jì)問題。PHY 和控制器的集成需要更仔細(xì)的規(guī)劃,才能確保 PIPE 接口的兼容性,并且方便完成 1GHz 時的時序收斂。
為了實(shí)現(xiàn)最高性能,必須仔細(xì)選擇和管理幾個 PCIe 5.0 控制器配置選項(xiàng)。應(yīng)探索進(jìn)行架構(gòu)權(quán)衡,平衡最大有效載荷大小、讀取請求大小、標(biāo)簽數(shù)量和其他重要的控制器配置設(shè)置。
必須對芯片和封裝進(jìn)行仔細(xì)的信號和電源完整性分析,并且必須仿真整個信道,確保在 32 GT/s 時達(dá)到性能目標(biāo)。
通過與 Synopsys 合作,可以緩解甚至消除這些新難題,Synopsys 是一個久經(jīng)考驗(yàn)且值得信賴的 IP 合作伙伴,擁有多年成功開發(fā)優(yōu)質(zhì) PCIe IP 的業(yè)績記錄。適用于 PCIe 5.0 的 Synopsys DesignWare® IP 全套解決方案包含控制器、PHY 和驗(yàn)證 IP。經(jīng)過硅驗(yàn)證的 IP 支持 PIPE 4.4.1 和 5.1.1 規(guī)范,使用的架構(gòu)可承受超過 36dB 的信道損耗,并能直接實(shí)現(xiàn) 1GHz 的時序收斂。這種控制器具有高度可配置性,支持多種數(shù)據(jù)路徑寬度,包含經(jīng)過硅驗(yàn)證和測試的 512 位架構(gòu),并具有業(yè)界最廣泛的 RAS-DES 功能,可實(shí)現(xiàn)無縫啟動和調(diào)試。這種經(jīng)過硅驗(yàn)證的解決方案已被眾多客戶采用,可提供準(zhǔn)確仿真 PCIe 系統(tǒng)所需的完整 IBIS-AMI 模型。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章