Imagination推出邊緣AI&圖形處理E-Series GPU IP
2025-05-09 19:15:43 周菊香,EETOP隨著 deepseek 等輕量化大模型快速發(fā)展, Edge端 AI 應(yīng)用正在進(jìn)入爆發(fā)期,從智能終端供應(yīng)設(shè)備到車載系統(tǒng),對(duì)邊緣側(cè)的算力提出了前所未有的需求。在這樣的背景下,Imagination Technologies隆重推出 Imagination E-Series GPU IP,重新定義了邊緣人工智能和圖形系統(tǒng)設(shè)計(jì)。
在近期召開(kāi)的媒體發(fā)布會(huì)上,Imagination中國(guó)區(qū)技術(shù)總監(jiān)艾克分享說(shuō):“E系列GPU是Imagination劃時(shí)代的一款GPU產(chǎn)品,是針對(duì)邊緣側(cè)推出的一種更高效、更靈活的AI和圖像處理的解決方案。首款 E-Series GPU IP 將于 2025 年秋季正式上市,目前已完成授權(quán)。汽車、消費(fèi)電子、桌面及移動(dòng)版本亦在同步開(kāi)發(fā)中。”
據(jù)介紹,E-Series延續(xù)了Imagination GPU 一貫強(qiáng)大的圖形處理能力,包括對(duì)光線追蹤的支持。在此基礎(chǔ)上,E系列GPU具備兩項(xiàng)核心創(chuàng)新,即Neural Cores(神經(jīng)核)和Burst Processors(爆發(fā)式處理器)。
l Neural Cores(神經(jīng)核):性能可擴(kuò)展至200 TOPS INT8 ,AI 性能較前代D系列( D-Series )提升高達(dá) 400%;支持多種主流 AI 數(shù)值格式,能夠與更廣泛的GPU及異構(gòu)計(jì)算軟件生態(tài)實(shí)現(xiàn)無(wú)縫協(xié)同。其算力可通過(guò)OpenCL 等主流 API直接調(diào)用,開(kāi)發(fā)者借助oneAPI、Apache TVM 或 LiteRT等開(kāi)放標(biāo)準(zhǔn)工具,能將工作負(fù)載遷移至神經(jīng)核。
l Burst Processors:爆發(fā)式處理器是E系列引入的全新技術(shù),該技術(shù)通過(guò)縮短流水線深度、減少數(shù)據(jù)在GPU內(nèi)部的移動(dòng),實(shí)現(xiàn)能效提升。在 AI 推理、游戲和用戶界面等工作負(fù)載下平均功耗效率再提升 35%。
Imagination 產(chǎn)品管理副總裁Kristof Beets特別強(qiáng)調(diào)的說(shuō):“35% 的能效提升是依靠硬件架構(gòu)的創(chuàng)新來(lái)實(shí)現(xiàn)的,具體包括整體調(diào)度、數(shù)據(jù)的存取以及數(shù)據(jù)類型,以及新加入的處理流水線。不是通過(guò)工作負(fù)載的重新分配,算法的優(yōu)化來(lái)實(shí)現(xiàn)的,也不是通過(guò)工藝制程來(lái)實(shí)現(xiàn)的,純粹就是硬件架構(gòu)的革新帶來(lái)的能效提升。”
E系列架構(gòu)創(chuàng)新的幾個(gè)關(guān)鍵
E系列GPU的核心創(chuàng)新在于通過(guò)將AI算力與GPU核心渲染管線深度融合,實(shí)現(xiàn)了硬件層面的統(tǒng)一調(diào)度與資源共享。這一架構(gòu)突破,不僅解決了傳統(tǒng)GPU與AI加速器解耦設(shè)計(jì)的效率瓶頸,更通過(guò)硬件級(jí)融合,為異構(gòu)計(jì)算提供了高密度、低延時(shí)的協(xié)同計(jì)算范式。
E系列 GPU原生調(diào)度的關(guān)注點(diǎn)是放在利用率的提升上。它由數(shù)據(jù)驅(qū)動(dòng),讓運(yùn)算的流水線盡可能保持忙碌,通過(guò)同時(shí)處理多個(gè)并行的圖形處理和AI工作負(fù)載,來(lái)調(diào)度圖形和AI工作去減少系統(tǒng)延遲,并保證 ALU 盡可能的繁忙。當(dāng) ALU 的利用率越高,也就意味著整體帶寬延遲就越低。
艾克介紹說(shuō):“Burst 技術(shù)是E系列的一個(gè)突破性技術(shù)。它深度集成于GPU硬件的底層,通過(guò)動(dòng)態(tài)識(shí)別連續(xù)可歸類的背靠背(back to back)指令,合并批量任務(wù),可對(duì)盡可能多的數(shù)據(jù)進(jìn)行復(fù)用和共享,從而提高數(shù)據(jù)利用率,減少指令解碼器的開(kāi)銷。”
在底層硬件之上的一層是可以通過(guò)軟件編程來(lái)實(shí)現(xiàn)資源調(diào)度,在更高層級(jí)上的調(diào)度決策,則由軟件指導(dǎo)來(lái)進(jìn)行優(yōu)先級(jí)的調(diào)配。如果同時(shí)要進(jìn)行圖形處理和 AI 處理,那么就可以由系統(tǒng)去定義當(dāng)前更想要把優(yōu)先級(jí)調(diào)整給AI,還是圖形處理,靈活性取決于對(duì)兩者之間的負(fù)載平衡的需求。
這種全新的調(diào)度方法,讓它能夠提升所有不同類型計(jì)算的能效,無(wú)論是圖形計(jì)算、通用并行計(jì)算,還是專門(mén)針對(duì)AI的處理。Kristof Beets表示:“ 這種深度集成的方式整個(gè)改變了原來(lái) GPU 的指令調(diào)度方式,能夠讓我們?nèi)ヅ浜鲜袌?chǎng)上更高層級(jí)的軟件堆棧,并且在執(zhí)行各項(xiàng)計(jì)算任務(wù)的時(shí)候,不會(huì)影響延遲。”
E系列GPU在架構(gòu)上的另一項(xiàng)非常重要的設(shè)計(jì),是在每一個(gè)計(jì)算單元中都有將近0.5Mb的寄存器空間。這是一個(gè)專門(mén)針對(duì)常見(jiàn)人工智能相關(guān)計(jì)算增加的就矩陣乘法加速器,可以實(shí)現(xiàn)更好的傳統(tǒng)圖像處理以及后期圖像處理。它的面積成本非常低,本質(zhì)上沒(méi)有額外增加芯片面積,只不過(guò)是在其中又增加了 AI 相關(guān)的高效處理管線。
過(guò)去十年間,業(yè)界使用的模型已經(jīng)一代接一代的發(fā)生了巨大的變化,而且新的AI創(chuàng)新還在不斷涌現(xiàn)并將持續(xù)多年。在這種時(shí)候,欠缺靈活性的 NPU 就面臨著挑戰(zhàn)。NPU 本身的設(shè)計(jì)目標(biāo)就是為了支持特定數(shù)量的 AI 應(yīng)用。一旦出現(xiàn)了新的 AI 應(yīng)用,那這個(gè) NPU 就處理不了,就不得不交回給 CPU 去處理。由此就會(huì)產(chǎn)生非常大的延遲,對(duì)性能的影響也是巨大的。而 GPU 的優(yōu)勢(shì)就在于可以去應(yīng)對(duì)未來(lái)AI 和圖形處理的這些挑戰(zhàn)。它不需要去升級(jí)硬件,只需要針對(duì)應(yīng)用,對(duì)軟件進(jìn)行一些改進(jìn)就可以,通過(guò)可編程的 GPU 引擎的方式在管線內(nèi)去進(jìn)行 AI 計(jì)算處理。此外,對(duì)于未來(lái)的人工智能網(wǎng)絡(luò),GPU擁有更高的靈活性和可編程性,可以去應(yīng)對(duì)新AI 處理模型,并且可以以幾乎沒(méi)有延遲的方式去應(yīng)對(duì)未來(lái)的這些 AI 新模型。
GPU+AI,面向未來(lái)的系統(tǒng)設(shè)計(jì)應(yīng)用
當(dāng)前,聯(lián)網(wǎng)設(shè)備日益復(fù)雜,處理器需同時(shí)支持圖形與AI多項(xiàng)工作負(fù)載。為保障用戶體驗(yàn),實(shí)現(xiàn)高質(zhì)量服務(wù)(QoS)和清晰劃分任務(wù)優(yōu)先級(jí)至關(guān)重要。E-Series在前代產(chǎn)品的多任務(wù)處理能力基礎(chǔ)上實(shí)現(xiàn)了增強(qiáng),將Imagination GPU支持的、具備硬件加速且零開(kāi)銷的虛擬機(jī)數(shù)量從8個(gè)翻倍至16個(gè),并提供了先進(jìn)的QoS支持。E-Series GPU的多核版本可以利用額外的核來(lái)提升性能或增強(qiáng)靈活性。這些GPU能夠同時(shí)處理多種圖形工作負(fù)載、多種AI工作負(fù)載,或圖形與AI工作負(fù)載的組合。
智能汽車是一個(gè)非常具有潛力且龐大的應(yīng)用場(chǎng)景。從低端到高端車型,幾乎都存在不同的AI處理應(yīng)用。未來(lái)的智能駕駛車輛,更是妙趣橫生,會(huì)有越來(lái)越多的多模態(tài)數(shù)據(jù)輸入,功能對(duì)于算力的需求將逐步上升,甚至朝著上千TOPS以上的方向去發(fā)展。E系列GPU面向汽車用戶,提供了一系列關(guān)鍵功能,如可以實(shí)現(xiàn)座艙圖形、儀表渲染與AI推理(駕駛員監(jiān)測(cè)、語(yǔ)音交互)的統(tǒng)一等。
Kristof分享說(shuō):“E系列GPU 可以被用于許多不同的場(chǎng)景和用途,不僅僅可以用在人工智能處理應(yīng)用,還可以用于計(jì)算處理的應(yīng)用場(chǎng)景,包括圖形濾鏡等經(jīng)典的圖像處理等。此外,在一些經(jīng)典算法的應(yīng)用中,E系列 GPU 核當(dāng)中全新的、經(jīng)過(guò)改善的運(yùn)算單元也可以充分發(fā)揮作用。
回看過(guò)去的 10 到 15 年,AI模型大多都是在云端被訓(xùn)練出來(lái),之后這些AI模型很大可能是被部署到本地或者邊緣設(shè)備。但是,在邊緣使用AI面臨著很大的挑戰(zhàn),如連接性、可靠性,延遲等問(wèn)題,另外還有安全和隱私的問(wèn)題,尤其是處理一些敏感的數(shù)據(jù),如生物信息數(shù)據(jù)、安全數(shù)據(jù)以及財(cái)務(wù)相關(guān)的數(shù)據(jù)。由此,越來(lái)越多的生成式AI和大語(yǔ)言的模型的開(kāi)始逐步被部署支持AI的邊緣設(shè)備上。
在邊緣設(shè)備上面部署 AI ,功耗和成本是兩大關(guān)鍵問(wèn)題。在數(shù)據(jù)中心,計(jì)算可以依賴巨量的電力供應(yīng)并使用非常昂貴的處理器,但是在邊緣設(shè)備上,就必須做到對(duì)功耗和成本極度敏感。Imagination中國(guó)董事長(zhǎng)兼亞太區(qū)總裁白農(nóng)表示:“E系列是Imagination在圖形和計(jì)算領(lǐng)域多年來(lái)累積的又一個(gè)里程碑,它不僅在性能、功耗和面積方面實(shí)現(xiàn)了全面的優(yōu)化,更在架構(gòu)設(shè)計(jì)上實(shí)現(xiàn)了從傳統(tǒng)渲染將通用計(jì)算的深度拓展,具備高度的靈活性和可擴(kuò)展性。”
關(guān)鍵詞: Imagination 推出 邊緣
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章