英特爾全新Gaudi2處理器,為中國算力最大化釋放AI價值
2023-07-13 12:36:34 EETOP2023年7月11日,EETOP應(yīng)邀出席英特爾在北京金隅喜來登大酒店舉行的全新Gaudi2處理器發(fā)布會。回顧以往,英特爾助力推動了PC在中國的普及率,帶動了國內(nèi)生產(chǎn)力的大力飛躍。在當(dāng)今的信息化大數(shù)據(jù)模型時代,英特爾正在著力推進(jìn)邊緣計(jì)算的增長,讓智能計(jì)算更靠近生成數(shù)據(jù)的邊緣。
英特爾正在利用自身的行業(yè)領(lǐng)先優(yōu)勢,助力人工智能在中國的全面綻放,將海量數(shù)據(jù)轉(zhuǎn)變?yōu)榭尚卸床欤瑢?shí)現(xiàn)無處不在的智能,以便充分發(fā)掘數(shù)據(jù)的價值。
人工智能(AI)是一項(xiàng)存在已有40多年的技術(shù),在過去十年間,人們見證了一些令人矚目的進(jìn)展。近期火爆的生成式AI和LLM(大規(guī)模語言模型)極大地加速了AI的發(fā)展,并衍生出了諸多計(jì)算需求。生成式AI和LLMs使機(jī)器能夠通過跟蹤順序數(shù)據(jù)(如句子中的單詞)中的關(guān)系來學(xué)習(xí)上下文及其含義。
去年,當(dāng)OpenAI發(fā)布了ChatGPT后,它成為最快達(dá)到1億用戶的應(yīng)用程序,并迅速改變了世界。生成式AI和LLMs不僅進(jìn)一步挖掘AI的潛力,也促使英特爾開始以不同的方式看待計(jì)算,以便以最具成本效益的方式部署這項(xiàng)技術(shù)。
AI的數(shù)據(jù)流包括廣泛而復(fù)雜的工作負(fù)載和多模態(tài)數(shù)據(jù)集。而面對AI的計(jì)算需求,并沒有一種通用的解決方案。如今,很大一部分AI工作負(fù)載是在通用處理器上運(yùn)行,這也受多重技術(shù)和經(jīng)濟(jì)因素影響。通用處理器廣泛應(yīng)用于數(shù)據(jù)攝取階段和經(jīng)典機(jī)器學(xué)習(xí)中,用于訓(xùn)練中小型模型。x86架構(gòu)的大規(guī)模普及和其內(nèi)置的AI能力使通用處理器已經(jīng)成為解決AI數(shù)據(jù)流的理想解決方案。
當(dāng)今,人們對于像生成式AI這樣的LLMs的深度學(xué)習(xí)訓(xùn)練非常關(guān)注。如英特爾Gaudi深度學(xué)習(xí)加速器和GPU等的加速計(jì)算解決方案在這方面被廣泛應(yīng)用。然而,最大的增長動力是AI的優(yōu)化和部署。這正是通用處理器如內(nèi)置AI加速器的英特爾至強(qiáng)可擴(kuò)展處理器的應(yīng)用領(lǐng)域。英特爾已經(jīng)優(yōu)化了基于至強(qiáng)的推理平臺,以便在云、網(wǎng)絡(luò)或智能邊緣部署多樣化的AI應(yīng)用程序。
英特爾致力于讓客戶更易于在計(jì)算發(fā)生的任何地方部署AI。其中,我們在第四代英特爾至強(qiáng)可擴(kuò)展處理器中集成AI加速器。第四代英特爾至強(qiáng)可擴(kuò)展處理器最重要的特性之一,是新的AMX人工智能加速引擎,與上一代相比,它可以提供高達(dá)10倍的人工智能推理和訓(xùn)練性能提升。AMX擴(kuò)大了能夠在Xeon上運(yùn)行的人工智能工作負(fù)載范圍,而無需額外的離散加速器。
內(nèi)置AMX加速器等創(chuàng)新技術(shù),第四代至強(qiáng)能夠支持大多數(shù)大型AI模型,包括實(shí)時、中等吞吐量、低延遲稀疏推理,以及中、小型規(guī)模的訓(xùn)練和邊緣推理。此外,英特爾還通過廣泛的生態(tài)系統(tǒng)、專用于簡化流程的軟件工具以及優(yōu)化的編譯器,讓客戶能夠更輕松地部署我們的解決方案。同時,借助oneAPI和OpenVINO,我們通過提供易于編程,且可在英特爾硬件上擴(kuò)展的上游優(yōu)化庫,為開發(fā)人員提供了使用硬件架構(gòu)的開放性和可選擇性,即可在多種架構(gòu)上使用一個代碼庫。
英特爾對于更高級別軟件堆棧的投入,幫助開發(fā)者更輕松地使用他們所熟悉的AI框架,例如Pytorch、TensorFlow和DeepSpeed。在與開放的生態(tài)系統(tǒng)合作擴(kuò)展技術(shù)方面久經(jīng)考驗(yàn),Intel致力于通過對開發(fā)者生態(tài)系統(tǒng)、工具、技術(shù)和開放平臺的長期投入,使得這一在AI領(lǐng)域內(nèi)的公司傳統(tǒng)得以延續(xù)。所有這些工作,使客戶能夠在其基礎(chǔ)設(shè)施中已有的通用處理器上,輕松部署AI。
英特爾面向中國市場推出Gaudi2
Gaudi2旨在滿足越來越多的大語言模型的計(jì)算需求,例如生成式人工智能。對于在中國運(yùn)行深度學(xué)習(xí)訓(xùn)練和推理工作負(fù)載的客戶來說,與市場上其他面向大規(guī)模生成式AI和大語言模型的產(chǎn)品相比,Gaudi2是更理想的選擇。除了在性能表現(xiàn)上超過A100之外,Gaudi2在各種最先進(jìn)的模型上相對于A100提供了約2倍的性價比。Gaudi2首先將通過我們的合作伙伴浪潮信息向中國客戶提供。
英特爾在中國打造基于Gaudi2的大規(guī)模集群。并且正在加大投資力度,以進(jìn)一步擴(kuò)展對大規(guī)模語言模型的AI軟件開發(fā)支持。同時在世界其他地區(qū)已經(jīng)建立了類似基于Gaudi2的集群,并實(shí)現(xiàn)了97%的規(guī)模效率,這意味著從1個節(jié)點(diǎn)到512個節(jié)點(diǎn)的性能擴(kuò)展幾乎沒有對性能產(chǎn)生影響。
Sandra Rivera,英特爾公司執(zhí)行副總裁 數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理
這些集群將作為英特爾開發(fā)者云的一部分向中國客戶提供,并為開發(fā)人員提供一個地方,在這里他們可以分析和優(yōu)化從小型到大型的新興AI工作負(fù)載,而無需昂貴的硬件成本。
生成式AI和LLM的計(jì)算需求需要大規(guī)模的擴(kuò)展,這些MLPerf的結(jié)果有力地證明了Gaudi2系統(tǒng)出色的可擴(kuò)展性和由此帶來的成本效率提升。
Gaudi2實(shí)現(xiàn)了全方位的能效比提升。(如下為性能每瓦的指標(biāo),數(shù)值越高越好。)對于訓(xùn)練計(jì)算機(jī)視覺模型,Gaudi2的每瓦性能是A100的2倍,對于176B參數(shù)的BLOOMZ推理,其每瓦性能是A100的60%。這一優(yōu)勢使客戶能夠顯著降低在數(shù)據(jù)中心運(yùn)行深度學(xué)習(xí)工作負(fù)載的能效和環(huán)境資源成本。
另一個推動效率的因素是易用性。英特爾致力于支持客戶輕松構(gòu)建新模型,以及將當(dāng)前基于GPU的模型業(yè)務(wù)和系統(tǒng)遷移到全新Gaudi服務(wù)器?;诖?,英特爾打造了針對Gaudi平臺深度學(xué)習(xí)訓(xùn)練和推理優(yōu)化的SynapseAI?軟件套件:
- 其集成PyTorch、TensorFlow、DeepSpeed框架;支持Kubernetes編排;定制編譯器。
- 現(xiàn)階段,其也擁有持續(xù)強(qiáng)大的軟件合作伙伴生態(tài)系統(tǒng):Hugging Face、PyTorch Lightning、RedHat
其中,在超過5萬個模型在Hugging Face平臺上使用Optimum Habana軟件庫進(jìn)行了優(yōu)化:
- 通過我們的開發(fā)者網(wǎng)站提供支持,如文檔、參考模型、工具、操作指南等
- 進(jìn)行網(wǎng)絡(luò)研討會、教程和實(shí)踐研討會
幾十年來,英特爾一直致力于為中國市場提供領(lǐng)先的數(shù)據(jù)中心創(chuàng)新,并堅(jiān)定地致力于與大家一起推動人工智能時代的成功。同時通過基于標(biāo)準(zhǔn)的異構(gòu)產(chǎn)品組合為客戶提供經(jīng)濟(jì)高效的解決方案,使他們能夠在任何地方部署人工智能。
英特爾將繼續(xù)致力于用Xeon處理器構(gòu)建一個通用計(jì)算的開放生態(tài)系統(tǒng),該處理器具有內(nèi)置AI加速器AMX、Gaudi2深度學(xué)習(xí)加速器的離散加速以及具有易于編程軟件的可擴(kuò)展系統(tǒng)。Intel期待與中國的合作伙伴一起建設(shè)未來,在人工智能的前沿進(jìn)行創(chuàng)新。
EETOP 官方微信
創(chuàng)芯大講堂 在線教育
半導(dǎo)體創(chuàng)芯網(wǎng) 快訊
相關(guān)文章