99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

速度快10倍,Groq芯片一夜爆紅!英偉達(dá)要被趕下神壇?

2024-02-21 11:46:28 EETOP
點(diǎn)擊關(guān)注->創(chuàng)芯網(wǎng)公眾號(hào),后臺(tái)告知EETOP論壇用戶名,獎(jiǎng)勵(lì)200信元
近日,AI芯片創(chuàng)企Groq(不是馬斯克的Gork)開放了自家產(chǎn)品的免費(fèi)試用。相比其他AI聊天機(jī)器人,Groq閃電般的響應(yīng)速度迅速引爆互聯(lián)網(wǎng)討論。其大模型每秒能輸出750個(gè)tokens,比GPT-3.5快18倍,自研LPU推理速度是英偉達(dá)GPU的10倍。為此網(wǎng)友驚呼 大模型最快推理芯片的一哥換人了,不再是英偉達(dá)了

image.png

Groq名字與馬斯克的大模型Grok讀音類似,成立于2016年,定位為一家人工智能解決方案公司。

Groq爆火主要是因?yàn)槠涮幚硭俣确浅?臁?jù)媒體報(bào)道,該公司的芯片推理速度較英偉達(dá)GPU提高10倍,成本只有其1/10。

運(yùn)行的大模型生成速度接近每秒500 tokens,碾壓ChatGPT-3.5大約40 tokens/秒的速度。

極限情況下,Groq的Llama2 7B甚至能實(shí)現(xiàn)每秒750 tokens,為GPT-3.5的18倍。

圖片

在Groq的創(chuàng)始團(tuán)隊(duì)中,有8人來自谷歌早期TPU核心設(shè)計(jì)團(tuán)隊(duì),但Groq并未選擇TPU、GPUCPU等路線,而是自研了語言處理單元(LPU)。

Groq官網(wǎng)顯示,在 Groq LPU?推理引擎上運(yùn)行的Meta AI的Llama 2 70B的性能優(yōu)于所有其他基于云的推理提供商,吞吐量提高了18倍。

能否取代英偉達(dá)?

不過,速度并不是AI發(fā)展的唯一決定性因素。在Groq爆火的同時(shí),也有一些質(zhì)疑聲音。

首先,Groq似乎只是看起來便宜。Groq的一張LPU卡僅有230MB的內(nèi)存,售價(jià)為2萬多美元。

有網(wǎng)友分析,英偉達(dá)H100的成本效益應(yīng)為Groq的11倍。

更為關(guān)鍵的是,Groq LPU完全不配備高帶寬存儲(chǔ)器(HBM),而是僅配備了一小塊的超高速靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM),這種SRAM的速度比HBM3快20倍。

這也意味著,與英偉達(dá)的H200相比,在運(yùn)行單個(gè)AI模型時(shí)需要配置更多的Groq LPU。

另據(jù)Groq員工透露,Groq的LLM在數(shù)百個(gè)芯片上運(yùn)行。

圖片

對(duì)此,騰訊科技的芯片專家姚金鑫認(rèn)為,Groq的芯片目前并不能取代英偉達(dá)。

以下是姚金鑫轉(zhuǎn)寫的文章:

有關(guān)Groq芯片跑大模型超越英偉達(dá)芯片的文章火爆了朋友圈,這是個(gè)非常好的案例來科普,甚至反思一些現(xiàn)象。

首先,從技術(shù)上解釋還原一下這件事情的本來面目,然后基于這件事情,表達(dá)幾個(gè)對(duì)背后引人深思現(xiàn)象的看法。

一、速度快,但成本奇高

技術(shù)上解釋:

按照Groq的信息,這顆AI芯片的規(guī)格如下:

圖片

幾個(gè)關(guān)鍵信息點(diǎn):SRAM的容量是230MB,帶寬80TB/s,F(xiàn)P16的算力是188TFLOPs。

按照當(dāng)前對(duì)大模型的推理部署,7B的模型大約需要14G以上的內(nèi)存容量,那么為了部署一個(gè)7B的模型,大約需要70片左右的芯片,根據(jù)透露的信息,一顆芯片對(duì)應(yīng)一張計(jì)算卡,按照4U服務(wù)器配置8張計(jì)算卡來計(jì)算,就需要9臺(tái)4U服務(wù)器(幾乎占了一個(gè)標(biāo)準(zhǔn)機(jī)柜了),總共72顆計(jì)算芯片,在這種情況下,算力(在FP16下)也達(dá)到了驚人的188T * 72 = 13.5P,如果按照INT8來算就是54P。54P的算力來推理7B的大模型,用大炮打蚊子來形容一點(diǎn)也不為過。

如果是英偉達(dá),朋友圈文章對(duì)標(biāo)的是H100,其采用的是80G的HBM,這個(gè)容量可以部署5個(gè)7B的大模型實(shí)例;我們?cè)賮砜此懔Γ∈杌螅琀100在FP16下的算力將近2P,在INT8上也將近4P。

那么就可以做個(gè)對(duì)比,如果從同等算力來看,如果都是用INT8來推理,采用Groq的方案需要9臺(tái)包含72片的服務(wù)器集群,而如果是H100,達(dá)到同等算力大約需要2臺(tái)8卡服務(wù)器,此時(shí)的INT8算力已經(jīng)到64P,可以同時(shí)部署的7B大模型數(shù)量達(dá)到80多個(gè)。原文中提到,Groq對(duì)Llama2-7B的Token生成速度是750 Tokens/s,如果對(duì)標(biāo)的是H100服務(wù)器,那這2臺(tái)總共16顆的H100芯片,并發(fā)吞吐就高到不知道哪里去了。如果從成本的角度,9臺(tái)的Groq服務(wù)器,也是遠(yuǎn)遠(yuǎn)貴過2臺(tái)H100的服務(wù)器(即使此刻價(jià)格已經(jīng)高到離譜),

Groq:2萬美金72=144萬美金,服務(wù)器2萬美金9=18萬美金,純的BOM成本160萬美金以上(全部都是按照最低方式來計(jì)算)。

H100: 30萬美金2 = 60萬美金(國外),300萬人民幣2=600萬人民幣(國內(nèi)實(shí)際市場價(jià))

這還沒有算機(jī)架相關(guān)費(fèi)用,和消耗的電費(fèi)(9臺(tái)4U服務(wù)器幾乎占用整個(gè)標(biāo)準(zhǔn)機(jī)柜)。

如果是70B的模型,同樣是INT8,要用到至少600張卡,將近80臺(tái)服務(wù)器,成本會(huì)更高。

實(shí)際上,部署推理性價(jià)比最高的,恰恰是4090這種神卡。

二、速度,在這里成了Groq的雙刃劍。

可是為什么Groq和自媒體都有意無意地引導(dǎo)人們已經(jīng)超越英偉達(dá)了呢?并且大多數(shù)人都還相信了呢?

這首先是因?yàn)橛ミ_(dá)在本次AI浪潮中的絕對(duì)領(lǐng)先地位,使得全球都翹首以盼挑戰(zhàn)者。每次吸引眼球的文章,總會(huì)在最初被人相信,除了這個(gè)原因之外,還是因?yàn)樵谧鰧?duì)比時(shí)的“套路”,故意忽略其他因素,用單一維度來做比較。這就好比那句名言“拋開事實(shí)不談,難道你就沒有一點(diǎn)錯(cuò)的地方嗎?”

拋開場景來談對(duì)比,其實(shí)是不合適的。對(duì)于Groq這種架構(gòu)來講,也有其盡顯長處的應(yīng)用場景,畢竟這么高的帶寬,對(duì)許多需要頻繁數(shù)據(jù)搬運(yùn)的場景來說,那就是再好不過了。

總結(jié)起來,Groq的架構(gòu)建立在小內(nèi)存,大算力上,因此有限的被處理的內(nèi)容對(duì)應(yīng)著極高的算力,導(dǎo)致其速度非常快。

現(xiàn)在把句話反過來,Groq極高的速度是建立在很有限的單卡吞吐能力上的。要保證和 H100同樣吞吐量,你就需要更多的卡。速度,在這里成了Groq的雙刃劍。


關(guān)鍵詞: Groq

  • EETOP 官方微信

  • 創(chuàng)芯大講堂 在線教育

  • 半導(dǎo)體創(chuàng)芯網(wǎng) 快訊

全部評(píng)論

主站蜘蛛池模板: 国产黄网站在线观看| 国产精品成人久久久久久久| 国产一级性生活片| 色综合合久久天天给综看| 成年女人免费v片| 99久久免费国产香蕉麻豆| 午夜剧场刺激性爽免费视频| 亚洲第一成人天堂第一| 香港a毛片| 久久999精品| 亚洲精品aⅴ一区二区三区| 中国女人一级片| 国产一区二区免费视频| 99精品国产自在现线观看| 久久官网| 欧美精品亚洲精品日韩专区| 亚洲九九色| 久久成人黄色| 毛片1级| 成人免费专区| 国产在线观看美女福利精| 国产精品高清m3u8在线播放| 欧美成人精品第一区二区三区| 亚洲国产色图| 亚洲综合色区图片区| julia一区二区三区中文字幕| 日本高清毛片视频在线看 | 六月丁香婷婷色狠狠久久| 香蕉亚洲| 亚洲狠狠网站色噜噜| 一区精品麻豆入口| 91精品天美精东蜜桃传媒免费| 亚洲精品美女国产一区| 好大好爽国产美女h福利视频| 国产精品国产三级国产专不∫| 黄色一级视频免费看| 6080窝窝理论| 久久99这里只有精品国产| 妞干网免费在线视频| 欧美日韩亚洲综合在线一区二区| 婷婷六月丁香午夜爱爱|