99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

速度快10倍,Groq芯片一夜爆紅!英偉達要被趕下神壇?

2024-02-21 11:46:28 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元
近日,AI芯片創企Groq(不是馬斯克的Gork)開放了自家產品的免費試用。相比其他AI聊天機器人,Groq閃電般的響應速度迅速引爆互聯網討論。其大模型每秒能輸出750個tokens,比GPT-3.5快18倍,自研LPU推理速度是英偉達GPU的10倍。為此網友驚呼 大模型最快推理芯片的一哥換人了,不再是英偉達了

image.png

Groq名字與馬斯克的大模型Grok讀音類似,成立于2016年,定位為一家人工智能解決方案公司。

Groq爆火主要是因為其處理速度非常快。據媒體報道,該公司的芯片推理速度較英偉達GPU提高10倍,成本只有其1/10。

運行的大模型生成速度接近每秒500 tokens,碾壓ChatGPT-3.5大約40 tokens/秒的速度。

極限情況下,Groq的Llama2 7B甚至能實現每秒750 tokens,為GPT-3.5的18倍。

圖片

在Groq的創始團隊中,有8人來自谷歌早期TPU核心設計團隊,但Groq并未選擇TPU、GPUCPU等路線,而是自研了語言處理單元(LPU)。

Groq官網顯示,在 Groq LPU?推理引擎上運行的Meta AI的Llama 2 70B的性能優于所有其他基于云的推理提供商,吞吐量提高了18倍。

能否取代英偉達?

不過,速度并不是AI發展的唯一決定性因素。在Groq爆火的同時,也有一些質疑聲音。

首先,Groq似乎只是看起來便宜。Groq的一張LPU卡僅有230MB的內存,售價為2萬多美元。

有網友分析,英偉達H100的成本效益應為Groq的11倍。

更為關鍵的是,Groq LPU完全不配備高帶寬存儲器(HBM),而是僅配備了一小塊的超高速靜態隨機存取存儲器(SRAM),這種SRAM的速度比HBM3快20倍。

這也意味著,與英偉達的H200相比,在運行單個AI模型時需要配置更多的Groq LPU。

另據Groq員工透露,Groq的LLM在數百個芯片上運行。

圖片

對此,騰訊科技的芯片專家姚金鑫認為,Groq的芯片目前并不能取代英偉達。

以下是姚金鑫轉寫的文章:

有關Groq芯片跑大模型超越英偉達芯片的文章火爆了朋友圈,這是個非常好的案例來科普,甚至反思一些現象。

首先,從技術上解釋還原一下這件事情的本來面目,然后基于這件事情,表達幾個對背后引人深思現象的看法。

一、速度快,但成本奇高

技術上解釋:

按照Groq的信息,這顆AI芯片的規格如下:

圖片

幾個關鍵信息點:SRAM的容量是230MB,帶寬80TB/s,FP16的算力是188TFLOPs。

按照當前對大模型的推理部署,7B的模型大約需要14G以上的內存容量,那么為了部署一個7B的模型,大約需要70片左右的芯片,根據透露的信息,一顆芯片對應一張計算卡,按照4U服務器配置8張計算卡來計算,就需要9臺4U服務器(幾乎占了一個標準機柜了),總共72顆計算芯片,在這種情況下,算力(在FP16下)也達到了驚人的188T * 72 = 13.5P,如果按照INT8來算就是54P。54P的算力來推理7B的大模型,用大炮打蚊子來形容一點也不為過。

如果是英偉達,朋友圈文章對標的是H100,其采用的是80G的HBM,這個容量可以部署5個7B的大模型實例;我們再來看算力,稀疏化后,H100在FP16下的算力將近2P,在INT8上也將近4P。

那么就可以做個對比,如果從同等算力來看,如果都是用INT8來推理,采用Groq的方案需要9臺包含72片的服務器集群,而如果是H100,達到同等算力大約需要2臺8卡服務器,此時的INT8算力已經到64P,可以同時部署的7B大模型數量達到80多個。原文中提到,Groq對Llama2-7B的Token生成速度是750 Tokens/s,如果對標的是H100服務器,那這2臺總共16顆的H100芯片,并發吞吐就高到不知道哪里去了。如果從成本的角度,9臺的Groq服務器,也是遠遠貴過2臺H100的服務器(即使此刻價格已經高到離譜),

Groq:2萬美金72=144萬美金,服務器2萬美金9=18萬美金,純的BOM成本160萬美金以上(全部都是按照最低方式來計算)。

H100: 30萬美金2 = 60萬美金(國外),300萬人民幣2=600萬人民幣(國內實際市場價)

這還沒有算機架相關費用,和消耗的電費(9臺4U服務器幾乎占用整個標準機柜)。

如果是70B的模型,同樣是INT8,要用到至少600張卡,將近80臺服務器,成本會更高。

實際上,部署推理性價比最高的,恰恰是4090這種神卡。

二、速度,在這里成了Groq的雙刃劍。

可是為什么Groq和自媒體都有意無意地引導人們已經超越英偉達了呢?并且大多數人都還相信了呢?

這首先是因為英偉達在本次AI浪潮中的絕對領先地位,使得全球都翹首以盼挑戰者。每次吸引眼球的文章,總會在最初被人相信,除了這個原因之外,還是因為在做對比時的“套路”,故意忽略其他因素,用單一維度來做比較。這就好比那句名言“拋開事實不談,難道你就沒有一點錯的地方嗎?”

拋開場景來談對比,其實是不合適的。對于Groq這種架構來講,也有其盡顯長處的應用場景,畢竟這么高的帶寬,對許多需要頻繁數據搬運的場景來說,那就是再好不過了。

總結起來,Groq的架構建立在小內存,大算力上,因此有限的被處理的內容對應著極高的算力,導致其速度非常快。

現在把句話反過來,Groq極高的速度是建立在很有限的單卡吞吐能力上的。要保證和 H100同樣吞吐量,你就需要更多的卡。速度,在這里成了Groq的雙刃劍。


關鍵詞: Groq

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 99视频精品免视3| 天天拍夜夜添久久精品中文| 免费的a级毛片| yy4080一级毛片免费观看| 亚洲精品国产福利| 激情婷婷成人亚洲综合| 国产中文字幕第一页| 小色片| 免费人成xvideoscom中文| 国产黄色片在线看| 尤物tv| 妞干网视频在线观看| 国产在线视频一区二区三区| 久久国产精品一国产精品| 国产原创91| 农村一级黄色片| 97精品国产综合久久| 搞黄在线观看| 永久免费看黄| 久久久久青草线蕉亚洲麻豆| 欧美色视频免费高清播放| 一级骚片超级骚在线观看| 粉嫩国产精品14xxxxx| 久久逼网| 狠狠色欧美亚洲狠狠色五| 免费观看欧美成人禁片| 色很久| 免费能直接在线观看黄的视频| 一级毛片免费全部播放完整| 国产中文字幕视频| 成人欧美一级毛片免费观看| 莫菁在线| 成人国产精品免费软件| 免费特级黄毛片在线成人观看| 欧美一级毛片片免费| 色青青草原桃花久久综合| 欧美日韩一区二区三区四区在线观看 | 欧美日韩精品一区二区三区视频| 免费观看性欧美一级| 国产综合欧美| 中文字幕一区在线观看视频|