在Nvidia數據中心業務中找到比它增長更快的東西可能會很困難,但有一個競爭者:OpenAI。有消息稱OpenAI正考慮自研AI芯片。這種猜測源于該公司的快速增長以及使用Nvidia基于GPU的系統所帶來的巨大成本。OpenAI對更具成本效益的替代方案的追求以及對基礎架構更大控制權的渴望引發了關于開發自有AI芯片的猜測。

OpenAI是GPT生成式人工智能模型和聊天機器人接口的創造者,今年它風靡全球。它還是一家在GenAI商業化方面擁有一定先發優勢的公司,這部分要歸功于其與微軟130億美元的巨額合作伙伴關系。考慮到OpenAI在客戶和收入方面的增長速度非常快,以及為訓練和運行其不斷擴大的人工智能模型所需的高成本,毫不奇怪有傳言稱OpenAI正在考慮設計自己的人工智能芯片,并將其制造成自家系統,以減少對基于Nvidia的GPU系統的依賴 - 無論是租用來自微軟Azure云的Nvidia A100和H100 GPU容量,還是構建或購買基于這些GPU的系統并將它們部署在合作或自家數據中心。鑒于云構建商對GPU容量的高溢價定價,像OpenAI這樣的公司肯定在尋找更便宜的替代方案,而且在創業階段,它們顯然還不足以排在需要各種服務的Microsoft、Google、Amazon Web Services和日益壯大的Meta Platforms前面。GPU實例的利潤令人驚訝,而且這還是在GPU系統組件的成本非常高之后。為了證明這一點,我們最近分析了基于Nvidia A100和H100 GPU的Amazon Web Services的P4和P5實例的數據,以及它們的前身,顯示AWS對A100和H100的三年預留實例擁有接近70%的運營利潤率。當然,云定價和GPU系統配置有所不同,但原則是相同的。如今,出售GPU容量比在沙漠中無法找到綠洲和挖井給人們賣水更容易,而且沒有必要支付云溢價,甚至芯片制造商和系統制造商的溢價,但任何希望設計定制芯片和相關系統的人都必須具備一定規模,以承擔如此龐大的工程師和鑄造以及組裝能力的投資。看起來 OpenAI 正在這條軌道上,除了與微軟的交易之外,它還將自己 49% 的股份出售給了這家軟件和云巨頭,以換取使用 OpenAI 模型的獨家許可,并擁有本質上是往返微軟,支付 OpenAI 訓練其模型所需的 Azure 云上的 GPU 容量費用。根據路透社的另一份報告,去年OpenAI的銷售額為2800萬美元,而《財富》雜志在其報告中寫道,這家公司去年虧損了5.4億美元,雖然它不是上市公司。現在你知道為什么OpenAI不得不親近微軟,這可能是將人工智能嵌入到許多系統軟件和應用程序的最佳途徑。今年早些時候,OpenAI告訴人們,今年可能會實現2億美元的銷售額,但在8月份,它表示在未來12個月內,將實現10億美元的銷售額,提供對其模型和聊天機器人服務的訪問。如果這是真的,沒有理由相信OpenAI不能賺得盆滿缽滿,特別是如果微軟付費使用 Azure,這意味著凈成本為零。假設OpenAI今年可能有5億美元的資金,明年可能有3倍的資金,如果其增長放緩,成本不會大幅上升。如果情況確實如此,那么Sam Altman等人是贏家,因為我們認為OpenAI的創始人和所有者現在不希望其持股比例降至51%以下,因為這將失去對公司的控制。OpenAI可能有足夠的資金來制造AI芯片,而不需要尋找更多的投資者。因此,再次強調OpenAI正在尋找降低成本的方式并不奇怪。考慮到Nvidia對GPU的高價溢價和云端為租用的GPU系統容量收費高昂,OpenAI如果沒有考慮設計用于其AI模型的計算和互連芯片選項,那就太愚蠢了。以前不應該這樣做,但現在顯然是開始這條道路的時候。我們今年早些時候從The Information獲得的消息是,微軟有自己的AI芯片項目,代號"Athena",始于2019年,顯然已經有一些測試芯片提供給了微軟和OpenAI的研究人員。(重要的是要記住這是兩家獨立的公司。)盡管微軟推動了各種芯片的發展,特別是在其Xbox游戲機中的自定義CPU-GPU復合芯片,但開發如此大型和復雜的芯片在每個制造過程節點都變得越來越昂貴,并且存在風險,因為任何延遲 - 總會有延遲 - 都可能使微軟落后于競爭對手。Google首先推出了自家的Tensor Processing Units(TPUs),與Broadcom合作進行共同設計和制造。AWS隨后推出了其Trainium和Inferentia芯片,由其Annapurna Labs部門負責制造,制造商是臺積電,這也是Google TPU的晶圓廠。Marvell幫助Groq將其GroqChip和互連技術推向市場。Meta Platforms正在開發自家的MTIA芯片用于AI推斷,并同時還在研發用于AI培訓的變種。AI培訓芯片領域還包括Cerebras Systems、SambaNova Systems、Graphcore和Tenstorrent等設備。這些AI初創公司的估值可能過高 - 數十億美元 - OpenAI可能無法收購它們,但吉姆·凱勒(Jim Keller)的Tenstorrent公司是獨一無二的,因為該公司愿意向任何想要構建自己的AI加速器或擁有其RISC-V CPU的人授予IP許可。考慮到GPT模型在AI領域的重要性,我們認為任何AI初創公司都會達成類似的IP許可協議,成為OpenAI的首選平臺,幾乎可以肯定OpenAI有能力在發現微軟Azure價格過高時轉向自家硬件。讓我們進行一些有趣的數學計算。購買一個具有約20億FLOP的全球一流人工智能訓練集群(不包括支持矩陣稀疏性的支持)現在需要花費超過10億美元,使用Nvidia H100 GPU。在云中租用三年的容量將這個成本增加2.5倍。這包括群集節點的網絡、計算和本地存儲,但不包括任何外部、高容量和高性能的文件系統存儲。開發一個規模相當適度的新芯片成本在2000萬至5000萬美元之間。但假設它要更多。但要記住,構建一個人工智能系統涉及的不僅僅是設計矩陣引擎并將其交給臺積電。云構建商購買一個基于Hopper H100的八GPU節點的成本可能接近30萬美元,包括InfiniBand網絡(網卡、電纜和交換機)的部分。這假定了節點之間采用NVSwitch互連。(這比單元購買更便宜。)你可以使用只有兩個或四個GPU的較小節點,并使用這些GPU之間的直接NVLink端口,但共享內存域較小。這具有成本更低的優勢,但共享內存的大小較小,這會影響模型訓練性能和規模。同一個 8 GPU 節點的按需租金為 260 萬美元,AWS 的三年內預留費用為 110 萬美元,微軟 Azure 和谷歌云的租金可能也相同。因此,如果 OpenAI 能夠以低于 50萬美元的價格構建其系統(全部成本全部投入),那么它將削減一半以上的 IT 費用,同時掌控自己的命運。將 IT 費用削減一半,模型規模增加了一倍。將其削減四分之三即可使其翻兩番。這對于模型尺寸每兩到三個月翻一番的市場來說非常重要。需要記住的是,如果AI芯片設計或制造出現問題,OpenAI也可能面臨自己的困境,此時,OpenAI將被排在Nvidia提供的GPU訪問隊列的后面,而在微軟那里,位置也會進一步下降。因此,需要考慮到這一點。這就是為什么所有云端和大多數超大規模云供應商都會購買Nvidia GPU,并設計和構建自己的加速器和系統。他們也不能承受被迎頭趕上的風險。所以這也需要考慮。這就是為什么所有的云服務提供商和大多數超級規模云計算供應商都會購買Nvidia的GPU,同時設計和構建自己的加速器和系統。他們也不能承擔被抓個措手不及的風險。