99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

DeepSeek 團隊神操作:用“匯編”取代CUDA 讓性能狂飆

2025-01-29 10:01:27 EETOP
點擊關注->創芯網公眾號,后臺告知EETOP論壇用戶名,獎勵200信元

人工智能領域,DeepSeek 引發了巨大轟動。它借助由 2048 塊英偉達 H800 GPU 組成的集群,僅用約兩個月時間就完成了擁有 6710 億參數的混合專家(MoE)語言模型訓練,效率比 Meta 等人工智能行業領軍企業高出 10 倍。據 @Jukanlosreve 援引韓國未來資產證券(Mirae Asset Securities Korea)的分析,這一突破得益于大量細粒度的優化措施,以及采用了類似匯編語言的英偉達并行線程執行(PTX)編程,而非英偉達的 CUDA 編程。

image.png

英偉達的并行線程執行(PTX)是英偉達公司專為其圖形處理器GPU)設計的一種中間指令集架構。PTX 處于高級 GPU 編程語言(如 CUDA C/C++ 或其他語言前端)與低級機器代碼(流式匯編,即 SASS)之間。PTX 是一種接近硬件底層的指令集架構,它將 GPU 視為數據并行計算設備,因而能夠實現細粒度的優化操作,例如寄存器分配以及線程 / 線程束級別的調整,而這些功能是 CUDA C/C++ 等其他編程語言所無法實現的。一旦將 PTX 轉換為 SASS,便會針對特定一代的英偉達 GPU 進行優化處理。

例如,在訓練其 V3 模型時,DeepSeek 對英偉達 H800 GPU 進行了重新配置:在 132 個流式多處理器中,專門分配了 20 個用于服務器間的通信任務,此舉可能是為了對數據進行壓縮和解壓縮處理,以克服處理器的連接限制,進而加快數據傳輸速度。為了最大限度地提升性能,DeepSeek 還采用了先進的流水線算法,可能還進行了更為精細的線程 / 線程束級別的調整操作。

這些改進措施遠遠超出了標準的 CUDA 級開發范疇,然而,其維護難度極高已是業內公認的事實。因此,這種程度的優化成果充分體現了 DeepSeek 工程師團隊卓越的技術水平。受美國相關限制措施的影響,全球 GPU 短缺問題進一步加劇,這迫使像 DeepSeek 這樣的企業不得不采取創新解決方案,而 DeepSeek 也成功實現了技術突破。然而,目前尚無法明確 DeepSeek 為取得這些成果在研發過程中投入的資金數額。

這一突破性進展對市場造成了一定的沖擊,部分投資者認為,新的人工智能模型對高性能硬件的需求將會降低,這對英偉達等公司的產品銷售產生了不利影響。行業資深人士,如英特爾前首席執行官帕特?基辛格則認為,人工智能等應用領域能夠充分利用其所能獲取的全部計算能力。對于 DeepSeek 的這一突破,基辛格認為這為在大眾市場中的大量廉價設備中集成人工智能技術提供了可行途徑。OpenAI 首席執行官山姆?阿爾特曼也對 DeepSeek 給予了 “令人印象深刻” 的評價。然而在 2023 年,他曾表示與 DeepSeek 展開競爭幾乎是不可能之事。


關鍵詞: DeepSeek

  • EETOP 官方微信

  • 創芯大講堂 在線教育

  • 半導體創芯網 快訊

全部評論

主站蜘蛛池模板: 亚洲国产九九精品一区二区| 成年大片免费高清在线看黄| 偷窥自拍15p| 国产亚洲91| 深夜国产| 最新亚洲精品| 久久88香港三级台湾三级中文| 欧美人与鲁交大毛片免费| 特一级黄| 99久久免费国内精品| 精品毛片| 欧美日韩精品在线观看| 亚洲另类在线视频| h片在线观看网站| 久久久精品久久| 日韩做爰视频免费| 亚洲精品tv久久久久久久久 | 国产萝控精品福利视频免费| 色国产精品| 一级毛片美国一级j毛片不卡| 成人两性高清图片视频| 欧美日本二区| 国产日韩精品在线| 国产综合成色在线视频| 香蕉乱码成人久久天堂爱免费| 国产在线视精品麻豆| 欧美日韩亚洲国内综合网香蕉| aaa免费毛片| 又做又爱高清免费观看| 亚洲精品一区二区| 男女喷水视频| 欧美日韩高清不卡免费观看| 国产一级黄毛片| 国产成人精品综合久久久软件| 99久热re在线精品99 6热视频| 热伊人99re久久精品最新地| 亚洲精品影院| 亚洲精品美女久久久久| 亚洲欧美日韩国产专区一区| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 成人资源在线|