2025/2/5 10:39

曝DeepSeek繞過CUDA！為適配中國國產(chǎn)GPU做準(zhǔn)備跳出英偉達(dá)限制

快科技朝暉

DeepSeek全球爆火，再一次引發(fā)外界對GPU算力限制話題的關(guān)注。

據(jù)報(bào)道，DeepSeek開發(fā)的大語言模型繞過了英偉達(dá)的CUDA框架，正為未來兼容國產(chǎn)GPU芯片做準(zhǔn)備。

眾所周知，英偉達(dá)的CUDA（Compute Unified Device Architecture，統(tǒng)一運(yùn)算架構(gòu)）能大幅降低研發(fā)大模型的難度，獲全球開發(fā)商使用，一舉將英偉達(dá)推上AI芯片領(lǐng)域的壟斷地位。

但最新發(fā)現(xiàn)顯示，DeepSeek使用英偉達(dá)的H800芯片訓(xùn)練時(shí)，使用英偉達(dá)底層硬件指令PTX（Parallel Thread Execution）語言，而非高級編程語言CUDA。

這樣意味著DeepSeek繞過了CUDA，使用更底層的編程語言做優(yōu)化。

對于程序開發(fā)人員來說，CUDA是一種更加友好的高級語言，開發(fā)者只需要專注于程序和算法最相關(guān)的運(yùn)行邏輯，而不太需要考慮具體的程序是如何在GPU等硬件上具體如何執(zhí)行計(jì)算的，從而能夠降低開發(fā)難度。

而PTX在接近匯編語言的層級運(yùn)行，允許進(jìn)行細(xì)粒度的優(yōu)化，如寄存器分配和Thread / Warp級別的調(diào)整。這種編程非常復(fù)雜且難以維護(hù)，所以行業(yè)通用的做法是使用CUDA這樣的高級編程語言。

換句話說，DeepSeek把優(yōu)化做到了極致。

北京航空航天大學(xué)副教授黃雷表示，繞過CUDA可以直接根據(jù)GPU的驅(qū)動(dòng)函數(shù)做一些新的開發(fā)，從而實(shí)現(xiàn)更加細(xì)粒度的操作。

這也說明DeepSeek擁有一些擅長寫PTX語言的內(nèi)部開發(fā)者。假如它之后使用國產(chǎn)GPU，其在硬件適配方面將會(huì)更得心應(yīng)手，其只要了解這些硬件驅(qū)動(dòng)提供的一些基本函數(shù)接口，就可以仿照英偉達(dá)GPU硬件的編程接口去寫相關(guān)的代碼，從而讓自家大模型更加容易適配國產(chǎn)硬件。

“這凸顯了DeepSeek非凡的工程水平，并表明美國對華制裁加劇的“GPU短缺危機(jī)”激發(fā)了他們緊迫感和創(chuàng)造力。”韓國Mirae Asset Securities Research的一名分析師表示。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

AMD：已將DeepSeek模型集成到GPU 針對Al推理進(jìn)行優(yōu)化
快科技鹿角10:39
美國稱下載最高判20年！中國代表霸氣回應(yīng)DeepSeek引發(fā)轟動(dòng)
快科技雪花10:39
低至3折，百度智能云宣布上線DeepSeek-R1/V3
C114通信網(wǎng) 2-3
英偉達(dá)推出個(gè)人計(jì)算產(chǎn)品Project DIGITS
新浪科技羅寧1-8

曝DeepSeek繞過CUDA！為適配中國國產(chǎn)GPU做準(zhǔn)備 跳出英偉達(dá)限制

曝DeepSeek繞過CUDA！為適配中國國產(chǎn)GPU做準(zhǔn)備跳出英偉達(dá)限制