DeepSeek開源周第三天開源項目:DeepGemm
DeepGemm是什么?
DeepGEMM是一個專為高效FP8通用矩陣乘法(GEMM)設(shè)計的庫,具有細粒度縮放功能,支持普通和混合專家(MoE)分組GEMM。

DeepGemm的技術(shù)特點
CUDA編寫:DeepGEMM使用CUDA編寫,無需編譯,采用輕量級即時(JIT)模塊在運行時編譯所有內(nèi)核。
細粒度縮放功能:支持普通和混合專家(MoE)分組GEMM,適用于不同的矩陣形狀和計算需求。
性能優(yōu)化:采用CUDA核心兩級累積(提升)解決不精確的FP8張量核心累積問題,利用Hopper TMA功能加速數(shù)據(jù)移動。
DeepGemm的主要優(yōu)勢
性能優(yōu)異:盡管設(shè)計輕量,但其性能匹敵甚至超過了各種矩陣形狀的專家調(diào)整庫。
易于訪問:作為一個干凈且易于訪問的資源,DeepGEMM是學(xué)習(xí)Hopper FP8矩陣乘法和優(yōu)化技術(shù)的理想選擇。
靈活性:支持自動選擇塊大小、warpgroups數(shù)量、最佳流水線階段和TMA集群大小,以適應(yīng)不同的計算需求。
DeepGemm的應(yīng)用場景
DeepGEMM適用于需要高效矩陣乘法操作的場景,特別是在深度學(xué)習(xí)ai模型訓(xùn)練和推理中,能夠顯著提高計算效率和性能。
github:https://github.com/deepseek-ai/DeepGEMM
其它相關(guān)鏈接
1. DeepSeek開源周第二天開源項目:Deepep
2. DeepSeek開源周第一天開源項目:DeepSeek FlashMLA
相關(guān)文章
DeepSeek V3.1上線,更新了哪些功能?
2025-08-19
DeepSeek R1-0528有哪些功能更新?
2025-05-29
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開源AI應(yīng)用平臺










