DeepSeek 開源週第三天:推出 DeepGEMM — AI 訓練與推理的新利器
什麼是 DeepGEMM?
DeepSeek 在其「開源週」第三天正式推出 DeepGEMM,這款開源函式庫支援 FP8 通用矩陣乘法 (GEMM),專為 密集型與專家混合模型 (MoE) 矩陣運算 而設計。這項工具強力支援 DeepSeek 的旗艦模型 — DeepSeek V3 和 R1 的訓練與推理。
但 DeepGEMM 究竟有什麼獨特之處?我們來仔細看看。
極速效能與極簡設計的完美結合
根據 DeepSeek 官方在 X (前身為 Twitter) 上的公告,DeepGEMM 在 NVIDIA Hopper GPU 上的 FP8 運算效能高達 1350+ TFLOPS。更令人驚豔的是,其核心邏輯僅約 300 行程式碼,在簡單與高速間取得了巧妙平衡。
以下是 DeepGEMM 的亮點功能:
- 無需繁複的相依套件 — 避免陷入龐大的函式庫地獄。
- 即時編譯 (JIT) — 所有核心函數於執行時編譯,免除冗長的安裝過程。
- 支援密集與 MoE 佈局 — 讓開發者靈活應對複雜的 AI 模型。
- 乾淨且教學風格的設計 — 非常適合想深入研究 FP8 矩陣運算的開發者。
DeepGEMM 與專家調校函式庫的對決
在 AI 模型訓練中,效能至關重要,而 DeepGEMM 的表現毫不遜色。事實上,在多種矩陣尺寸下,它的效能不僅與 專家級調校函式庫 並駕齊驅,甚至有所超越。
密集模型的標準 GEMM (與 CUTLASS 3.6 相比的加速比)
M | N | K | 運算效能 (TFLOPS) | 加速比 |
---|---|---|---|---|
64 | 2112 | 7168 | 206 | 2.7x |
128 | 2112 | 7168 | 352 | 2.4x |
4096 | 2112 | 7168 | 1058 | 1.1x |
專家模型的群組 GEMM (遮罩佈局)
群組數 | 每群組 M | N | K | 運算效能 (TFLOPS) | 加速比 |
---|---|---|---|---|---|
1 | 1024 | 4096 | 7168 | 1233 | 1.2x |
2 | 512 | 7168 | 2048 | 916 | 1.2x |
4 | 256 | 4096 | 7168 | 932 | 1.1x |
儘管 DeepGEMM 的表現令人驚豔,團隊也坦言部分矩陣尺寸的效能仍有進步空間。他們誠摯邀請開發者提交 優化 Pull Requests (PR),共同提升這套工具。
開發者為何該關注?
DeepSeek 不僅在打造自己的工具,更在推動 開源合作。透過釋出 DeepGEMM,他們讓全球開發者有機會共同推動 AI 訓練與推理的技術發展。不僅侷限於 DeepSeek 的模型,這是一場全球性的技術生態合作。
此外,對於想深入研究 FP8 矩陣運算的人來說,DeepGEMM 的簡潔設計讓你可以毫無障礙地探索 Hopper tensor cores,而無需陷入過度工程化的程式碼泥沼。
如何開始使用 DeepGEMM?
想試試看 DeepGEMM 嗎?以下是基本需求:
需求條件:
- NVIDIA Hopper 架構 GPU (支援 sm_90a)
- Python 3.8 以上
- CUDA 12.3 以上 (建議使用 12.8)
- PyTorch 2.1 以上
- CUTLASS 3.6 (可透過 Git 子模組下載)
詳細專案與安裝指南請見:DeepGEMM 在 GitHub
未來展望
DeepSeek 的開源週已經發布了 FlashMLA (快速語言模型架構) 與 DeepEP (專家平行通訊),如今又透過 DeepGEMM 穩固了其在 AI 基礎建設領域的地位。
但這僅僅是個開始。有了社群的參與與優化,DeepGEMM 不僅能提升 DeepSeek 的模型效能,更可能成為全球 AI 研究人員的強大工具。
準備好一起探索 FP8 GEMM 的無限可能了嗎?讓我們攜手構築 AI 的未來,一個矩陣運算接著一個。