DeepSeek 開源週第三天:推出 DeepGEMM — AI 訓練與推理的新利器

什麼是 DeepGEMM?

DeepSeek 在其「開源週」第三天正式推出 DeepGEMM,這款開源函式庫支援 FP8 通用矩陣乘法 (GEMM),專為 密集型與專家混合模型 (MoE) 矩陣運算 而設計。這項工具強力支援 DeepSeek 的旗艦模型 — DeepSeek V3R1 的訓練與推理。

但 DeepGEMM 究竟有什麼獨特之處?我們來仔細看看。

極速效能與極簡設計的完美結合

根據 DeepSeek 官方在 X (前身為 Twitter) 上的公告,DeepGEMM 在 NVIDIA Hopper GPU 上的 FP8 運算效能高達 1350+ TFLOPS。更令人驚豔的是,其核心邏輯僅約 300 行程式碼,在簡單與高速間取得了巧妙平衡。

以下是 DeepGEMM 的亮點功能:

  • 無需繁複的相依套件 — 避免陷入龐大的函式庫地獄。
  • 即時編譯 (JIT) — 所有核心函數於執行時編譯,免除冗長的安裝過程。
  • 支援密集與 MoE 佈局 — 讓開發者靈活應對複雜的 AI 模型。
  • 乾淨且教學風格的設計 — 非常適合想深入研究 FP8 矩陣運算的開發者。

DeepGEMM 與專家調校函式庫的對決

在 AI 模型訓練中,效能至關重要,而 DeepGEMM 的表現毫不遜色。事實上,在多種矩陣尺寸下,它的效能不僅與 專家級調校函式庫 並駕齊驅,甚至有所超越。

密集模型的標準 GEMM (與 CUTLASS 3.6 相比的加速比)

M N K 運算效能 (TFLOPS) 加速比
64 2112 7168 206 2.7x
128 2112 7168 352 2.4x
4096 2112 7168 1058 1.1x

專家模型的群組 GEMM (遮罩佈局)

群組數 每群組 M N K 運算效能 (TFLOPS) 加速比
1 1024 4096 7168 1233 1.2x
2 512 7168 2048 916 1.2x
4 256 4096 7168 932 1.1x

儘管 DeepGEMM 的表現令人驚豔,團隊也坦言部分矩陣尺寸的效能仍有進步空間。他們誠摯邀請開發者提交 優化 Pull Requests (PR),共同提升這套工具。

開發者為何該關注?

DeepSeek 不僅在打造自己的工具,更在推動 開源合作。透過釋出 DeepGEMM,他們讓全球開發者有機會共同推動 AI 訓練與推理的技術發展。不僅侷限於 DeepSeek 的模型,這是一場全球性的技術生態合作。

此外,對於想深入研究 FP8 矩陣運算的人來說,DeepGEMM 的簡潔設計讓你可以毫無障礙地探索 Hopper tensor cores,而無需陷入過度工程化的程式碼泥沼。

如何開始使用 DeepGEMM?

想試試看 DeepGEMM 嗎?以下是基本需求:

需求條件:

  • NVIDIA Hopper 架構 GPU (支援 sm_90a)
  • Python 3.8 以上
  • CUDA 12.3 以上 (建議使用 12.8)
  • PyTorch 2.1 以上
  • CUTLASS 3.6 (可透過 Git 子模組下載)

詳細專案與安裝指南請見:DeepGEMM 在 GitHub

未來展望

DeepSeek 的開源週已經發布了 FlashMLA (快速語言模型架構) 與 DeepEP (專家平行通訊),如今又透過 DeepGEMM 穩固了其在 AI 基礎建設領域的地位。

但這僅僅是個開始。有了社群的參與與優化,DeepGEMM 不僅能提升 DeepSeek 的模型效能,更可能成為全球 AI 研究人員的強大工具。

準備好一起探索 FP8 GEMM 的無限可能了嗎?讓我們攜手構築 AI 的未來,一個矩陣運算接著一個。

Share on:
Previous: Google 推出免費 AI 代碼助手 Gemini Code Assist:每月 18 萬次代碼補全
Next: DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器