建立時間: 2025-02-26 | 最後修改時間: 2025-02-26 | 6 分鐘閱讀

DeepSeek 開源週第三天：推出 DeepGEMM — AI 訓練與推理的新利器

什麼是 DeepGEMM？

DeepSeek 在其「開源週」第三天正式推出 DeepGEMM，這款開源函式庫支援 FP8 通用矩陣乘法 (GEMM)，專為 密集型與專家混合模型 (MoE) 矩陣運算 而設計。這項工具強力支援 DeepSeek 的旗艦模型 — DeepSeek V3 和 R1 的訓練與推理。

但 DeepGEMM 究竟有什麼獨特之處？我們來仔細看看。

極速效能與極簡設計的完美結合

根據 DeepSeek 官方在 X (前身為 Twitter) 上的公告，DeepGEMM 在 NVIDIA Hopper GPU 上的 FP8 運算效能高達 1350+ TFLOPS。更令人驚豔的是，其核心邏輯僅約 300 行程式碼，在簡單與高速間取得了巧妙平衡。

以下是 DeepGEMM 的亮點功能：

無需繁複的相依套件 — 避免陷入龐大的函式庫地獄。
即時編譯 (JIT) — 所有核心函數於執行時編譯，免除冗長的安裝過程。
支援密集與 MoE 佈局 — 讓開發者靈活應對複雜的 AI 模型。
乾淨且教學風格的設計 — 非常適合想深入研究 FP8 矩陣運算的開發者。

DeepGEMM 與專家調校函式庫的對決

在 AI 模型訓練中，效能至關重要，而 DeepGEMM 的表現毫不遜色。事實上，在多種矩陣尺寸下，它的效能不僅與 專家級調校函式庫 並駕齊驅，甚至有所超越。

密集模型的標準 GEMM (與 CUTLASS 3.6 相比的加速比)

M	N	K	運算效能 (TFLOPS)	加速比
64	2112	7168	206	2.7x
128	2112	7168	352	2.4x
4096	2112	7168	1058	1.1x

專家模型的群組 GEMM (遮罩佈局)

群組數	每群組 M	N	K	運算效能 (TFLOPS)	加速比
1	1024	4096	7168	1233	1.2x
2	512	7168	2048	916	1.2x
4	256	4096	7168	932	1.1x

儘管 DeepGEMM 的表現令人驚豔，團隊也坦言部分矩陣尺寸的效能仍有進步空間。他們誠摯邀請開發者提交 優化 Pull Requests (PR)，共同提升這套工具。

開發者為何該關注？

DeepSeek 不僅在打造自己的工具，更在推動 開源合作。透過釋出 DeepGEMM，他們讓全球開發者有機會共同推動 AI 訓練與推理的技術發展。不僅侷限於 DeepSeek 的模型，這是一場全球性的技術生態合作。

此外，對於想深入研究 FP8 矩陣運算的人來說，DeepGEMM 的簡潔設計讓你可以毫無障礙地探索 Hopper tensor cores，而無需陷入過度工程化的程式碼泥沼。

如何開始使用 DeepGEMM？

想試試看 DeepGEMM 嗎？以下是基本需求：

需求條件：

NVIDIA Hopper 架構 GPU (支援 sm_90a)
Python 3.8 以上
CUDA 12.3 以上 (建議使用 12.8)
PyTorch 2.1 以上
CUTLASS 3.6 (可透過 Git 子模組下載)

詳細專案與安裝指南請見：DeepGEMM 在 GitHub

未來展望

DeepSeek 的開源週已經發布了 FlashMLA (快速語言模型架構) 與 DeepEP (專家平行通訊)，如今又透過 DeepGEMM 穩固了其在 AI 基礎建設領域的地位。

但這僅僅是個開始。有了社群的參與與優化，DeepGEMM 不僅能提升 DeepSeek 的模型效能，更可能成為全球 AI 研究人員的強大工具。

準備好一起探索 FP8 GEMM 的無限可能了嗎？讓我們攜手構築 AI 的未來，一個矩陣運算接著一個。

Share on:

DMflow.chat

DeepSeek-V3-0324 震撼發布：免費商業使用，支援消費級設備

DeepSeek-V3-0324 震撼發布：免費商業使用，支援消費級設備！簡介 DeepSeek 再次以低調但震撼業界的方式推出了最新的大型語言模型——DeepSeek-V3-0324。這款...

25 February 2025

DeepSeek 推出了 DeepEP，MoE 模型訓練的秘密武器

DeepSeek 推出了 DeepEP，MoE 模型訓練的秘密武器嘿，各位，最近 DeepSeek 開源社群可熱鬧了！他們在 #OpenSourceWeek 的第二天，就丟出了一個超厲...

3000GB/s？DeepSeek 的新工具正在改變大型語言模型的遊戲規則

24 February 2025

29 April 2025

27 January 2025

DeepSeek 推出全新多模態 AI 模型 Janus-Pro，效能超越 DALL-E 3

DeepSeek 推出全新多模態 AI 模型 Janus-Pro，效能超越 DALL-E 3 DeepSeek 這家近期爆紅的 AI 公司，發布了一系列全新的多模態 AI 模型，名為 J...

DeepSeek 開源週第三天：推出 DeepGEMM — AI 訓練與推理的新利器

什麼是 DeepGEMM？

極速效能與極簡設計的完美結合

DeepGEMM 與專家調校函式庫的對決

密集模型的標準 GEMM (與 CUTLASS 3.6 相比的加速比)

專家模型的群組 GEMM (遮罩佈局)

開發者為何該關注？

如何開始使用 DeepGEMM？

未來展望

DMflow.chat

廣告

DeepSeek-V3-0324 震撼發布：免費商業使用，支援消費級設備

DeepSeek 推出了 DeepEP，MoE 模型訓練的秘密武器

3000GB/s？DeepSeek 的新工具正在改變大型語言模型的遊戲規則

DeepSeek R1：開源 AI 模型革命，挑戰 OpenAI 霸主地位

DeepSeek V3 引發爭議：中國 AI 模型為何自稱是 ChatGPT？

DeepSeek R1T Chimera 登陸 OpenRouter！AI 界新寵兒，智慧與效率的完美融合？

秘密武器登場？OpenRouter 無預警釋出百萬級長上下文模型 Quasar Alpha

2024年免費商用授權AI大模型：基礎大模型全面分析

DeepSeek 推出全新多模態 AI 模型 Janus-Pro，效能超越 DALL-E 3

Communeify

Hello, we want to use some third-party cookies and scripts to enhance the functionality of this website.

DeepSeek 開源週第三天：推出 DeepGEMM — AI 訓練與推理的新利器

什麼是 DeepGEMM？

極速效能與極簡設計的完美結合

DeepGEMM 與專家調校函式庫的對決

密集模型的標準 GEMM (與 CUTLASS 3.6 相比的加速比)

專家模型的群組 GEMM (遮罩佈局)

開發者為何該關注？

如何開始使用 DeepGEMM？

未來展望

DMflow.chat

廣告

Communeify

Links