DeepSeek 開源週第三天:推出 DeepGEMM — AI 訓練與推理的新利器

什麼是 DeepGEMM?

DeepSeek 在其「開源週」第三天正式推出 DeepGEMM,這款開源函式庫支援 FP8 通用矩陣乘法 (GEMM),專為 密集型與專家混合模型 (MoE) 矩陣運算 而設計。這項工具強力支援 DeepSeek 的旗艦模型 — DeepSeek V3R1 的訓練與推理。

但 DeepGEMM 究竟有什麼獨特之處?我們來仔細看看。

極速效能與極簡設計的完美結合

根據 DeepSeek 官方在 X (前身為 Twitter) 上的公告,DeepGEMM 在 NVIDIA Hopper GPU 上的 FP8 運算效能高達 1350+ TFLOPS。更令人驚豔的是,其核心邏輯僅約 300 行程式碼,在簡單與高速間取得了巧妙平衡。

以下是 DeepGEMM 的亮點功能:

  • 無需繁複的相依套件 — 避免陷入龐大的函式庫地獄。
  • 即時編譯 (JIT) — 所有核心函數於執行時編譯,免除冗長的安裝過程。
  • 支援密集與 MoE 佈局 — 讓開發者靈活應對複雜的 AI 模型。
  • 乾淨且教學風格的設計 — 非常適合想深入研究 FP8 矩陣運算的開發者。

DeepGEMM 與專家調校函式庫的對決

在 AI 模型訓練中,效能至關重要,而 DeepGEMM 的表現毫不遜色。事實上,在多種矩陣尺寸下,它的效能不僅與 專家級調校函式庫 並駕齊驅,甚至有所超越。

密集模型的標準 GEMM (與 CUTLASS 3.6 相比的加速比)

M N K 運算效能 (TFLOPS) 加速比
64 2112 7168 206 2.7x
128 2112 7168 352 2.4x
4096 2112 7168 1058 1.1x

專家模型的群組 GEMM (遮罩佈局)

群組數 每群組 M N K 運算效能 (TFLOPS) 加速比
1 1024 4096 7168 1233 1.2x
2 512 7168 2048 916 1.2x
4 256 4096 7168 932 1.1x

儘管 DeepGEMM 的表現令人驚豔,團隊也坦言部分矩陣尺寸的效能仍有進步空間。他們誠摯邀請開發者提交 優化 Pull Requests (PR),共同提升這套工具。

開發者為何該關注?

DeepSeek 不僅在打造自己的工具,更在推動 開源合作。透過釋出 DeepGEMM,他們讓全球開發者有機會共同推動 AI 訓練與推理的技術發展。不僅侷限於 DeepSeek 的模型,這是一場全球性的技術生態合作。

此外,對於想深入研究 FP8 矩陣運算的人來說,DeepGEMM 的簡潔設計讓你可以毫無障礙地探索 Hopper tensor cores,而無需陷入過度工程化的程式碼泥沼。

如何開始使用 DeepGEMM?

想試試看 DeepGEMM 嗎?以下是基本需求:

需求條件:

  • NVIDIA Hopper 架構 GPU (支援 sm_90a)
  • Python 3.8 以上
  • CUDA 12.3 以上 (建議使用 12.8)
  • PyTorch 2.1 以上
  • CUTLASS 3.6 (可透過 Git 子模組下載)

詳細專案與安裝指南請見:DeepGEMM 在 GitHub

未來展望

DeepSeek 的開源週已經發布了 FlashMLA (快速語言模型架構) 與 DeepEP (專家平行通訊),如今又透過 DeepGEMM 穩固了其在 AI 基礎建設領域的地位。

但這僅僅是個開始。有了社群的參與與優化,DeepGEMM 不僅能提升 DeepSeek 的模型效能,更可能成為全球 AI 研究人員的強大工具。

準備好一起探索 FP8 GEMM 的無限可能了嗎?讓我們攜手構築 AI 的未來,一個矩陣運算接著一個。

Share on:
Previous: Google 推出免費 AI 代碼助手 Gemini Code Assist:每月 18 萬次代碼補全
Next: DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器
DMflow.chat

DMflow.chat

廣告

一站整合多平台聊天,智能溝通新體驗!支援 Facebook、Instagram、Telegram、LINE 和網站,內建 ChatGPT 與 Gemini 模型。提供歷史記錄保存、推播通知、行銷活動和客服轉接等強大功能,助您全方位提升效率與互動!

DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器
25 February 2025

DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器

DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器 嘿,各位,最近 DeepSeek 開源社群可熱鬧了!他們在 #OpenSourceWeek 的第二天,就丟出了一個超厲...

哇,3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則
24 February 2025

哇,3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則

3000GB/s?DeepSeek 的新工具正在改變大型語言模型的遊戲規則 DeepSeek 剛剛釋出了一個超級令人興奮的消息!今天是他們「開源週」的第一天,他們一開始就來個震撼彈 ——...

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位
23 January 2025

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位 中國 AI 實驗室 DeepSeek 推出全新開源推理模型 DeepSeek R1,不僅在多項基準測試中與 O...

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT?
3 January 2025

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT?

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT? 中國 AI 實驗室 DeepSeek 新發布的模型出現認知混亂,自稱 ChatGPT。本文將深入探討此現象...

OpenAI Deep Research 功能全面上線:ChatGPT 用戶的新利器,AI 助手競爭升溫
26 February 2025

OpenAI Deep Research 功能全面上線:ChatGPT 用戶的新利器,AI 助手競爭升溫

OpenAI Deep Research 功能全面上線:ChatGPT 用戶的新利器,AI 助手競爭升溫 深度研究功能登場:ChatGPT 用戶的全新研究助手 OpenAI 最近宣布,旗下的...

Google 推出免費 AI 代碼助手 Gemini Code Assist:每月 18 萬次代碼補全
26 February 2025

Google 推出免費 AI 代碼助手 Gemini Code Assist:每月 18 萬次代碼補全

Google 推出免費 AI 代碼助手 Gemini Code Assist:每月 18 萬次代碼補全 為開發者量身打造的 AI 助手 Google 正式發佈了兩款全新的 AI 代碼助手工具...

DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器
25 February 2025

DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器

DeepSeek 推出了 DeepEP,MoE 模型訓練的秘密武器 嘿,各位,最近 DeepSeek 開源社群可熱鬧了!他們在 #OpenSourceWeek 的第二天,就丟出了一個超厲...

GitHub Copilot AI 編程助手推出免費版本,開發者福音來臨!
19 December 2024

GitHub Copilot AI 編程助手推出免費版本,開發者福音來臨!

GitHub 重大突破:Copilot AI 編程助手推出免費版本,開發者福音來臨! 文章摘要 GitHub 宣布推出備受歡迎的 AI 編程助手 Copilot 免費版本,這項重大決策不僅讓更...

Notion 2024重大更新:五大革命性功能全面進化,工作效率提升300%
25 October 2024

Notion 2024重大更新:五大革命性功能全面進化,工作效率提升300%

Notion 2024重大更新:五大革命性功能全面進化,工作效率提升300% 想要提升工作效率卻被眾多工具困擾嗎?Notion在2024年推出史上最大規模的更新,整合五大革命性功能,讓您...