DeepSeek 推出全新多模態 AI 模型 Janus-Pro，效能超越 DALL-E 3

DeepSeek 這家近期爆紅的 AI 公司，發布了一系列全新的多模態 AI 模型，名為 Janus-Pro，並聲稱其效能超越 OpenAI 的 DALL-E 3。這些模型已於 AI 開發平台 Hugging Face 上開放下載，參數規模介於 10 億到 70 億之間。參數數量大致對應模型的解題能力，通常參數越多，模型效能越好。Janus-Pro 採用 MIT 授權，這表示它可以不受限制地用於商業用途。

DeepSeek Janus-Pro：新一代多模態模型的強力候選者

DeepSeek 將 Janus-Pro 描述為一個「新穎的自回歸框架」，它既能分析圖像，也能生成新圖像。根據該公司在 GenEval 和 DPG-Bench 這兩個 AI 評估基準上的測試結果，最大的 Janus-Pro 模型，即 Janus-Pro-7B，其效能不僅擊敗了 DALL-E 3，還超越了 PixArt-alpha、Emu3-Gen 和 Stability AI 的 Stable Diffusion XL 等模型。

儘管某些被比較的模型相對較舊，且大多數 Janus-Pro 模型只能分析解析度最高為 384 x 384 的小型圖像，但考慮到這些模型的精簡規模，Janus-Pro 的表現依然令人印象深刻。DeepSeek 在 Hugging Face 的一篇貼文中寫道：「Janus-Pro 超越了先前的統一模型，並能匹敵甚至超越特定任務模型的效能。Janus-Pro 的簡潔性、高度靈活性和有效性使其成為下一代統一多模態模型的強力候選者。」

以下將深入探討 Janus-Pro 的技術細節、優勢以及其對 AI 領域的影響。

Janus-Pro 的核心技術：解耦視覺編碼

Janus-Pro 的核心技術在於其「新穎的自回歸框架」，它巧妙地解耦了視覺編碼。傳統的多模態模型通常使用單一的視覺編碼器來同時負責理解和生成任務，這容易導致兩者之間的衝突，限制模型效能。而 Janus-Pro 則將視覺編碼分成兩個獨立的路徑，分別負責圖像理解和圖像生成，同時仍然利用單一、統一的 Transformer 架構進行處理。

圖像理解路徑採用了 SigLIP-L 作為視覺編碼器，這是一個強大的視覺 Transformer 模型，能夠處理 384 x 384 解析度的圖像輸入。它專注於提取圖像中的語義資訊，並將其轉換成語言模型可以理解的格式。

圖像生成路徑則使用了來自 LlamaGen 的分詞器，並以 16 的下採樣率將圖像轉換成離散的 token 序列。這個路徑專注於根據語言模型的指令，逐步生成新的圖像。

這種解耦設計不僅減輕了視覺編碼器在理解和生成任務之間的衝突，還提高了框架的靈活性。例如，可以針對不同的任務分別優化兩個路徑的結構和參數，從而提升整體效能。

什麼是自回歸框架 (Autoregressive Framework)?

自回歸框架是一種模型架構，它基於先前的輸出預測下一個輸出。在自然語言處理中，自回歸模型會根據前面的單詞序列預測下一個單詞。在圖像生成中，自回歸模型會根據已經生成的像素預測下一個像素或圖像塊。Janus-Pro 利用自回歸框架，逐步生成圖像，每次生成一部分，直到完整圖像生成完畢。

Janus-Pro 的優勢：超越特定任務模型

Janus-Pro 的解耦視覺編碼和自回歸框架賦予了它多項優勢，使其超越了先前的統一多模態模型，甚至能與特定任務模型相媲美。

更高的準確性： 通過分離圖像理解和生成任務，Janus-Pro 能夠更精確地捕捉圖像的語義資訊，並生成更符合指令的圖像。這也解釋了其在 GenEval 和 DPG-Bench 基準測試中超越 DALL-E 3 的優異表現。
更強的靈活性： 解耦設計使得 Janus-Pro 可以針對不同的任務進行更靈活的調整和優化。例如，可以針對圖像標題生成任務微調理解路徑，或者針對圖像編輯任務微調生成路徑。
更高的效率： 儘管效能卓越，Janus-Pro 模型的參數規模相對較小，這意味著它需要的運算資源更少，部署成本更低。這對於推動多模態 AI 技術的普及具有重要意義。

為什麼 Janus-Pro 的小尺寸很重要？

在 AI 領域，模型的大小通常與其能力成正比。然而，Janus-Pro 的小尺寸卻成為了一個亮點。這表示它可以在較少的計算資源下運行，這對於以下幾個方面至關重要：

降低成本： 更小的模型需要更少的運算能力，這意味著訓練和部署的成本更低。
提高效率： 較小的模型運行速度更快，可以更快地生成結果。
更廣泛的應用： 更小的模型更容易部署在各種設備上，包括行動裝置，這將推動 AI 技術的普及。

Janus-Pro 對 AI 領域的影響

Janus-Pro 的出現，不僅展示了 DeepSeek 在多模態 AI 領域的技術實力，也為 AI 的未來發展方向提供了新的思路。

推動多模態 AI 技術的發展： Janus-Pro 的解耦視覺編碼和自回歸框架為多模態模型的設計提供了新的範例，有望啟發更多創新的模型架構。
促進 AI 技術的普及： Janus-Pro 的高效性和低成本特性將降低 AI 技術的應用門檻，促進其在更多領域的應用。
加劇 AI 領域的競爭： DeepSeek 的崛起，特別是在其聊天機器人應用程式登上 Apple App Store 榜首之後，已經引起了華爾街分析師和技術專家的廣泛關注。他們開始質疑美國是否能在 AI 競賽中保持領先地位，以及對 AI 晶片的需求是否能持續。Janus-Pro 的發布，無疑將進一步加劇這場競爭。

Janus-Pro 的授權方式

Janus-Pro 採用了 MIT 授權，這是一種非常寬鬆的開源授權協議。這意味著任何人都可以自由地使用、修改和分發 Janus-Pro，包括用於商業用途，而無需支付任何費用或受到任何限制。這將極大地促進 Janus-Pro 的普及和應用，並加速多模態 AI 技術的發展。同時，Janus-Pro 的模型使用也受到 DeepSeek 模型授權的約束。

總結

DeepSeek 的 Janus-Pro 是一項令人矚目的技術突破，它展示了在多模態 AI 領域的巨大潛力。其新穎的架構、優異的效能、較小的模型大小和開放的授權方式，都使其成為下一代統一多模態模型的有力競爭者。隨著 DeepSeek 的持續發展，我們有理由相信，它將在未來的 AI 領域扮演越來越重要的角色。

常見問題解答 (FAQ)

以下是一些關於 Janus-Pro 的常見問題及解答，可以幫助您更好地理解這項技術：

Q: Janus-Pro 可以用於哪些應用？

A: Janus-Pro 可以應用於各種需要理解和生成圖像的任務，例如：

圖像標題生成： 根據圖像內容生成描述性的文字。
圖像編輯： 根據文字指令修改圖像內容，例如更改物體的顏色或添加新的元素。
視覺問答： 回答關於圖像內容的問題。
故事創作： 根據文字提示生成一系列相關的圖像，構成一個故事。

Q: 如何開始使用 Janus-Pro？

A: 您可以參考 DeepSeek 的 Github 倉庫了解如何下載和使用 Janus-Pro 模型。

Q: Janus-Pro 是否支援中文？

A: 是的，DeepSeek 是一家中國的 AI 實驗室，其模型應該對中文有良好的支援。

DeepSeek 推出全新多模態 AI 模型 Janus-Pro，效能超越 DALL-E 3

DeepSeek Janus-Pro：新一代多模態模型的強力候選者

Janus-Pro 的核心技術：解耦視覺編碼

什麼是自回歸框架 (Autoregressive Framework)?

Janus-Pro 的優勢：超越特定任務模型

為什麼 Janus-Pro 的小尺寸很重要？

Janus-Pro 對 AI 領域的影響

Janus-Pro 的授權方式

總結

常見問題解答 (FAQ)

相關連結

DMflow.chat

廣告

復旦大學聯手階躍星辰！OmniSVG 橫空出世，AI 向量圖生成要變天了？

Midjourney V7 來了！不只畫質升級，這次 AI 繪圖要讀懂你的心

吉卜力風格免費玩！EasyControl_Ghibli 模型橫空出世，照片秒變動畫感

OpenAI 推出 GPT-4o 圖像生成功能，支援多輪對話編輯

StarVector：從圖像與文本生成 SVG 代碼的多模態模型

Google AI Studio 影像生成功能升級：更低誤判率、更強大易用性

NVIDIA RTX 50 系列顯示卡發布：AI 算力翻倍，開創遊戲與創作新紀元

AI 影片配音革命：MMAudio 讓無聲視頻重獲新生｜專業影音製作新選擇

NotebookLM：Google最新AI筆記工具，讓你的研究效率倍增！

Communeify

Hello, we want to use some third-party cookies and scripts to enhance the functionality of this website.

DeepSeek 推出全新多模態 AI 模型 Janus-Pro，效能超越 DALL-E 3

DeepSeek Janus-Pro：新一代多模態模型的強力候選者

Janus-Pro 的核心技術：解耦視覺編碼

什麼是自回歸框架 (Autoregressive Framework)?

Janus-Pro 的優勢：超越特定任務模型

為什麼 Janus-Pro 的小尺寸很重要？

Janus-Pro 對 AI 領域的影響

Janus-Pro 的授權方式

總結

常見問題解答 (FAQ)

相關連結

DMflow.chat

廣告

Communeify

Links