DeepSeek 推出全新多模態 AI 模型 Janus-Pro,效能超越 DALL-E 3

DeepSeek 這家近期爆紅的 AI 公司,發布了一系列全新的多模態 AI 模型,名為 Janus-Pro,並聲稱其效能超越 OpenAI 的 DALL-E 3。這些模型已於 AI 開發平台 Hugging Face 上開放下載,參數規模介於 10 億到 70 億之間。參數數量大致對應模型的解題能力,通常參數越多,模型效能越好。Janus-Pro 採用 MIT 授權,這表示它可以不受限制地用於商業用途。

DeepSeek Janus-Pro:新一代多模態模型的強力候選者

DeepSeek 將 Janus-Pro 描述為一個「新穎的自回歸框架」,它既能分析圖像,也能生成新圖像。根據該公司在 GenEval 和 DPG-Bench 這兩個 AI 評估基準上的測試結果,最大的 Janus-Pro 模型,即 Janus-Pro-7B,其效能不僅擊敗了 DALL-E 3,還超越了 PixArt-alpha、Emu3-Gen 和 Stability AI 的 Stable Diffusion XL 等模型。

儘管某些被比較的模型相對較舊,且大多數 Janus-Pro 模型只能分析解析度最高為 384 x 384 的小型圖像,但考慮到這些模型的精簡規模,Janus-Pro 的表現依然令人印象深刻。DeepSeek 在 Hugging Face 的一篇貼文中寫道:「Janus-Pro 超越了先前的統一模型,並能匹敵甚至超越特定任務模型的效能。Janus-Pro 的簡潔性、高度靈活性和有效性使其成為下一代統一多模態模型的強力候選者。」

以下將深入探討 Janus-Pro 的技術細節、優勢以及其對 AI 領域的影響。

Janus-Pro 的核心技術:解耦視覺編碼

Janus-Pro 的核心技術在於其「新穎的自回歸框架」,它巧妙地解耦了視覺編碼。傳統的多模態模型通常使用單一的視覺編碼器來同時負責理解和生成任務,這容易導致兩者之間的衝突,限制模型效能。而 Janus-Pro 則將視覺編碼分成兩個獨立的路徑,分別負責圖像理解圖像生成,同時仍然利用單一、統一的 Transformer 架構進行處理。

圖像理解路徑採用了 SigLIP-L 作為視覺編碼器,這是一個強大的視覺 Transformer 模型,能夠處理 384 x 384 解析度的圖像輸入。它專注於提取圖像中的語義資訊,並將其轉換成語言模型可以理解的格式。

圖像生成路徑則使用了來自 LlamaGen 的分詞器,並以 16 的下採樣率將圖像轉換成離散的 token 序列。這個路徑專注於根據語言模型的指令,逐步生成新的圖像。

這種解耦設計不僅減輕了視覺編碼器在理解和生成任務之間的衝突,還提高了框架的靈活性。例如,可以針對不同的任務分別優化兩個路徑的結構和參數,從而提升整體效能。

什麼是自回歸框架 (Autoregressive Framework)?

自回歸框架是一種模型架構,它基於先前的輸出預測下一個輸出。在自然語言處理中,自回歸模型會根據前面的單詞序列預測下一個單詞。在圖像生成中,自回歸模型會根據已經生成的像素預測下一個像素或圖像塊。Janus-Pro 利用自回歸框架,逐步生成圖像,每次生成一部分,直到完整圖像生成完畢。

Janus-Pro 的優勢:超越特定任務模型

Janus-Pro 的解耦視覺編碼和自回歸框架賦予了它多項優勢,使其超越了先前的統一多模態模型,甚至能與特定任務模型相媲美。

  1. 更高的準確性: 通過分離圖像理解和生成任務,Janus-Pro 能夠更精確地捕捉圖像的語義資訊,並生成更符合指令的圖像。這也解釋了其在 GenEval 和 DPG-Bench 基準測試中超越 DALL-E 3 的優異表現。

  2. 更強的靈活性: 解耦設計使得 Janus-Pro 可以針對不同的任務進行更靈活的調整和優化。例如,可以針對圖像標題生成任務微調理解路徑,或者針對圖像編輯任務微調生成路徑。

  3. 更高的效率: 儘管效能卓越,Janus-Pro 模型的參數規模相對較小,這意味著它需要的運算資源更少,部署成本更低。這對於推動多模態 AI 技術的普及具有重要意義。

為什麼 Janus-Pro 的小尺寸很重要?

在 AI 領域,模型的大小通常與其能力成正比。然而,Janus-Pro 的小尺寸卻成為了一個亮點。這表示它可以在較少的計算資源下運行,這對於以下幾個方面至關重要:

  • 降低成本: 更小的模型需要更少的運算能力,這意味著訓練和部署的成本更低。
  • 提高效率: 較小的模型運行速度更快,可以更快地生成結果。
  • 更廣泛的應用: 更小的模型更容易部署在各種設備上,包括行動裝置,這將推動 AI 技術的普及。

Janus-Pro 對 AI 領域的影響

Janus-Pro 的出現,不僅展示了 DeepSeek 在多模態 AI 領域的技術實力,也為 AI 的未來發展方向提供了新的思路。

  1. 推動多模態 AI 技術的發展: Janus-Pro 的解耦視覺編碼和自回歸框架為多模態模型的設計提供了新的範例,有望啟發更多創新的模型架構。

  2. 促進 AI 技術的普及: Janus-Pro 的高效性和低成本特性將降低 AI 技術的應用門檻,促進其在更多領域的應用。

  3. 加劇 AI 領域的競爭: DeepSeek 的崛起,特別是在其聊天機器人應用程式登上 Apple App Store 榜首之後,已經引起了華爾街分析師和技術專家的廣泛關注。他們開始質疑美國是否能在 AI 競賽中保持領先地位,以及對 AI 晶片的需求是否能持續。Janus-Pro 的發布,無疑將進一步加劇這場競爭。

Janus-Pro 的授權方式

Janus-Pro 採用了 MIT 授權,這是一種非常寬鬆的開源授權協議。這意味著任何人都可以自由地使用、修改和分發 Janus-Pro,包括用於商業用途,而無需支付任何費用或受到任何限制。這將極大地促進 Janus-Pro 的普及和應用,並加速多模態 AI 技術的發展。同時,Janus-Pro 的模型使用也受到 DeepSeek 模型授權的約束。

總結

DeepSeek 的 Janus-Pro 是一項令人矚目的技術突破,它展示了在多模態 AI 領域的巨大潛力。其新穎的架構、優異的效能、較小的模型大小和開放的授權方式,都使其成為下一代統一多模態模型的有力競爭者。隨著 DeepSeek 的持續發展,我們有理由相信,它將在未來的 AI 領域扮演越來越重要的角色。

常見問題解答 (FAQ)

以下是一些關於 Janus-Pro 的常見問題及解答,可以幫助您更好地理解這項技術:

Q: Janus-Pro 可以用於哪些應用?

A: Janus-Pro 可以應用於各種需要理解和生成圖像的任務,例如:

  • 圖像標題生成: 根據圖像內容生成描述性的文字。
  • 圖像編輯: 根據文字指令修改圖像內容,例如更改物體的顏色或添加新的元素。
  • 視覺問答: 回答關於圖像內容的問題。
  • 故事創作: 根據文字提示生成一系列相關的圖像,構成一個故事。

Q: 如何開始使用 Janus-Pro?

A: 您可以參考 DeepSeek 的 Github 倉庫 了解如何下載和使用 Janus-Pro 模型。

Q: Janus-Pro 是否支援中文?

A: 是的,DeepSeek 是一家中國的 AI 實驗室,其模型應該對中文有良好的支援。

Share on:
Next: 川普「星際之門」AI基建計畫:軟銀、OpenAI 豪擲5000億美元,能否改寫全球科技版圖?
DMflow.chat

DMflow.chat

廣告

DMflow.chat:智能客服新世代!支援持久記憶、客製欄位,無需額外串聯即可輕鬆連接資料庫表單,整合多平台溝通,助您高效提升服務與行銷效率!

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位
23 January 2025

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位

DeepSeek R1:開源 AI 模型革命,挑戰 OpenAI 霸主地位 中國 AI 實驗室 DeepSeek 推出全新開源推理模型 DeepSeek R1,不僅在多項基準測試中與 O...

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT?
3 January 2025

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT?

DeepSeek V3 引發爭議:中國 AI 模型為何自稱是 ChatGPT? 中國 AI 實驗室 DeepSeek 新發布的模型出現認知混亂,自稱 ChatGPT。本文將深入探討此現象...

川普「星際之門」AI基建計畫:軟銀、OpenAI 豪擲5000億美元,能否改寫全球科技版圖?
24 January 2025

川普「星際之門」AI基建計畫:軟銀、OpenAI 豪擲5000億美元,能否改寫全球科技版圖?

星際之門 AI 專案:軟銀助力,打造 OpenAI 專屬的未來人工智慧引擎 美國總統川普於2025年1月21日宣布啟動史上最大規模AI基礎設施計畫「星際之門」(Stargate),初期投...

OpenAI推出Operator:AI代理自動化網頁任務
24 January 2025

OpenAI推出Operator:AI代理自動化網頁任務

OpenAI推出Operator:AI代理自動化網頁任務 OpenAI 最新推出名為「Operator」的 AI 代理,它能夠像人類一樣使用瀏覽器完成各種網頁任務,從訂購雜貨到預訂行程,...

OpenAI ChatGPT 免費版大升級:全新 o3-mini 模型登場,付費用戶獨享更多優勢!
24 January 2025

OpenAI ChatGPT 免費版大升級:全新 o3-mini 模型登場,付費用戶獨享更多優勢!

OpenAI ChatGPT 免費版大升級:全新 o3-mini 模型登場,付費用戶獨享更多優勢! OpenAI 宣布 ChatGPT 免費版將升級至全新 o3-mini 模型,提供更快...

Anthropic 最新 Citations API:讓 Claude 回應更可靠、更透明
24 January 2025

Anthropic 最新 Citations API:讓 Claude 回應更可靠、更透明

Anthropic 最新 Citations API:讓 Claude 回應更可靠、更透明 探索 Anthropic 最新推出的 Citations API,這項功能讓 Claude A...

Cursor AI:程式設計師的智能助手 - 讓編碼更高效、更智慧(什麼是Cursor AI)
6 September 2024

Cursor AI:程式設計師的智能助手 - 讓編碼更高效、更智慧(什麼是Cursor AI)

Cursor AI:程式設計師的智能助手 - 讓編碼更高效、更智慧 探索 Cursor AI 如何革新程式開發流程,從 AI 輔助編碼到團隊協作,本文全面解析這款智能編輯器的強大功能及其對開發...

Runway Gen-3 Alpha:讓靜態圖像瞬間變成生動影片,AI視頻創作新突破
31 July 2024

Runway Gen-3 Alpha:讓靜態圖像瞬間變成生動影片,AI視頻創作新突破

Runway Gen-3 Alpha:讓靜態圖像瞬間變成生動影片,AI視頻創作新突破 Runway推出的Gen-3 Alpha模型現可將靜態圖像轉化為高品質視頻,為AI視頻生成領域帶來革命性突...

Chatbase 2024全面評測:打造AI客服的最佳選擇(什麼是Chatbase)
9 August 2024

Chatbase 2024全面評測:打造AI客服的最佳選擇(什麼是Chatbase)

Chatbase 2024全面評測:打造AI客服的最佳選擇? Chatbase是一款新興的AI聊天機器人工具,專為企業打造智能客服解決方案。本文將深入探討Chatbase的功能、優缺點、定價以...