影片生成新紀元?Phantom 框架登場,角色不再「變臉」!

還在煩惱 AI 影片裡人物變來變去嗎?來認識 Phantom:一個整合了文字轉影片、圖像轉影片的統一框架,特別強化了主角一致性,讓你的影片創作更穩定、更逼真。


欸,你有沒有玩過 AI 生成影片?是不是常常覺得,哇,畫面很酷炫,但裡面那個人,怎麼好像每隔幾秒就長得不太一樣?這真的是個頭痛的問題,尤其當你想講一個連貫的故事,或是需要特定角色貫穿全場時,主角一直「變臉」真的讓人很出戲。

這就是為什麼今天要來聊聊一個叫做 Phantom 的專案。它不是要從零打造一個全新的模型,而是更聰明地想辦法解決這個「一致性」的難題。

Phantom 是什麼?一個「整合大師」框架

簡單來說,Phantom 是一個統一的影片生成框架。你可以把它想像成一個整合平台,它巧妙地把現有的文字轉影片(Text-to-Video)和圖像轉影片(Image-to-Video)技術架構融合在一起。

它的核心目標很明確:就是要解決單一主題,甚至是多個主題在影片生成過程中,如何保持參考對象(尤其是人物!)樣貌一致的問題。聽起來是不是很對味?

跨模態對齊:讓模型更懂「你」的意思

那 Phantom 是怎麼做到更好的效果,尤其是在「認人」這件事上?關鍵就在於它的「跨模態對齊」能力。

專案團隊重新設計了聯合文字-圖像注入模型。聽起來有點技術性?別擔心,白話來說,就是他們利用了包含文字描述、對應的圖像、以及相關影片這樣的三元組數據來訓練模型。

想像一下,模型不只看文字和圖片,還把影片也拉進來一起學習,這樣它就能更深刻地理解文字、圖像和連續的影片畫面之間的關聯。這對於生成既符合文字描述,又能保持參考圖像特徵(比如人物長相)的影片來說,至關重要。

主角一致性大突破:告別路人臉!

這就帶到了 Phantom 最讓人眼睛一亮的地方:主角一致性

這一直是 AI 影片生成的痛點。過去的模型可能生成了很棒的場景,但影片裡的人物卻像是隨機生成的路人,跟你一開始指定的參考圖像差了十萬八千里。

Phantom 特別針對這點進行了強化。它不僅要生成影片,更要確保影片中的人類主體能保持一致,並且增強了保留原始 ID(你可以理解為角色的身份特徵)的影片生成能力。

這意味著什麼?意味著你用一張特定人物的照片作為參考,生成的影片裡,這個人物的樣貌、特徵會更加穩定,不會隨便「走山」。這對於需要角色連貫性的應用場景,比如短劇、故事敘述、甚至個人化影片創作,都是一大福音啊!不再是「欸,這是我剛剛指定的那個演員嗎?」的尷尬場面。

🔥 熱騰騰的最新消息!

而且啊,Phantom 團隊最近動作頻頻,超活躍的!看看他們最近更新了什麼:

  • 2025 年 4 月 10 日: 他們更新了完整的 Phantom 論文,裡面有更詳細的模型架構和數據集處理流程說明。想深入了解技術細節的朋友可以去挖寶。
  • 2025 年 4 月 21 日: 👋 Phantom-Wan 來了!這是將 Phantom 框架應用到 Wan2.1 影片生成模型的成果。更棒的是,推斷代碼和模型檢查點(Checkpoint)都已經釋出!想動手玩的朋友可以準備了。
  • 2025 年 4 月 23 日: 😊 社群力量大!感謝 ComfyUI-WanVideoWrapper 的開發者,現在 ComfyUI 也支援 Phantom-Wan-1.3B 了。對於喜歡用 ComfyUI 這個強大視覺化 AI 工具流的朋友來說,這絕對是個好消息!大家可以更方便地去體驗 Phantom 的威力了。

想試試看?這裡請!

聽到這裡,是不是有點心動,想自己玩玩看?

Phantom 專案的主要資訊和資源都放在他們的 GitHub 上。你可以直接前往:

➡️ Phantom GitHub 儲存庫

在 GitHub 頁面上,你可以找到關於如何下載 Phantom-Wan 模型、設置環境,以及使用單一 GPU 或多 GPU 進行推斷(也就是生成影片)的詳細說明。

結語:影片生成的新可能

總之,Phantom 這個專案,對於所有在影片生成領域打滾,或是對 AI 創作有興趣的朋友來說,都值得密切關注。

它不僅提供了一個整合性的框架,更重要的是,它正試圖解決影片生成中那個讓人頭痛不已的「一致性」問題,特別是在人物主體的呈現上。隨著 Phantom-Wan 的釋出和 ComfyUI 的支援,我們可以期待未來有更多穩定、逼真、且角色連貫的 AI 生成影片出現。

這是不是讓你對未來的 AI 影片創作,又多了幾分想像空間呢?

Share on:
Previous: 告別付費牆?Step1X-Edit:挑戰 GPT-4o 的開源 AI 圖像編輯神器來了!
Next: OpenAI 震撼彈:輕量版 Deep Research 開放免費,研究利器全民共享!
DMflow.chat

DMflow.chat

廣告

全能 DMflow.chat:多平台整合、持久記憶與靈活客製欄位,無需額外開發即可連接資料庫與表單。更支援真人與 AI 的無縫切換,網頁互動加 API 輸出,一步到位!

告別算力焦慮!FramePack 如何讓影片生成像玩圖一樣簡單?
23 April 2025

告別算力焦慮!FramePack 如何讓影片生成像玩圖一樣簡單?

告別算力焦慮!FramePack 如何讓影片生成像玩圖一樣簡單? 覺得 AI 影片生成又酷又炫,但硬體門檻高、生成時間長? lllyasviel 推出的 FramePack 可能就是你的...

AI 當導演?SkyReels-V2 讓無限長度電影成真
23 April 2025

AI 當導演?SkyReels-V2 讓無限長度電影成真

AI 當導演?SkyReels-V2 讓無限長度電影成真! 厭倦了 AI 影片只有幾秒鐘?來看看 SkyworkAI 的 SkyReels-V2,這個模型能生成無限長度的電影級影片,還能...

Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演?
16 April 2025

Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演?

Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演? Google 最新的 AI 影片生成模型 Veo 2 終於在 AI Studio 開放免費試用了...

MuseTalk 深入解析:騰訊音樂打造的即時高傳真 AI 唇形同步神器
8 April 2025

MuseTalk 深入解析:騰訊音樂打造的即時高傳真 AI 唇形同步神器

MuseTalk 深入解析:騰訊音樂打造的即時高傳真 AI 唇形同步神器 探索由騰訊音樂 Lyra Lab 開發的 MuseTalk 技術。了解這款開源 AI 模型如何實現即時、高品質的...

挑戰 Sora?Luojian 科技開源 Open-Sora 2.0 視訊生成模型 — 更便宜、更快、更強!
13 March 2025

挑戰 Sora?Luojian 科技開源 Open-Sora 2.0 視訊生成模型 — 更便宜、更快、更強!

挑戰 Sora?Luojian 科技開源 Open-Sora 2.0 視訊生成模型 — 更便宜、更快、更強! 開頭 — Sora 太貴?Open-Sora 2.0 來了! 你知道嗎?OpenA...

BEN2:精準影像前景分割的 AI 解決方案
8 February 2025

BEN2:精準影像前景分割的 AI 解決方案

BEN2:精準影像前景分割的 AI 解決方案 在影像處理領域,如何快速且準確地去除背景,一直是業界關注的重點。傳統方法依賴綠幕技術或手動摳圖,耗時且成本高昂。如今,BEN2 (Backg...

OpenAI擴大o1模型使用限制,免費和付費用戶均受益
19 September 2024

OpenAI擴大o1模型使用限制,免費和付費用戶均受益

突破性進展:OpenAI擴大o1模型使用限制,免費和付費用戶均受益 OpenAI最新公告擴大o1模型使用限制,為AI愛好者和專業人士帶來更多機會。本文深入探討這一重大更新對不同用戶群體的影響,...

Anthropic開發了模型上下文協議(MCP):讓 AI 系統與數據無縫連接
26 November 2024

Anthropic開發了模型上下文協議(MCP):讓 AI 系統與數據無縫連接

Anthropic開發了模型上下文協議(MCP):讓 AI 系統與數據無縫連接 描述 Anthropic開發了模型上下文協議(Model Context Protocol, MCP)是一項新興...

VIDU 推出突破性 AI 視頻功能:讓您的創意更加連貫一致(什麼是VIDU)
12 September 2024

VIDU 推出突破性 AI 視頻功能:讓您的創意更加連貫一致(什麼是VIDU)

VIDU 推出突破性 AI 視頻功能:讓您的創意更加連貫一致 VIDU,由盛數科技開發的多模態文本轉視頻 AI 模型,近日推出了一項革命性的新功能——「主體一致性」。這一創新不僅解決了 ...