
DMflow.chat
廣告
一站整合多平台聊天,體驗真人與 AI 自由切換的新境界!支援 Facebook、Instagram、Telegram、LINE 及網站,結合歷史記錄、推播通知、行銷活動及客服轉接,全面提升效率與互動。
厭倦了生硬的 AI 語音嗎?來認識 Nari Labs 推出的 Dia 模型!這款 1.6B 參數的文字轉語音 (TTS) 模型能直接生成超逼真的對話,甚至包含笑聲和咳嗽聲,還能控制情緒語氣。快來看看這個開源新星!
欸,你有沒有覺得,現在的 AI 好像什麼都會,但一開口說話,就還是有點…嗯…假假的?特別是想要讓 AI 模擬一段自然的「對話」時,那種卡頓感、缺乏情緒起伏,總是讓人有點出戲。老實說,要讓機器說話像真人一樣有溫度、有互動感,還真不是件容易的事。
不過呢,最近有個來自 Nari Labs 的新玩意兒,叫做 dia
,似乎正試圖打破這個僵局。
dia
這個模型,全名可以說是 Nari Labs Dia 1.6B,擁有 16 億的參數(聽起來就很猛,對吧?)。但它最讓人眼睛一亮的地方,是它直接從文字腳本生成高度逼真的「對話」。
這跟傳統很多 TTS 模型不太一樣。以前很多模型可能是一個字一個字、或一句一句地唸出來,然後再拼湊起來。但 dia
的設計理念是「一次到位」,直接生成一段聽起來像是真人在互動的完整對話。
更厲害的是,你可以透過提供一段參考音訊,來「指導」dia
生成特定情緒或語氣的聲音。這就像給它一個「範本」,讓它知道你想要的是開心的、難過的,還是有點諷刺的感覺。想像一下,這對於製作有聲書、遊戲配音、甚至虛擬角色互動,會有多大的幫助!
而且,dia
不只會說話,它連非語言的溝通聲音都能模擬,像是自然的笑聲、清清喉嚨、甚至不小心咳嗽一聲。這些小細節,往往就是區分「機器感」和「真人感」的關鍵。是不是感覺更像真人在講話了?
Nari Labs 為了加速相關領域的研究,很大方地把 dia
的預訓練模型權重放到了 Hugging Face 上,連同推論程式碼也一併提供。這意味著,只要你有合適的環境,就能自己動手玩玩看。
dia
的效果。快點這裡試玩:Dia 1.6B ZeroGPU Demo。dia
跟市面上其他知名模型(像是 ElevenLabs 或 Sesame CSM-1B)比起來怎麼樣嗎?他們也準備了一個 Demo 比較頁面,讓你聽聽看差異。雖然 dia
目標是生成高品質音訊,但還是有些技術細節要注意:
generate
函數。dia
只支援英文的生成。希望未來能擴展到更多語言!科技始終來自於人性,但也可能被誤用。Nari Labs 在開源 dia
的同時,也特別強調了使用的界線。
dia
採用的是 Apache License 2.0 授權,算是相對寬鬆的開源授權。簡單來說,就是希望大家能善用這個工具進行有意義的探索和研究,而不是拿去做壞事。
Nari Labs 的 dia
無疑為文字轉語音領域帶來了令人興奮的可能性。它在生成自然對話、控制情緒語氣、以及模擬非語言聲音方面的能力,都顯示出 AI 語音技術的巨大進步。
雖然目前只支援英文,而且使用上需要注意倫理規範,但 dia
的開源無疑為研究人員、開發者和創作者們提供了一個強大的新工具。
對話的溫度,或許真的能被 AI 學習和複製?dia
給了我們一個窺見未來的窗口。有興趣的話,不妨親自去試試看它的 Demo,或者加入社群關注後續發展吧!
一站整合多平台聊天,體驗真人與 AI 自由切換的新境界!支援 Facebook、Instagram、Telegram、LINE 及網站,結合歷史記錄、推播通知、行銷活動及客服轉接,全面提升效率與互動。
IndexTTS 登場:告別生硬發音!打造可控又高效的工業級文字轉語音系統 厭倦了 AI 語音唸錯字或語氣平淡嗎?來認識 IndexTTS!這款基於 GPT 架構的最新文字轉語音 (TT...
MegaTTS 3 橫空出世:輕量、高擬真聲音克隆,還能中英夾雜?AI 語音的新里程碑! 還在尋找那個完美的 AI 語音生成工具嗎?來認識一下 MegaTTS 3!它不僅模型輕巧、效率驚...
開源 AI 音樂革命!YuE 模型正式發布,生成專業級人聲與伴奏 YuE:AI 音樂創作新時代的來臨 由 香港科技大學 與 DeepSeek 共同研發的 開源音樂生成模型 YuE 正式發布,...
OpenAI 推出全新語音 AI 模型:gpt-4o-transcribe 及其應用前景 描述 OpenAI 近期推出了三款全新自研語音 AI 模型,包括 gpt-4o-transcribe、...
Orpheus TTS:具備人類情感表達的次世代語音合成模型 一款顛覆傳統的開源 TTS 模型 3 月 19 日,開源文字轉語音(TTS)模型 Orpheus TTS 正式亮相,迅速在技術圈...
Spark-TTS:AI 驅動的語音複製與個性化新時代! 🌟 認識 Spark-TTS:讓 AI「說話」像你一樣自然 科技發展的速度讓人目不暇給,尤其是人工智慧領域。從語音助理到自動客服,A...
Meta Leffa:AI虛擬試衣新突破,逼真細節打造沉浸式購物體驗 文章摘要 Meta 最新發布開源 AI 虛擬試衣框架 Leffa,以突破性技術精準捕捉服裝紋理、光影及垂墜感等細節,大幅降...
TransPixar:Adobe 最新突破性透明影片生成技術 前言 在影片生成技術快速發展的今日,Adobe 推出了革命性的 TransPixar 技術,這項創新不僅能透過文字和圖像生...
Claude.ai 全新分析工具登場:AI 數據分析能力再進化 📊 重點摘要 Claude.ai 推出內建分析工具功能 支援 JavaScript 代碼執行與數據處理 所有 Cl...
By continuing to use this website, you agree to the use of cookies according to our privacy policy.