偷聽海豚說話?Google AI 神器 DolphinGemma 揭開海洋世界的溝通秘密

幾十年來,科學家們一直試圖解開海豚那複雜的「喀答聲」、「哨聲」和「脈衝聲」之謎。現在,Google AI 聯手長期研究計畫,透過 DolphinGemma 模型,讓我們離聽懂海豚的語言,甚至與牠們互動,又更近了一步。


你是否曾經望著大海,想像過那些聰明又活潑的海豚,牠們之間到底在聊些什麼?牠們發出的喀答聲、尖銳的哨聲,還有那些短促的脈衝聲,聽起來就像一門複雜的外星語言。幾十年來,科學家們就像是海洋裡的解碼員,努力想弄懂這一切。

但如果,我們不只是「聽到」海豚的聲音,而是能真正「理解」牠們溝通模式的奧妙呢?甚至,還能模擬出逼真的海豚聲音來回應牠們?這聽起來是不是有點科幻?

就在今年的國家海豚日,Google 帶來了好消息!他們與喬治亞理工學院的頂尖研究人員,以及長期致力於田野研究的「野生海豚計畫」(Wild Dolphin Project, WDP),共同宣布了 DolphinGemma 的進展。這是一個基礎 AI 模型,它的任務就是學習海豚發聲的結構,甚至能生成全新的、聽起來就像海豚會發出的聲音序列。這項跨物種溝通的探索,不只挑戰了 AI 的極限,也為我們與這片藍色星球的連結,開啟了全新的想像空間。

幾十年的功夫,只為聽懂牠們的心聲:野生海豚計畫 (WDP)

想真正了解任何物種,都需要深入的背景知識,而這正是 WDP 的強項。自 1985 年以來,WDP 進行了全球歷時最久的水下海豚研究計畫,地點就在巴哈馬群島。他們鎖定一群特定的野生大西洋斑點海豚 ( Stenella frontalis ),跨越了好幾個世代進行研究。

最特別的是,他們採取非侵入性的方式,堅持「在牠們的世界,以牠們的方式」進行觀察。這種尊重生命的態度,累積了獨一無二的寶貴資料庫:數十年的水下影像和聲音紀錄,而且每一筆都 meticulously(非常仔細地)標註了是哪隻海豚、牠們的生命史,以及當時觀察到的行為。

海豚在水中悠游 一群大西洋斑點海豚 (Stenella frontalis)

WDP 的核心目標,就是觀察並分析海豚自然的溝通方式和社會互動。在水下工作的好處是,研究人員可以直接把聽到的聲音和看到的行為連結起來,這是光從水面上觀察做不到的。數十年來,他們已經把不同聲音類型和特定情境聯繫起來,例如:

  • 標誌性哨聲 (Signature whistles): 這就像海豚的「名字」,海豚媽媽和寶寶可以用這種獨特的聲音來找到彼此。
  • 脈衝爆發的「嘎嘎聲」(Burst-pulse “squawks”): 通常在打鬥或爭執時出現。
  • 喀答聲組成的「嗡嗡聲」(Click “buzzes”): 在求偶或驅趕鯊魚時比較常用到。

知道是「哪一隻」海豚發出的聲音非常關鍵,這樣才能做出準確的詮釋。這項觀察工作的終極目標,是理解這些自然聲音序列中的結構和潛在意義——尋找可能暗示著「語言」的模式和規則。這種對自然溝通的長期分析,構成了 WDP 研究的基石,也為任何 AI 分析提供了不可或缺的背景脈絡。

DolphinGemma 登場:AI 加入海豚研究行列

分析海豚自然且複雜的溝通,是一項艱鉅的任務。WDP 龐大且標記完整的資料庫,正好為尖端的 AI 技術提供了一個絕佳的機會。

這時候,DolphinGemma 就派上用場了。由 Google 開發的這個 AI 模型,利用了 Google 特有的音訊技術:SoundStream tokenizer 能有效地將海豚聲音轉換成數據,再交由一個適合處理複雜序列的模型架構進行分析。這個擁有約 4 億參數的模型,大小經過最佳化,可以直接在 WDP 於野外使用的 Pixel 手機上運行。

這個模型的開發,借鑒了 Gemma 的洞見。Gemma 是 Google 推出的輕量級、頂尖的開放模型系列,與驅動 Gemini 模型的底層研究和技術系出同源。DolphinGemma 經過 WDP 野生大西洋斑點海豚聲音資料庫的大量訓練,運作模式是「聲音輸入、聲音輸出」。它處理自然的海豚聲音序列,找出模式、結構,最終預測序列中接下來可能出現的聲音。這其實跟處理人類語言的大型語言模型預測句子中下一個字詞或符號的方式,有異曲同工之妙。

WDP 正準備在這個研究季度開始部署 DolphinGemma,而且馬上就能看到好處。透過辨識重複出現的聲音模式、集群和可靠的序列,這個模型能幫助研究人員揭開海豚自然溝通中隱藏的結構和潛在意義——這在以前需要投入大量人力才能完成。未來,這些被 AI 識別出來的模式,再加上研究人員創造出來、用來指稱海豚喜歡玩的物品(像是海藻或研究人員用的圍巾)的合成聲音,或許能與海豚建立起一套共享的詞彙,進行互動式溝通。

不只聽懂,還想對話?CHAT 系統與 Pixel 手機的嘗試

除了分析自然的溝通,WDP 也同時進行另一條截然不同的路徑:利用科技在海洋中探索潛在的雙向互動。這項努力促成了與喬治亞理工學院合作開發的 CHAT(鯨豚聽覺增強遙測)系統

CHAT 是一個水下電腦系統,它的目標並非直接破解海豚複雜的自然語言,而是試圖建立一套更簡單的、共享的詞彙

這個概念首先仰賴將新穎的、合成的哨聲(由 CHAT 製造,與自然海豚聲音不同)與海豚喜歡的特定物品聯繫起來,例如馬尾藻、海草,或是研究人員使用的圍巾。透過在人類之間示範這個系統,研究人員希望天性好奇的海豚能學會模仿這些哨聲來「索取」這些物品。當然,隨著我們對海豚自然聲音的理解加深,這些自然聲音最終也可以被加入到這個系統中。

為了實現雙向互動,CHAT 系統首先需要能夠:

  1. 在嘈雜的海洋環境中,準確聽到海豚的模仿聲。
  2. 即時辨識出海豚模仿的是哪一種哨聲。
  3. 透過能在水下運作的骨傳導耳機,告知研究人員海豚「想要」哪個物品。
  4. 讓研究人員能夠迅速回應,提供正確的物品,藉此強化這種連結。

過去,一台 Google Pixel 6 手機就能即時處理海豚聲音的高保真度分析。而即將到來的下一代系統(預計 2025 年夏季研究),將圍繞著 Google Pixel 9 打造,整合了揚聲器/麥克風功能,並利用手機更強大的處理能力,同時運行深度學習模型和模板匹配算法。

使用 Pixel 智慧型手機大大減少了對客製化硬體的需求,提高了系統的可維護性,降低了功耗,並縮小了裝置的成本和尺寸——這些對於在開放海域進行田野研究來說,都是至關重要的優勢。同時,DolphinGemma 的預測能力可以幫助 CHAT 更早地預測和識別潛在的模仿聲音,提升研究人員對海豚反應的速度,讓互動更加流暢和有效。

好東西要分享:DolphinGemma 開源計畫

我們深知合作在科學探索中的價值,因此計劃在今年夏天將 DolphinGemma 作為開放模型分享出來。雖然它主要是用大西洋斑點海豚的聲音進行訓練,但我們預期它對於研究其他鯨豚物種(例如瓶鼻海豚或飛旋海豚)的研究人員也可能很有用。當然,針對不同物種的發聲方式可能需要進行一些微調,而模型的開放性正有助於這種調整。

透過提供像 DolphinGemma 這樣的工具,我們希望能讓全球的研究人員有能力挖掘他們自己的聲音資料庫,加速尋找模式的過程,共同加深我們對這些聰明海洋哺乳動物的理解。

結語:邁向跨物種理解的一小步

理解海豚溝通的旅程還很漫長,但 WDP 數十年的專注田野研究、喬治亞理工學院的工程專業,以及 Google 的技術力量相結合,正開啟令人興奮的新可能性。我們不再只是被動地聆聽,而是開始理解聲音背後的模式。這一步,或許正為未來鋪路——一個人類與海豚溝通隔閡可能縮小一點點的未來。

你若想了解更多可以前往Wild Dolphin Project

此文來源於Google 部落格

題外話

當我看這則文章的時候,突然想到04-01的Text to Bark,忍不住在分享給各位。

Share on:
Previous: Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演?
Next: OpenAI GPT-4.1 API 震撼登場:更快、更強、更懂你的指令!
DMflow.chat

DMflow.chat

廣告

DMflow.chat:智慧客服新時代,輕鬆切換真人與 AI!持久記憶、客製欄位、即接資料庫表單,多平台溝通,讓服務與行銷更上一層樓。

限時七天!Windsurf AI 震撼推出免費無限 GPT-4.1 試用,立即體驗頂尖 AI!
16 April 2025

限時七天!Windsurf AI 震撼推出免費無限 GPT-4.1 試用,立即體驗頂尖 AI!

限時七天!Windsurf AI 震撼推出免費無限 GPT-4.1 試用,立即體驗頂尖 AI!(2025-0414-0421) AI 界的朋友們注意!Windsurf AI 宣布提供為期...

WordPress 放大絕!一句話打造專屬網站?AI 助手讓你跟架站煩惱說掰掰!
11 April 2025

WordPress 放大絕!一句話打造專屬網站?AI 助手讓你跟架站煩惱說掰掰!

WordPress 放大絕!一句話打造專屬網站?AI 助手讓你跟架站煩惱說掰掰! 厭倦了複雜的網站架設流程?WordPress 推出革命性 AI 網站建置工具,只要一句話描述你的想法,A...

AI 智慧體大串連!Google 推出開源 A2A 協定,打造無縫協作新時代
10 April 2025

AI 智慧體大串連!Google 推出開源 A2A 協定,打造無縫協作新時代

AI 智慧體大串連!Google 推出開源 A2A 協定,打造無縫協作新時代 厭倦了各自為政的 AI 工具嗎?Google 攜手 50 多家科技巨頭推出 Agent2Agent (A2A...

Llama 4 偷跑學習?Meta 高層駁斥作弊指控,揭開 AI 模型訓練的灰色地帶
8 April 2025

Llama 4 偷跑學習?Meta 高層駁斥作弊指控,揭開 AI 模型訓練的灰色地帶

Llama 4 偷跑學習?Meta 高層駁斥作弊指控,揭開 AI 模型訓練的灰色地帶 Meta 最新 AI 模型 Llama 4 一推出就引發軒然大波!被指控在訓練過程中「作弊」以美化評...

Meta 震撼彈!開源 Llama 4 多模態 AI 登場,效能驚人挑戰 GPT-4!
6 April 2025

Meta 震撼彈!開源 Llama 4 多模態 AI 登場,效能驚人挑戰 GPT-4!

Meta 震撼彈!開源 Llama 4 多模態 AI 登場,效能驚人挑戰 GPT-4! Meta 最新力作 Llama 4 系列 AI 模型正式開源!原生多模態、超長上下文、專家混合架構...

Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80%
6 April 2025

Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80%

Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80% Google 正式公布了備受期待的 Gemini 2.5 Pro API 定價方案。雖然價格...

全方位新世代AI:ChatGPT-4o的進化與應用
30 June 2024

全方位新世代AI:ChatGPT-4o的進化與應用

圖片來自OpenAI GPT-4o ChatGPT-4o的與眾不同之處 於5月13日面世的ChatGPT-4o,代表「全能」的”o”,是OpenAI推出的最前沿AI模型。相較於前身GPT...

TANGOFLUX:突破性AI文字轉音訊技術,3.7秒生成30秒高品質音效
4 January 2025

TANGOFLUX:突破性AI文字轉音訊技術,3.7秒生成30秒高品質音效

TANGOFLUX:突破性AI文字轉音訊技術,3.7秒生成30秒高品質音效 文章摘要 人工智能領域再添突破,全新文字轉音訊模型TANGOFLUX橫空出世,擁有5.15億參數,不僅能在3.7秒內...

RF-DETR:開源且可商用的即時物件偵測模型
25 March 2025

RF-DETR:開源且可商用的即時物件偵測模型

RF-DETR:開源且可商用的即時物件偵測模型 RF-DETR 是什麼? RF-DETR 是由 Roboflow 團隊開發並開源釋出的最新即時物件偵測(Real-time Object Det...