专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

谷歌基于Gemma打造海豚专属模型，用4亿参数“解锁”海豚声音秘密

DeepTech深科技 · 公众号 · 科技媒体 · 2025-04-15 17:35

正文

请到「今天看啥」查看全文

4 亿参数，经过训练之后能够学习海豚发声的结构，并能生成类似海豚声音的声音序列。目前， DolphinGemma 正在帮助科学家研究海豚的交流机制，并有望弄清它们到底在说什么。

图 | 左：一只母斑海豚在觅食时观察着她的幼崽。幼崽吃饱后，母斑海豚会用她独特的标志性哨声呼唤幼崽回来。右：哨声的频谱图（来源：谷歌）

DolphinGemma 这一 AI 模型由谷歌开发，并采用特定的谷歌音频技术。其中， SoundStream 分词器能够高效地表示海豚的声音，然后通过适用于复杂序列的模型架构来对这些声音进行处理。

当把 DolphinGemma 的模型尺寸经过优化，可以直接在 “ 野生海豚项目 ” 组所使用的谷歌 Pixel 手机上运行。

图 | 左： DolphinGemma 早期测试期间生成的哨声（左）和突发脉冲（右）（来源：谷歌）

DolphinGemma 模型基于谷歌 Gemma 模型打造而来，经过对于 “ 野生海豚项目 ” 声学数据库的广泛训练， DolphinGemma 能够进行音频输入和音频输出，从而能够处理自然海豚声音的序列，并能识别其模式和结构，进而能够预测序列中可能出现的后续声音，这与基于人类语言的大型语言模型去预测句子中的下一个单词或 token 的原理非常相似。

目前， “ 野生海豚项目 ” 组已经开始在相关任务中部署 DolphinGemma ，有望立即带来潜在效益。通过识别重复的声音模式、集群和可靠序列，该模型能够帮助研究人员揭示海豚在自然交流中隐藏的结构和潜在意义。

具体在使用时， “ 野生海豚项目 ” 组会先打造一些合成声音，以此来指代海豚喜欢玩耍的物体，从而与海豚建立起一种共享的词汇表。除此之外， “ 野生海豚项目 ” 组还将探索在海洋中进行双向交互的潜力。

研究地球上最聪明的生物之一

海豚通常被认为是地球上最聪明的生物之一。研究表明，它们能够互相合作以及互相传授新技能，甚至能在镜子中认出自己。海豚因其发达的大脑和复杂的社会结构，被认为是进行认知研究的优秀非人类动物代表。对于海豚认知的探索将有助于进一步提升人类对于地球动物的了解，并能帮助人类界定我们与它们的关系。

既然我们知道海豚有着复杂的交流系统，那么就要设法理解这一系统。除了理解它们所发出的声音外，还需要考虑许多因素包括它们所处的环境、行为、身体姿势以及空间联系和社会联系。

几十年来，科学家们一直试图弄清楚海豚用来交流的复杂哨声和 “ 喀哒 ” 声。了解任何物种都需要深入理解其背景，而这正是 “ 野生海豚项目 ” 组所能提供的内容之一。

自 1985 年以来，由丹尼斯·赫尔辛（ Denise Herzing ）博士创办的 “ 野生海豚项目 ” ，希望能够实现实现人与海豚之间的双向交流。为此，野生海豚项目