完整版｜谷歌创始人最新访谈，揭秘Gemini为什么突然变得这么强大？

人工智能学家 · 公众号 · AI · 2025-05-26 16:59

正文

请到「今天看啥」查看全文

我认为反响非常好。不过还有很多事情，我认为人们需要花一些时间来探索和理解。显然我们现在正忙着交付所有发布的内容。这需要很大的精力，只是确保事情实际上能够顺利进行，人们能够注册，并享受所有这些新功能等等。我觉得 I/O 对许多其他人来说是大量工作的开始。对于一些团队来说，这就像是终点线，而对于其他一些队伍来说，这就像是起跑线。

Gemini 的核心文本模型

主持人： 我们推出了更多 Gemini 发布，你如何看待你的重点，就像深度思维团队的重点一样，例如 VO 和Imagen 。谷歌有一整套生成媒体模型，刚刚宣布了音乐模型，你怎么判断你是从事生成媒体方面的工作，还是主要关注 Gemini？

谢尔盖·布林： 我主要关注 Gemini，即核心文本模型。主要因为我认为这将帮助我们更好地编码和开发人工智能背后的科学。这是我最关注的重点。同时，生成媒体也非常令人惊叹，感觉像是超人。

使用文本模型，有一些数学问题，无论我如何，我可能能够解决它，但它出错了或者类似的事情，或者偶然发现一段代码，虽然这种情况越来越少，实际上我现在依靠 Gemini 来做一些编码数学等等。但无论如何，它还是在人类的范围内。鉴于我的艺术天赋，我根本不可能创作出图像或视频。我的意思是，如果我是一名专家，比如摄像师、3D 渲染师或特效师，那么我可以想象这需要做大量的工作。这必须要经过一个月的艰苦工作，才能得到我几分钟内就能得到的东西。显然它在视觉上非常引人注目，它会吸引你。你无法逃脱。

Gemini 和 Veo 3 中的原生音频

主持人： 带有 VO 的音频片段，让我感觉像我以前一样，我个人认为生成视频很棒，但对我来说总是有点花哨，我想当我昨天在舞台上看到 V3 中的音频时，我认为那一刻对我来说就像是制作的，好吧，实际上很多人都能够这样做，因为实际上从历史上看，你可以生成视频，但你必须去，比如音频来自哪里，你怎么同步所有内容？现在你可以让人类喜欢说话和进行对话，而且它做得很好，这真是让我大吃一惊。

谢尔盖·布林： 是的，你说得对。我一直是它的忠实粉丝。我个人觉得我是一个很注重视觉效果的人。我并不是一个非常热衷于音频的人，但是这些年来，特别是像谷歌眼镜这样的产品，我的意思是，当我们添加一些声音时，这意味着它为声音增添了如此丰富的内容，添加音频比添加 3D 效果更好。

如果你玩过这个大型可穿戴设备的话，你会发现一些 3D 的东西很酷。但无论如何，当你让音频工作时，这只是一个令人难以置信的感知变化，我知道我看到了模型训练过去一个月或两个月，我刚刚从一个地方到它到另一个地方，这只会感觉不同。

主持人： 是的，看看这些功能如何融合将会很有趣，因为它看起来确实与 Gemini 有很多相似之处，比如Gemini 模型，显然我们在 I/O 和 VO 的Gemini 模型中都实现了原生音频支持，我今天早上与 Tulsi 进行了交谈，就像这些类似的突破一样，它们有什么不同？从技术角度来看，这听起来实际上在技术上非常不同，但很酷的是，我们有其他轨道来进行这项创新，理想情况下，所有这些都以某种方式回溯到 Gemini。

谢尔盖·布林：是的。我认为我们花了很长时间才在 Gemini 中发布原生音频。它已经在那里一年了。基础模型中不允许有经过至少一年训练的音频。我总是觉得，只是有太多的事情要做。像原生音频输入、原生音频输出，已经存在很久了，但是要通过所有这些让它真正运行良好，我认为需要很长时间。但是，它终于出来了。我不认为这是可行的，正如你所说，