Gemini 2.0: 我们智能体时代的最新 AI 模型

谷歌黑板报 · 公众号 · · 2024-12-12 00:50

正文

请到「今天看啥」查看全文

作者：

Demis Hassabis, Google DeepMind CEO

Koray Kavukcuoglu, Google DeepMind CTO

代表 Gemini 团队

在过去一年中，我们在人工智能领域取得了巨大进步。今天，我们发布 Gemini 2.0 系列模型中的第一个模型：Gemini 2.0 Flash 的体验版。这是我们的主力模型，具有低延迟特性，而且在我们大规模技术前沿中展现了卓越的性能。

同时，我们还通过展示基于 Gemini 2.0 原生多模态功能的原型来分享我们关于智能体的前沿研究。

Gemini 2.0 Flash

Gemini 2.0 Flash 是建立在 1.5 Flash 的成功基础之上，而 1.5 Flash 是我们迄今为止最受开发者欢迎的版本。与 1.5 Flash 相比，Gemini 2.0 Flash 在同样快速的响应时间下性能进一步增强。值得一提的是，2.0 Flash 在关键基准测试中甚至超越了 1.5 Pro，其速度是 1.5 Pro 的两倍。同时 2.0 Flash 还具有新功能，除了能够支持图片、视频和音频等多模态输入，2.0 Flash 现在还可以支持多模态输出，例如可以直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

点击查看大图

我们的目标是让人们能够更安全、快速地使用我们的模型。在过去一个月，我们分享了 Gemini 2.0 的早期体验版，并得到了开发者的积极反馈。

作为提供给开发者的体验版模型，Gemini 2.0 Flash 现在可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 获取，所有开发者均可使用多模态输入和文本输出，抢先体验的合作伙伴可使用原生文本转语音和图像生成功能。该产品将于 1 月份全面上市，届时将推出更多型号。

为了帮助开发者构建动态和交互式应用程序，我们还发布了新的 Multimodal Live API，它具有实时音频、视频流输入以及使用多个组合工具的能力。有关 2.0 Flash 和 Multimodal Live API 的更多信息，请参阅我们的开发者博客。

Gemini 2.0 应用于我们 AI 助手 Gemini app

同样从今天开始，全球的 Gemini 用户可以通过在电脑端和移动端网页的模型下拉菜单中进行选择，来开启基于2.0 Flash 体验版优化后的聊天对话，并且该版本将很快在 Gemini 移动应用中推出。同时，基于这个新模型，用户还可以体验到更加有用的 Gemini 助手。

明年初，我们还会将 Gemini 2.0 扩展到更多 Google 产品中。

解锁 Gemini 2.0 智能互动新体验

Gemini 2.0 Flash 的原生用户界面操作能力，以及多模态推理、长文本理解、复杂指令跟随和规划能力、组合函数的调用，原生工具使用以及延迟优化等一系列优化改进，共同促进了全新的、更智能化的交互体验。

AI 智能体在现实中的应用是一个令人振奋且充满可能性的研究领域。我们正在探索这个全新的领域，开发出了一系列原型，这些原型能够帮助人们完成任务，达成相应的目标。其中包括：