大模型全面爆发，所有榜一都是Gemini！谷歌一夜站到了台前

机器之心 · 公众号 · AI · 2025-05-21 08:33

主要观点总结

谷歌在今年的 I/O 开发者大会上发布了一系列 AI 相关的新产品或功能升级，包括 Gemini 模型的升级、编程工具、媒体生成工具、搜索功能等。文章对这些新发布的产品或功能进行了概括性的介绍。

关键观点总结

关键观点1: Gemini 模型的升级

谷歌发布了 Gemini 2.5，这是一个更高效的主力模型，同时在推理、多模态、代码和长上下文等关键基准上得到了提升。此外，还推出了 Gemini Diffusion，这是一个新的文本模型，旨在提供更快的推理速度。

关键观点2: 编程工具升级

谷歌推出了编程智能体 Jules，这是一款可以集成到用户现有代码库中的异步智能体，可以帮助开发者执行编写测试、构建新功能、提供音频更新日志等任务。此外，还升级了 Gemini Code Assist，这是一个 AI 编程助手，现在提供了更多自定义选项和更多的功能。

关键观点3: 媒体生成工具的新功能

谷歌推出了新的 AI 驱动式 UI 工具 Stitch，可以根据自然语言描述或图像提示词生成高质量 UI 设计及前端代码。此外，还升级了视频生成模型 Veo 3 和图像生成模型 Imagen 4，并推出了全新的 AI 电影制作工具 Flow。

关键观点4: 搜索功能的升级

谷歌在搜索功能中引入了 AI 概览和 AI 模式，这可以改进用户的搜索体验，快速查找信息并浏览网络上的相关网站。此外，还推出了深度搜索和实时搜索功能，以及 AI 购物体验。

关键观点5: 其他新产品或功能

谷歌还推出了一系列其他新产品或功能，包括全新的 3D 视频通信平台 Google Beam、新的订阅套餐 Google AI Ultra 以及在多个领域的新动态。

正文

请到「今天看啥」查看全文

谷歌还在 Gemini API 和 Vertex AI 中引入思维摘要（thought summaries）功能，以提高透明度；将思维预算扩展到 2.5 Pro 以增强控制力；并在 Gemini API 和 SDK 中增加对 MCP 工具的支持，以便用户访问更多开源工具。

另外，谷歌还宣布了一个名叫 Gemini Diffusion 的新模型。从名字上看，这应该是一个采用了扩散模型的 AI。

为了提升大模型推理速度，以进一步贴近生产应用，Google DeepMind 正在使用「扩散」技术来探索新的语言模型方向，该模型旨在为用户提供更强大的控制力、创造力和文本生成速度。

扩散模型的工作原理有所不同。它们不是像大语言模型那样直接预测下个文本 token，而是通过逐步细化噪声的方式来学习生成输出。这意味着它们可以快速迭代解决方案，并在生成过程中进行错误纠正。这有助于它们在编辑等任务中表现出色，包括在数学和代码环境中。

谷歌表示：「这个新的最先进的文本模型不仅速度快，而且速度非常快，今天发布的 Gemini Diffusion 实验演示的生成速度是我们迄今为止最快模型的五倍，同时具有相当的编程性能。」

谷歌表示，Gemini Diffusion 的推理速度可以达到每 12 秒 10095 token。

对这个新模型感兴趣的读者可以在这里加入等待列表：

https://docs.google.com/forms/d/1aLm6J13tAkq4v4qwGR3z35W2qWy7mHiiA0wGEpecooo/viewform?edit_requested=true

Gemini 应用的未来也值得期待。Demis Hassabis 亲自撰写了一篇题为「我们构建通用 AI 助手的愿景」的博客文章，其中写到：「我们正在将 Gemini 扩展为一个世界模型，它可以通过模拟世界的各个方面来制定计划并想象新的体验。」

「我们的终极愿景是将 Gemini 应用打造成一个通用的 AI 助手，它可以为我们执行日常任务，处理日常的日常管理，并提供令人愉悦的新建议，从而提高我们的工作效率，丰富我们的生活。」

这一愿景的起点是 Project Astra ，谷歌基于其首次探索了视频理解、屏幕共享和记忆功能等功能。

在过去的一年里，谷歌一直在将这些功能集成到 Gemini Live 中，以便让更多人体验到这些功能。同时，谷歌也在创新，例如，升级了语音输出，使其更加自然地融入原生音频，改进了记忆功能，并增加了计算机控制功能。

编程工具升级

既然是开发者大会，那必然少不了编程工具的升级。在这方面，谷歌可以说是火力全开。

首先，谷歌正式宣布了前两天悄然上线的编程智能体 Jules 。据介绍，Jules 是一款异步、智能体式的编码助手，可直接与用户现有的代码库集成。它可将用户代码库克隆到安全的 Google Cloud 虚拟机 (VM) 中，了解项目的完整上下文，并执行编写测试、构建新功能、提供音频更新日志、修复错误、升级依赖项版本等任务。

Jules 以异步方式运行，让用户可在 Jules 后台运行时专注于其他任务。完成后，它会展示其计划、推理过程以及所做更改的差异。Jules 默认为私有 —— 谷歌承诺不会使用用户的私有代码进行训练，并且会在执行环境中隔离用户数据。

目前，Jules 处于公测阶段（beta），访问免费，但使用量会受到限制。谷歌表示会在公测结束后推出定价机制，想要尝鲜的可得抓紧。

此外，谷歌还宣布了 Gemini Code Assist 的新升级。Gemini Code Assist 是谷歌几个月前发布的 AI 编程助手，其中包括个人版 Gemini Code Assist for individuals 和代码审查智能体 Gemini Code Assist for GitHub。谷歌表示：「自二月份发布预览版以来，我们一直在征求意见、听取反馈，并逐步实现开发者所需的功能。」

现在，谷歌宣布 Gemini Code Assist 个人版和 GitHub 版正式发布，开发者可以在不到一分钟的时间内上手。Gemini 2.5 现已支持 Gemini Code Assist 的免费版和付费版，拥有更强大的编程性能；可帮助开发者在创建视觉效果出色的 Web 应用以及代码转换和编辑等任务上表现出色。

此外，谷歌还宣布为 Gemini Code Assist 提供了更多自定义选项，包括更多自定义工作流程以适应不同项目需求的方式，更轻松地从上次中断的位置继续执行任务的功能，以及用于强制执行团队编码标准、样式指南和架构模式的新工具。

另外，Gemini Code Assist 标准版和企业版开发者也已经可以使用 200 万 token 的上下文窗口，这能帮助开发者完成大规模的复杂任务，例如错误追踪、代码转换以及为新用户生成全面的入门指南。