谷歌AI核爆：升级全系模型，Gemini 2.5双榜登顶！所有产品用AI重做，OpenAI如何接招？

InfoQ · 公众号 · 科技媒体 · 2025-05-21 06:18

主要观点总结

本文介绍了谷歌在I/O大会上发布的最新人工智能模型和产品，包括Gemini 2.5系列的更新，AI模式在谷歌搜索中的应用，多模态视频模型Veo 3和图像生成模型Imagen 4的推出，编码助手Jules的公测，以及Astra项目的愿景等。同时，文章还提及了谷歌与Xreal合作的Project Aura智能眼镜的回归。文章对这些新产品和更新进行了详细介绍，并讨论了它们对未来技术趋势的影响。

关键观点总结

关键观点1: 谷歌在I/O大会上发布了一系列新的AI产品和更新

包括Gemini 2.5系列的更新、AI模式在谷歌搜索中的应用、多模态视频模型Veo 3和图像生成模型Imagen 4的推出等。

关键观点2: 编码助手Jules开始公测

Jules是一款异步代理式编码助手，可以直接与开发者现有的代码库集成，执行编写测试、构建新功能等任务。

关键观点3: Astra项目的愿景和升级

Astra项目旨在打造一个通用AI助手，目前正在进行一些重要的升级，包括增加计算机控制功能、提高内存等。

关键观点4: Project Aura智能眼镜的回归

谷歌与Xreal建立战略合作伙伴关系，共同开发一款名为Project Aura的全新Android XR设备。这是一款智能眼镜，将内置Gemini，拥有更大的视野。

正文

请到「今天看啥」查看全文

虽然 I/O 大会主要展示的是 2.5 Flash 的效能突破，但谷歌宣布将把该模型的“思考预算”（Thinking Budgets）概念引入更高阶的 2.5 Pro 版本。这项功能允许用户平衡 token 消耗与输出精度 / 速度的关系。

此外，谷歌正将"航海家计划"（Project Mariner）整合至 Gemini API 和 Vertex AI。该项目基于 Gemini 开发，能通过浏览器导航完成用户指定任务，预计今夏向开发者扩大开放。同时，谷歌还通过 Gemini API 为 2.5 Pro/Flash 模型推出文本转语音功能预览版，支持 24 种语言的两种发音人声。

值得一提的是，Gemini 2.5 系列引入了不少新功能。

首先是原生音频输出和 Live API 的改进 。Live API 推出了音频视频输入和原生音频输出对话的预览版，因此您可以直接构建对话体验，使用更自然、更具表现力的 Gemini。

它还允许用户控制其语气、口音和说话风格。例如，用户可以让模型在讲故事时使用戏剧性的声音。它还支持使用工具，以便能够代表用户进行搜索。

现在，可以供用户尝试的一系列早期功能包括：

情感对话，模型可以检测用户声音中的情感并做出适当的反应。
主动音频，其中模型将忽略背景对话并知道何时做出回应。
在 Live API 中思考，其中模型利用 Gemini 的思考能力来支持更复杂的任务。

谷歌还将为 2.5 Pro 和 2.5 Flash 版本发布全新的文本转语音功能预览版。这些功能首次支持多扬声器，能够通过原生音频输出实现双声道文本转语音。

与 Native Audio 对话一样，文本转语音功能富有表现力，能够捕捉到非常细微的差别，例如低语。它支持超过 24 种语言，并可在多种语言之间无缝切换。

其次是电脑操作能力提升。谷歌正将 Project Mariner 的电脑操作能力引入 Gemini API 和 Vertex AI。支持多任务处理，最多可同时执行 10 个任务，并且新增 “Learn and Repeat” 功能，让 AI 学会自动完成重复性任务。

第三是显著增强了对安全威胁的防护，例如间接提示注入。这是指恶意指令被嵌入到 AI 模型检索的数据中。谷歌全新的安全方法显著提高了 Gemini 在工具使用过程中对间接提示注入攻击的防护率，使 Gemini 2.5 成为我们迄今为止最安全的模型系列。

第四是增加三大实用功能，提升开发者体验：

思维摘要功能升级。Gemini API 和 Vertex AI 现为 2.5 Pro/Flash 模型新增"思维摘要"功能，可将模型原始推理过程结构化输出为带标题、关键细节及操作说明（如工具调用时机）的清晰格式。该设计旨在帮助开发者更直观地理解模型决策逻辑，提升交互可解释性与调试效率。
思考预算机制扩展。继 2.5 Flash 之后，思考预算功能现已覆盖 2.5 Pro 模型，允许开发者通过调节令牌分配来平衡响应质量与延迟成本。用户可自由控制模型思考深度，甚至完全关闭该功能。支持全量思考预算的 Gemini 2.5 Pro 正式版将于未来数周内发布。
Gemini SDK 兼容 MCP 工具。Gemini API 新增对 MCP 的原生 SDK 支持，简化与开源工具集成。谷歌正探索部署 MCP 服务器等托管方案，加速代理应用开发。团队将持续优化模型性能与开发体验，同时加强基础研究以拓展 Gemini 能力边界，更多更新即将推出。

关于谷歌 Gemini 的下一步，谷歌 DeepMind CEO 哈萨比斯表示，他们正努力将其最优秀 Gemini 模型扩展为一个 “世界模型”，使其能像人类大脑一样通过理解和模拟世界来制定计划、想象新体验。

AI Mode 是谷歌搜索的未来

作为谷歌最核心的业务之一，谷歌搜索的每次迭代都会引发行业关注。

谷歌表示， Gemini 模型正在帮助谷歌搜索变得更加智能、代理化和个性化。

自去年推出以来，AI 概览已覆盖超过 15 亿用户，并覆盖 200 个国家和地区。随着人们使用 AI 概览，谷歌发现他们对搜索结果更加满意，搜索频率也更高。在美国和印度等谷歌最大的市场，AI 概览推动了查询类型增长超过 10%，并且这种增长速度会随着时间的推移而持续增长。

皮查伊称，这是过去十年来搜索领域最成功的产品之一。

如今，对于想要体验端到端 AI 搜索的用户，谷歌推出了全新的 AI 模式。它彻底重塑了搜索体验。凭借更先进的推理能力，用户可以在 AI 模式下提出更长、更复杂的查询。

事实上，早期测试人员提出的查询长度是传统搜索长度的两到三倍，并且用户还可以通过后续问题进行更深入的探索。所有这些功能都可以在搜索的新标签页中直接使用。