主要观点总结
谷歌在今年的 I/O 开发者大会上发布了一系列 AI 相关的新产品或功能升级,包括 Gemini 模型的升级、编程工具、媒体生成工具、搜索功能等。文章对这些新发布的产品或功能进行了概括性的介绍。
关键观点总结
关键观点1: Gemini 模型的升级
谷歌发布了 Gemini 2.5,这是一个更高效的主力模型,同时在推理、多模态、代码和长上下文等关键基准上得到了提升。此外,还推出了 Gemini Diffusion,这是一个新的文本模型,旨在提供更快的推理速度。
关键观点2: 编程工具升级
谷歌推出了编程智能体 Jules,这是一款可以集成到用户现有代码库中的异步智能体,可以帮助开发者执行编写测试、构建新功能、提供音频更新日志等任务。此外,还升级了 Gemini Code Assist,这是一个 AI 编程助手,现在提供了更多自定义选项和更多的功能。
关键观点3: 媒体生成工具的新功能
谷歌推出了新的 AI 驱动式 UI 工具 Stitch,可以根据自然语言描述或图像提示词生成高质量 UI 设计及前端代码。此外,还升级了视频生成模型 Veo 3 和图像生成模型 Imagen 4,并推出了全新的 AI 电影制作工具 Flow。
关键观点4: 搜索功能的升级
谷歌在搜索功能中引入了 AI 概览和 AI 模式,这可以改进用户的搜索体验,快速查找信息并浏览网络上的相关网站。此外,还推出了深度搜索和实时搜索功能,以及 AI 购物体验。
关键观点5: 其他新产品或功能
谷歌还推出了一系列其他新产品或功能,包括全新的 3D 视频通信平台 Google Beam、新的订阅套餐 Google AI Ultra 以及在多个领域的新动态。
正文
谷歌还在 Gemini API 和 Vertex AI 中引入
思维摘要(thought summaries)
功能,以提高透明度;将思维预算扩展到 2.5 Pro 以增强控制力;并在 Gemini API 和 SDK 中增加对 MCP 工具的支持,以便用户访问更多开源工具。
另外,谷歌还宣布了一个名叫
Gemini Diffusion
的新模型。从名字上看,这应该是一个采用了扩散模型的 AI。
为了提升大模型推理速度,以进一步贴近生产应用,Google DeepMind 正在使用「扩散」技术来探索新的语言模型方向,该模型旨在为用户提供更强大的控制力、创造力和文本生成速度。
扩散模型的工作原理有所不同。它们不是像大语言模型那样直接预测下个文本 token,而是通过逐步细化噪声的方式来学习生成输出。这意味着它们可以快速迭代解决方案,并在生成过程中进行错误纠正。这有助于它们在编辑等任务中表现出色,包括在数学和代码环境中。
谷歌表示:「这个新的最先进的文本模型不仅速度快,而且速度非常快,今天发布的 Gemini Diffusion 实验演示的生成速度是我们迄今为止最快模型的五倍,同时具有相当的编程性能。」
谷歌表示,Gemini Diffusion 的推理速度可以达到每 12 秒 10095 token。
对这个新模型感兴趣的读者可以在这里加入等待列表:
https://docs.google.com/forms/d/1aLm6J13tAkq4v4qwGR3z35W2qWy7mHiiA0wGEpecooo/viewform?edit_requested=true
Gemini 应用的未来也值得期待。Demis Hassabis 亲自撰写了一篇题为「我们构建通用 AI 助手的愿景」的博客文章,其中写到:「我们正在将 Gemini 扩展为一个世界模型,它可以通过模拟世界的各个方面来制定计划并想象新的体验。」
「
我们的终极愿景是将 Gemini 应用打造成一个通用的 AI 助手
,它可以为我们执行日常任务,处理日常的日常管理,并提供令人愉悦的新建议,从而提高我们的工作效率,丰富我们的生活。」
这一愿景的起点是
Project Astra
,谷歌基于其首次探索了视频理解、屏幕共享和记忆功能等功能。
在过去的一年里,谷歌一直在将这些功能集成到 Gemini Live 中,以便让更多人体验到这些功能。同时,谷歌也在创新,例如,升级了语音输出,使其更加自然地融入原生音频,改进了记忆功能,并增加了计算机控制功能。
编程工具升级
既然是开发者大会,那必然少不了编程工具的升级。在这方面,谷歌可以说是火力全开。
首先,谷歌正式宣布了前两天悄然上线的编程智能体
Jules
。据介绍,Jules 是一款异步、智能体式的编码助手,可直接与用户现有的代码库集成。它可将用户代码库克隆到安全的 Google Cloud 虚拟机 (VM) 中,了解项目的完整上下文,并执行编写测试、构建新功能、提供音频更新日志、修复错误、升级依赖项版本等任务。
Jules 以异步方式运行,让用户可在 Jules 后台运行时专注于其他任务。完成后,它会展示其计划、推理过程以及所做更改的差异。Jules 默认为私有 —— 谷歌承诺不会使用用户的私有代码进行训练,并且会在执行环境中隔离用户数据。
目前,Jules 处于公测阶段(beta),访问免费,但使用量会受到限制。谷歌表示会在公测结束后推出定价机制,想要尝鲜的可得抓紧。
此外,谷歌还宣布了
Gemini Code Assist
的新升级。Gemini Code Assist 是谷歌几个月前发布的 AI 编程助手,其中包括个人版 Gemini Code Assist for individuals 和代码审查智能体 Gemini Code Assist for GitHub。谷歌表示:「自二月份发布预览版以来,我们一直在征求意见、听取反馈,并逐步实现开发者所需的功能。」
现在,谷歌宣布 Gemini Code Assist 个人版和 GitHub 版正式发布,开发者可以在不到一分钟的时间内上手。Gemini 2.5 现已支持 Gemini Code Assist 的免费版和付费版,拥有更强大的编程性能;可帮助开发者在创建视觉效果出色的 Web 应用以及代码转换和编辑等任务上表现出色。
此外,谷歌还宣布为 Gemini Code Assist 提供了更多自定义选项,包括更多自定义工作流程以适应不同项目需求的方式,更轻松地从上次中断的位置继续执行任务的功能,以及用于强制执行团队编码标准、样式指南和架构模式的新工具。
另外,Gemini Code Assist 标准版和企业版开发者也已经可以使用 200 万 token 的上下文窗口,这能帮助开发者完成大规模的复杂任务,例如错误追踪、代码转换以及为新用户生成全面的入门指南。