专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

大模型全面爆发,所有榜一都是Gemini!谷歌一夜站到了台前

机器之心  · 公众号  · AI  · 2025-05-21 08:33

主要观点总结

谷歌在今年的 I/O 开发者大会上发布了一系列 AI 相关的新产品或功能升级,包括 Gemini 模型的升级、编程工具、媒体生成工具、搜索功能等。文章对这些新发布的产品或功能进行了概括性的介绍。

关键观点总结

关键观点1: Gemini 模型的升级

谷歌发布了 Gemini 2.5,这是一个更高效的主力模型,同时在推理、多模态、代码和长上下文等关键基准上得到了提升。此外,还推出了 Gemini Diffusion,这是一个新的文本模型,旨在提供更快的推理速度。

关键观点2: 编程工具升级

谷歌推出了编程智能体 Jules,这是一款可以集成到用户现有代码库中的异步智能体,可以帮助开发者执行编写测试、构建新功能、提供音频更新日志等任务。此外,还升级了 Gemini Code Assist,这是一个 AI 编程助手,现在提供了更多自定义选项和更多的功能。

关键观点3: 媒体生成工具的新功能

谷歌推出了新的 AI 驱动式 UI 工具 Stitch,可以根据自然语言描述或图像提示词生成高质量 UI 设计及前端代码。此外,还升级了视频生成模型 Veo 3 和图像生成模型 Imagen 4,并推出了全新的 AI 电影制作工具 Flow。

关键观点4: 搜索功能的升级

谷歌在搜索功能中引入了 AI 概览和 AI 模式,这可以改进用户的搜索体验,快速查找信息并浏览网络上的相关网站。此外,还推出了深度搜索和实时搜索功能,以及 AI 购物体验。

关键观点5: 其他新产品或功能

谷歌还推出了一系列其他新产品或功能,包括全新的 3D 视频通信平台 Google Beam、新的订阅套餐 Google AI Ultra 以及在多个领域的新动态。


正文

请到「今天看啥」查看全文



谷歌还在 Gemini API 和 Vertex AI 中引入 思维摘要(thought summaries) 功能,以提高透明度;将思维预算扩展到 2.5 Pro 以增强控制力;并在 Gemini API 和 SDK 中增加对 MCP 工具的支持,以便用户访问更多开源工具。


另外,谷歌还宣布了一个名叫 Gemini Diffusion 的新模型。从名字上看,这应该是一个采用了扩散模型的 AI。


为了提升大模型推理速度,以进一步贴近生产应用,Google DeepMind 正在使用「扩散」技术来探索新的语言模型方向,该模型旨在为用户提供更强大的控制力、创造力和文本生成速度。


扩散模型的工作原理有所不同。它们不是像大语言模型那样直接预测下个文本 token,而是通过逐步细化噪声的方式来学习生成输出。这意味着它们可以快速迭代解决方案,并在生成过程中进行错误纠正。这有助于它们在编辑等任务中表现出色,包括在数学和代码环境中。


谷歌表示:「这个新的最先进的文本模型不仅速度快,而且速度非常快,今天发布的 Gemini Diffusion 实验演示的生成速度是我们迄今为止最快模型的五倍,同时具有相当的编程性能。」


谷歌表示,Gemini Diffusion 的推理速度可以达到每 12 秒 10095 token。


对这个新模型感兴趣的读者可以在这里加入等待列表:

https://docs.google.com/forms/d/1aLm6J13tAkq4v4qwGR3z35W2qWy7mHiiA0wGEpecooo/viewform?edit_requested=true


Gemini 应用的未来也值得期待。Demis Hassabis 亲自撰写了一篇题为「我们构建通用 AI 助手的愿景」的博客文章,其中写到:「我们正在将 Gemini 扩展为一个世界模型,它可以通过模拟世界的各个方面来制定计划并想象新的体验。」


我们的终极愿景是将 Gemini 应用打造成一个通用的 AI 助手 ,它可以为我们执行日常任务,处理日常的日常管理,并提供令人愉悦的新建议,从而提高我们的工作效率,丰富我们的生活。」


这一愿景的起点是 Project Astra ,谷歌基于其首次探索了视频理解、屏幕共享和记忆功能等功能。


在过去的一年里,谷歌一直在将这些功能集成到 Gemini Live 中,以便让更多人体验到这些功能。同时,谷歌也在创新,例如,升级了语音输出,使其更加自然地融入原生音频,改进了记忆功能,并增加了计算机控制功能。


编程工具升级


既然是开发者大会,那必然少不了编程工具的升级。在这方面,谷歌可以说是火力全开。


首先,谷歌正式宣布了前两天悄然上线的编程智能体 Jules 。据介绍,Jules 是一款异步、智能体式的编码助手,可直接与用户现有的代码库集成。它可将用户代码库克隆到安全的 Google Cloud 虚拟机 (VM) 中,了解项目的完整上下文,并执行编写测试、构建新功能、提供音频更新日志、修复错误、升级依赖项版本等任务。


Jules 以异步方式运行,让用户可在 Jules 后台运行时专注于其他任务。完成后,它会展示其计划、推理过程以及所做更改的差异。Jules 默认为私有 —— 谷歌承诺不会使用用户的私有代码进行训练,并且会在执行环境中隔离用户数据。



目前,Jules 处于公测阶段(beta),访问免费,但使用量会受到限制。谷歌表示会在公测结束后推出定价机制,想要尝鲜的可得抓紧。


此外,谷歌还宣布了 Gemini Code Assist 的新升级。Gemini Code Assist 是谷歌几个月前发布的 AI 编程助手,其中包括个人版 Gemini Code Assist for individuals 和代码审查智能体 Gemini Code Assist for GitHub。谷歌表示:「自二月份发布预览版以来,我们一直在征求意见、听取反馈,并逐步实现开发者所需的功能。」


现在,谷歌宣布 Gemini Code Assist 个人版和 GitHub 版正式发布,开发者可以在不到一分钟的时间内上手。Gemini 2.5 现已支持 Gemini Code Assist 的免费版和付费版,拥有更强大的编程性能;可帮助开发者在创建视觉效果出色的 Web 应用以及代码转换和编辑等任务上表现出色。


此外,谷歌还宣布为 Gemini Code Assist 提供了更多自定义选项,包括更多自定义工作流程以适应不同项目需求的方式,更轻松地从上次中断的位置继续执行任务的功能,以及用于强制执行团队编码标准、样式指南和架构模式的新工具。


另外,Gemini Code Assist 标准版和企业版开发者也已经可以使用 200 万 token 的上下文窗口,这能帮助开发者完成大规模的复杂任务,例如错误追踪、代码转换以及为新用户生成全面的入门指南。







请到「今天看啥」查看全文