谷歌 I/O大会杀疯了！2小时23项王炸：250刀Ultra会员、Veo3、Imagen4等等全线开花。

大数据文摘 · 公众号 · 大数据 · 2025-05-21 12:00

正文

基本源自去年的研究 Project Astra，它探索的是能理解你周围世界的通用 AI 助手。

目前 Project Astra被整合进 Gemini Live，用户可以对着手机摄像头或屏幕上的任何内容和 AI 助手对话。

现场还玩了个花活，测试者用摄像头对着街边乱指，Gemini Live不仅纠正了用户把垃圾车当成豪华敞篷车的错误认知，还顺道给用户科普了一下，路灯不是瘦高建筑物这种常识。

比较令人激动的是，Sundar Pichai宣布Gemini Live的视觉问答功能，从今天开始即将在Android和iOS平台全面上线。

>/ 2. Personal Context

一个非常个性化的功能。

得到你授权后，Gemini能打通你的搜索历史、Gmail、Drive这些Google应用里的信息，真正懂你。

比如它知道，你物理考试快到了，它不仅提醒你，还能根据你的笔记、教授的材料，甚至手写笔记给你出个性化考题。

>/ 3. DeepResearch和Canvas创作

Deep Research现在能上传你自己的文件来进行深度研究了。

Canvas也迎来了升级。

可以把研究报告一键转成网页、信息图，甚至45种语言的播客。

还能在Canvas里用前端预览写出来的代码，同时分享给你的朋友，这个其实上了有一段时间了。

>/ 4. Gemini现身Chrome

浏览网页时，Gemini能直接理解当前页面内容并回答你的问题，等于自带了一个AI总结的网页插件。

>/ 5. Gemini Agent Mode

针对C端用户，谷歌在Gemini应用中引入了全新的 Agent Mode （代理模式）。

这是一个让普通用户也能支使 AI 去网上替自己办事的功能。

举个例子，你和室友想找房子，预算、需求一大堆，按以往你得刷无数网页，现在只需把这些要求一股脑告诉 Agent Mode。

然后你就可以 解放双手，让Gemini在背后替你上网找房源， 它会自动跑去 Zillow等房产网站搜索符合条件的房子，并调用Mariner帮你针对特定条件筛选。

当发现心仪房源时，它还能用自动表单提交帮你预约看房。更牛逼的是，这个智能代理 会持续替你刷更新的房源 ，一直忙活到你喊它停为止。

不过，目前，Gemini应用中的Agent Mode仍在实验阶段，谷歌说 很快向订阅用户推出实验版，又是一个饼。

三. 视觉生成

>/ 1. Flow

Flow是这次Google憋出来的一个大招，一个全新的AI电影制作工具，直接把Veo、Imagen和Gemini的能力全揉进去了。

感觉，就是直接对标Sora。

你可以上传自己的图片，或者直接用内置的Imagen当场生成素材。然后用一个指令，就能生成一段非常屌的AI视频。

视频生成完成以后，你还能直接进行剪辑，还能延长、跳转下一个镜头。

比如你就可以点个点个“+”号，直接描述“在后座加一只10 英尺高的鸡”，Flow也能给你整出来，而且角色、场景风格还能保持一致。

不过在我氪了125刀进去以后，发现有个功能还是饼。。。

就是你想要做图生视频啥的，目前只能用他们自己的Image生成，而不能自己上传。。。

这限制就有一点大了。

网址在此： https://labs.google/fx/tools/flow

目前只对美国开放，所以想用的话，魔法记得调一下。

>/ 2. Veo3

谷歌去年推出的Veo 2曾让业界惊叹不已，在文生视频这块真实感确实强到离谱。这一次，他们乘胜追击发布了新一代的 Veo 3。

它在画质和逼真度上更上一层楼，尤其对物理的理解更深厚了，比如重力、光照、材质这些现实规律。