专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

谷歌 I/O大会杀疯了!2小时23项王炸:250刀Ultra会员、Veo3、Imagen4等等全线开花。

大数据文摘  · 公众号  · 大数据  · 2025-05-21 12:00

正文

请到「今天看啥」查看全文


基本源 自去年的研究 Project Astra,它探索的是能理解你周围世界的通用 AI 助手。

目前 Project Astra被整合进 Gemini Live,用户可以对着手机摄像头或屏幕上的任何内容和 AI 助手对话。
现场还玩了个花活,测试者用摄像头对着街边乱指,Gemini Live不仅纠正了用户把垃圾车当成豪华敞篷车的错误认知,还顺道给用户科普了一下,路灯不是瘦高建筑物这种常识。
比较令人激动的是,Sundar Pichai宣布Gemini Live的视觉问答功能,从今天开始即将在Android和iOS平台全面上线。
>/ 2. Personal Context
一个非常个性化的功能。
得到你授权后,Gemini能打通你的搜索历史、Gmail、Drive这些Google应用里的信息,真正懂你。

比如它知道,你物理考试快到了,它不仅提醒你,还能根据你的笔记、教授的材料,甚至手写笔记给你出个性化考题。

>/ 3. DeepResearch和Canvas创作
Deep Research现在能上传你自己的文件来进行深度研究了。
Canvas也迎来了升级。
可以把研究报告一键转成网页、信息图,甚至45种语言的播客。
还能在Canvas里用前端预览写出来的代码,同时分享给你的朋友,这个其实上了有一段时间了。
>/ 4. Gemini现身Chrome
浏览网页时,Gemini能直接理解当前页面内容并回答你的问题,等于自带了一个AI总结的网页插件。
>/ 5. Gemini Agent Mode

针对C端用户, 谷歌在Gemini应用中引入了全新的 Agent Mode (代理模式)。

这是一个让普通用户也能支使 AI 去网上替自己办事的功能。

举个例子,你和室友想找房子,预算、需求一大堆,按以往你得刷无数网页,现在只需把这些要求一股脑告诉 Agent Mode。

然后你就可以 解放双手,让Gemini在背后替你上网找房源, 它会自动跑去 Zillow等房产网站搜索符合条件的房子,并调用Mariner帮你针对特定条件筛选。

当发现心仪房源时,它还能用自动表单提交帮你预约看房。更牛逼的是,这个智能代理 会持续替你刷更新的房源 ,一直忙活到你喊它停为止。

不过,目前,Gemini应用中的Agent Mode仍在实验阶段 ,谷歌说 很快向订阅用户推出实验版,又是一个饼。


三. 视觉生成
>/ 1. Flow

Flow是这次Google憋出来的一个大招,一个全新的AI电影制作工具,直接把Veo、Imagen和Gemini的能力全揉进去了。

感觉,就是直接对标Sora。

你可以上传自己的图片,或者直接用内置的Imagen当场生成素材。然后用一个指令,就能生成一段非常屌的AI视频。
视频生成完成以后,你还能直接进行剪辑,还能延长、跳转下一个镜头。

比如你就可以点个点个“+”号 ,直接 描述“在后座加一只10 英尺 高的鸡”,Flow也能给你整出来,而且角色、场景风格还能保持一致。

不过在我氪了125刀进去以后,发现有个功能还是饼。。。
就是你想要做图生视频啥的,目前只能用他们自己的Image生成,而不能自己上传。。。
这限制就有一点大了。
网址在此: https://labs.google/fx/tools/flow
目前只对美国开放,所以想用的话,魔法记得调一下。
>/ 2. Veo3

谷歌去年 推出的Veo 2曾让业界惊叹不已,在文生视频这块真实感确实强到离谱。这一次,他们乘胜追击发布了新一代的 Veo 3。

它在画质和逼真度上更上一层楼,尤其对物理的理解更深厚了,比如重力、光照、材质这些现实规律。







请到「今天看啥」查看全文


推荐文章
全球健身指南  ·  如果你单身,一定要关注这个号。
8 年前
分布式实验室  ·  数据库真的适合容器化吗,也许不是
8 年前
DBC德本咨询  ·  运动类APP如何持续点燃身体的自律?
7 年前