正文
基本源
自去年的研究
Project Astra,它探索的是能理解你周围世界的通用 AI 助手。
目前
Project Astra被整合进
Gemini Live,用户可以对着手机摄像头或屏幕上的任何内容和 AI 助手对话。
现场还玩了个花活,测试者用摄像头对着街边乱指,Gemini Live不仅纠正了用户把垃圾车当成豪华敞篷车的错误认知,还顺道给用户科普了一下,路灯不是瘦高建筑物这种常识。
比较令人激动的是,Sundar Pichai宣布Gemini Live的视觉问答功能,从今天开始即将在Android和iOS平台全面上线。
得到你授权后,Gemini能打通你的搜索历史、Gmail、Drive这些Google应用里的信息,真正懂你。
比如它知道,你物理考试快到了,它不仅提醒你,还能根据你的笔记、教授的材料,甚至手写笔记给你出个性化考题。
>/ 3. DeepResearch和Canvas创作
Deep Research现在能上传你自己的文件来进行深度研究了。
可以把研究报告一键转成网页、信息图,甚至45种语言的播客。
还能在Canvas里用前端预览写出来的代码,同时分享给你的朋友,这个其实上了有一段时间了。
浏览网页时,Gemini能直接理解当前页面内容并回答你的问题,等于自带了一个AI总结的网页插件。
针对C端用户,
谷歌在Gemini应用中引入了全新的
Agent Mode
(代理模式)。
这是一个让普通用户也能支使 AI 去网上替自己办事的功能。
举个例子,你和室友想找房子,预算、需求一大堆,按以往你得刷无数网页,现在只需把这些要求一股脑告诉 Agent Mode。
然后你就可以
解放双手,让Gemini在背后替你上网找房源,
它会自动跑去 Zillow等房产网站搜索符合条件的房子,并调用Mariner帮你针对特定条件筛选。
当发现心仪房源时,它还能用自动表单提交帮你预约看房。更牛逼的是,这个智能代理
会持续替你刷更新的房源
,一直忙活到你喊它停为止。
不过,目前,Gemini应用中的Agent Mode仍在实验阶段
,谷歌说
很快向订阅用户推出实验版,又是一个饼。
Flow是这次Google憋出来的一个大招,一个全新的AI电影制作工具,直接把Veo、Imagen和Gemini的能力全揉进去了。
感觉,就是直接对标Sora。
你可以上传自己的图片,或者直接用内置的Imagen当场生成素材。然后用一个指令,就能生成一段非常屌的AI视频。
视频生成完成以后,你还能直接进行剪辑,还能延长、跳转下一个镜头。
比如你就可以点个点个“+”号
,直接
描述“在后座加一只10
英尺
高的鸡”,Flow也能给你整出来,而且角色、场景风格还能保持一致。
不过在我氪了125刀进去以后,发现有个功能还是饼。。。
就是你想要做图生视频啥的,目前只能用他们自己的Image生成,而不能自己上传。。。
网址在此:
https://labs.google/fx/tools/flow
谷歌去年
推出的Veo 2曾让业界惊叹不已,在文生视频这块真实感确实强到离谱。这一次,他们乘胜追击发布了新一代的
Veo 3。
它在画质和逼真度上更上一层楼,尤其对物理的理解更深厚了,比如重力、光照、材质这些现实规律。