主要观点总结
谷歌发布了新的AI模型Gemini 2.0,该模型实现了原生多模态输入输出,并推出了三个新的AI智能体原型:通用大模型助手Project Astra、浏览器助手Project Mariner和编程助手Jules。这一切都标志着谷歌AI正在向Agent新时代转变。文章介绍了Gemini 2.0的特点和优势,以及谷歌在其他领域如游戏、学术研究、机器人方面的尝试。此外,文章还提到了OpenAI的代理“Operator”的竞争情况。
关键观点总结
关键观点1: Gemini 2.0是首个实现原生多模态输入输出的模型,具有强大的性能和速度优势。
Gemini 2.0具备处理大型复杂数据集的能力,在Livebench上排名第二,超过了Claude 3.5 Sonnet。它的速度比Gemini 1.5 Pro快两倍,并支持图片、视频和音频等多模态输入与输出。
关键观点2: 谷歌推出了三个新的AI智能体原型:Project Astra、Project Mariner和Jules。
Project Astra是通用大模型助手,具备多语言对话能力,能调用Google搜索等工具。Project Mariner是浏览器助手,能够理解和推理浏览器屏幕上的信息。Jules是编程助手,能够自动修复代码中的错误。
关键观点3: 谷歌正在将AI融入其所有产品中,并开启了Agent时代。
谷歌的愿景是在2025年开启真正的“AI智能体时代”。Agent能够帮助人们更高效地完成各种任务,优化工作流程。谷歌的AI Overviews已经服务超过10亿用户,准备引入Gemini 2.0的推理能力来处理更复杂的主题和多步骤问题。
正文
许多人猜测这可能就是Gemini2.0。
当Gemini2.0的实力真正揭开帷幕,比想象中还令人震撼。首先性能上全面升级。在速度方面,2.0 的速度是 1.5 Pro 的两倍,这一速度提升意味着用户将享受到更高效的处理能力和更快的响应时间。
在性能方面,Gemini2.0可以支持图片、视频和音频等多模态输入与输出。可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用Google Search、代码执行以及第三方用户定义的函数等工具。
基于Gemini2.0架构之上,谷歌推出了三个新的AI智能体原型:通用大模型助手Project Astra、浏览器助手Project Mariner、编程助手Jules。
Agent是指无需人工干预或监督即可自主执行任务的人工智能技术。它们允许用户将任务委托给人工智能,从而大大优化人类的工作流程,组建一支随时待命的助手团队,几乎无需监督。
谷歌在2024年的末尾,送上了Agent大礼包。
Project Astra是谷歌最初在5月的I/O大会上首次对外发布的AI助手,对标OpenAI的GPT-4o,其主要功能包括实时语音和视觉处理,能够通过手机或谷歌眼镜进行跨文本、音频、视频的多模态实时推理。
Astra产品经理Bibo Xu将认为Project Astra在整合一些当今最强大的信息检索系统。