主要观点总结
谷歌发布了新一代大模型Gemini 2.0,具备速度翻倍、能力更强、支持多模态输出等特点。通过多模态实时API和三个智能体研究原型展现了其潜力。谷歌在硬件层面也有重大投入,新一代TPU芯片Trillium支持了Gemini 2.0的全部训练和推理过程,并面向客户开放。谷歌的AI发展进入了新阶段,旨在确保在AI领域的领先地位,同时带来商业价值。
关键观点总结
关键观点1: Gemini 2.0的特点和优势
包括速度翻倍、能力更强、支持原生图像生成和音频输出的多模态输出、使用Google搜索和地图等工具的能力等。
关键观点2: 谷歌的新功能和应用场景
通过多模态实时API支持实时音频、视频流输入和多个组合工具的使用;通过三个智能体研究原型展示了系统级智能体的潜力,包括Project Astra、Project Mariner和Jules等。
关键观点3: 谷歌在硬件层面的投入
新一代TPU芯片Trillium支持了Gemini 2.0的训练和推理,并面向客户开放。Trillium在性能、训练大型语言模型的能力、成本效益等方面都有显著提升。
关键观点4: 商业意义
谷歌通过更新可能带来商业版图的漂移,包括在搜索和广告领域的优势、投资者对AI领域投入的回报率的提高、以及更远大的通用数字助手的愿景。
正文
正如谷歌DeepMind的CTO科雷·卡武克奥卢所说:“如果把我们一年前的位置和现在相比,今天发布的Flash模型比我们一年前的任何模型都要强大得多,而且成本只是其一小部分。”
最小赢过了竞争对手最大、最先进的模型,这让人甚至都很难想象 Gemini 2.0 Ultra 会强到什么地步。
借由模型性能的提升,Gemini能够更好地理解复杂指令、进行长期规划,并具备更强的组合函数调用能力。
这是Gemini强大规划能力的基础。
但更引人注目的是模型的多模态能力。Gemini 2.0不仅能理解文本、图像、视频、音频和代码,还能原生生成图像和多语言音频。
这意味着它可以像人类一样自然地在不同形式的信息之间转换。
在Gemini 1.0时,谷歌已经实现了多模态大系统模型的训练,但生成这一侧他们还是没能突破。现在它做到了。
这是其它所有领先模型都做不到的事,ChatGPT的图片生成还要依靠DALLE,语音生成也是单独的模块。
虽然Gemini 1.0刚推出的时候,大家都认为大一统模型会是未来,但到今天,GPT-4o可能也还没用这种方式训练。
这是Gemini感知能力的基础。
长上下文理解也一直是Gemini的长项,虽然在官方文档中仅仅提及了“更长的上下文”,但鉴于Gemini 1.5 Pro 已经支持 200 万token的海量上下文窗口, Gemini 2不会比这更低。
这是Gemini记忆能力的基础。
此外,Gemini 2.0还能原生调用Google搜索、执行代码以及使用第三方用户定义的功能。
这是Gemini工具使用能力的基础。
让我们回顾前OpenAI研究副总裁翁荔分析的智能体的几大基础能力。记忆、工具使用和规划能力,都在Gemini 2.0中得到了大幅的提升。
而感知,也是传统智能体的核心需求之一,它决定了智能体的应用范围。
谷歌产品经理图尔西·多希在新闻发布会上就表示:“这些新能力使得构建能够思考、记忆、规划,甚至代表你采取行动的代理成为可能。”
从今天开始,全球Gemini用户就可以在桌面和移动网页版中选择使用2.0 Flash实验版,移动应用版本也将很快推出。
谷歌计划在明年初将Gemini 2.0扩展到更多产品中。
对开发者而言,谷歌推出了新的多模态实时API,支持实时音频、视频流输入和多个组合工具的使用。这些功能将从本周开始通过谷歌AI工作室和Vertex AI向开发者开放,而完整版本将于明年1月推出。
接着Gemini-Exp-1121的火热,Gemini 2.0 Flash在正式发布前就已经获得了用户用脚投的票了。
根据API团队产品经理Logan Kilpatrick的数据,“Flash使用量的增长超过900%,这是令人难以置信的。
在过去几个月里,我们推出了六个实验性模型,现在已有数百万开发者在使用Gemini。”
因此,Gemini 2.0的发布确如皮查伊所说,这标志着谷歌AI发展进入了新阶段。
但谷歌并没有止步于此。
让智能体渗入谷歌的每条血脉
如果说Gemini 2.0的技术突破令人印象深刻,那么把它结合进具体的应用场景会诞生什么呢?
答案是:谷歌版的智能体全家桶!
谷歌通过三个研究原型展示了这一技术的潜力:Project Astra、Project Mariner和Jules,每一个都展现了智能体会如何改变我们与数字世界的互动方式。
Project Astra:目前看起来最惊艳的系统级智能体
Project Astra是谷歌最早在今年5月 I/O大会上展示的AI助手,刚发布时看起来并不太惊艳。但现在搭载Gemini 2.0后获得了显著提升。