谷歌发布新一代大模型Gemini 2.0，掀了AI圈牌桌，全力狙击OpenAI

腾讯科技 · 公众号 · 科技媒体 · 2024-12-12 09:55

主要观点总结

谷歌发布了新一代大模型Gemini 2.0，具备速度翻倍、能力更强、支持多模态输出等特点。通过多模态实时API和三个智能体研究原型展现了其潜力。谷歌在硬件层面也有重大投入，新一代TPU芯片Trillium支持了Gemini 2.0的全部训练和推理过程，并面向客户开放。谷歌的AI发展进入了新阶段，旨在确保在AI领域的领先地位，同时带来商业价值。

关键观点总结

关键观点1: Gemini 2.0的特点和优势

包括速度翻倍、能力更强、支持原生图像生成和音频输出的多模态输出、使用Google搜索和地图等工具的能力等。

关键观点2: 谷歌的新功能和应用场景

通过多模态实时API支持实时音频、视频流输入和多个组合工具的使用；通过三个智能体研究原型展示了系统级智能体的潜力，包括Project Astra、Project Mariner和Jules等。

关键观点3: 谷歌在硬件层面的投入

新一代TPU芯片Trillium支持了Gemini 2.0的训练和推理，并面向客户开放。Trillium在性能、训练大型语言模型的能力、成本效益等方面都有显著提升。

关键观点4: 商业意义

谷歌通过更新可能带来商业版图的漂移，包括在搜索和广告领域的优势、投资者对AI领域投入的回报率的提高、以及更远大的通用数字助手的愿景。

正文

请到「今天看啥」查看全文

正如谷歌DeepMind的CTO科雷·卡武克奥卢所说：“如果把我们一年前的位置和现在相比，今天发布的Flash模型比我们一年前的任何模型都要强大得多，而且成本只是其一小部分。”

最小赢过了竞争对手最大、最先进的模型，这让人甚至都很难想象 Gemini 2.0 Ultra 会强到什么地步。

借由模型性能的提升，Gemini能够更好地理解复杂指令、进行长期规划，并具备更强的组合函数调用能力。

这是Gemini强大规划能力的基础。

但更引人注目的是模型的多模态能力。Gemini 2.0不仅能理解文本、图像、视频、音频和代码，还能原生生成图像和多语言音频。

这意味着它可以像人类一样自然地在不同形式的信息之间转换。

在Gemini 1.0时，谷歌已经实现了多模态大系统模型的训练，但生成这一侧他们还是没能突破。现在它做到了。

这是其它所有领先模型都做不到的事，ChatGPT的图片生成还要依靠DALLE，语音生成也是单独的模块。

虽然Gemini 1.0刚推出的时候，大家都认为大一统模型会是未来，但到今天，GPT-4o可能也还没用这种方式训练。

这是Gemini感知能力的基础。

长上下文理解也一直是Gemini的长项，虽然在官方文档中仅仅提及了“更长的上下文”，但鉴于Gemini 1.5 Pro 已经支持 200 万token的海量上下文窗口， Gemini 2不会比这更低。

这是Gemini记忆能力的基础。

此外，Gemini 2.0还能原生调用Google搜索、执行代码以及使用第三方用户定义的功能。

这是Gemini工具使用能力的基础。

让我们回顾前OpenAI研究副总裁翁荔分析的智能体的几大基础能力。记忆、工具使用和规划能力，都在Gemini 2.0中得到了大幅的提升。

而感知，也是传统智能体的核心需求之一，它决定了智能体的应用范围。

谷歌产品经理图尔西·多希在新闻发布会上就表示：“这些新能力使得构建能够思考、记忆、规划，甚至代表你采取行动的代理成为可能。”

从今天开始，全球Gemini用户就可以在桌面和移动网页版中选择使用2.0 Flash实验版，移动应用版本也将很快推出。

谷歌计划在明年初将Gemini 2.0扩展到更多产品中。

对开发者而言，谷歌推出了新的多模态实时API，支持实时音频、视频流输入和多个组合工具的使用。这些功能将从本周开始通过谷歌AI工作室和Vertex AI向开发者开放，而完整版本将于明年1月推出。

接着Gemini-Exp-1121的火热，Gemini 2.0 Flash在正式发布前就已经获得了用户用脚投的票了。

根据API团队产品经理Logan Kilpatrick的数据，“Flash使用量的增长超过900%，这是令人难以置信的。

在过去几个月里，我们推出了六个实验性模型，现在已有数百万开发者在使用Gemini。”

因此，Gemini 2.0的发布确如皮查伊所说，这标志着谷歌AI发展进入了新阶段。

但谷歌并没有止步于此。

让智能体渗入谷歌的每条血脉

如果说Gemini 2.0的技术突破令人印象深刻，那么把它结合进具体的应用场景会诞生什么呢？

答案是：谷歌版的智能体全家桶！

谷歌通过三个研究原型展示了这一技术的潜力：Project Astra、Project Mariner和Jules，每一个都展现了智能体会如何改变我们与数字世界的互动方式。

Project Astra：目前看起来最惊艳的系统级智能体

Project Astra是谷歌最早在今年5月 I/O大会上展示的AI助手，刚发布时看起来并不太惊艳。但现在搭载Gemini 2.0后获得了显著提升。