专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
新浪科技  ·  #鸿蒙市场每天超400个App更新#【#余承 ... ·  14 小时前  
51好读  ›  专栏  ›  腾讯科技

谷歌发布新一代大模型Gemini 2.0,掀了AI圈牌桌,全力狙击OpenAI

腾讯科技  · 公众号  · 科技媒体  · 2024-12-12 09:55

主要观点总结

谷歌发布了新一代大模型Gemini 2.0,具备速度翻倍、能力更强、支持多模态输出等特点。通过多模态实时API和三个智能体研究原型展现了其潜力。谷歌在硬件层面也有重大投入,新一代TPU芯片Trillium支持了Gemini 2.0的全部训练和推理过程,并面向客户开放。谷歌的AI发展进入了新阶段,旨在确保在AI领域的领先地位,同时带来商业价值。

关键观点总结

关键观点1: Gemini 2.0的特点和优势

包括速度翻倍、能力更强、支持原生图像生成和音频输出的多模态输出、使用Google搜索和地图等工具的能力等。

关键观点2: 谷歌的新功能和应用场景

通过多模态实时API支持实时音频、视频流输入和多个组合工具的使用;通过三个智能体研究原型展示了系统级智能体的潜力,包括Project Astra、Project Mariner和Jules等。

关键观点3: 谷歌在硬件层面的投入

新一代TPU芯片Trillium支持了Gemini 2.0的训练和推理,并面向客户开放。Trillium在性能、训练大型语言模型的能力、成本效益等方面都有显著提升。

关键观点4: 商业意义

谷歌通过更新可能带来商业版图的漂移,包括在搜索和广告领域的优势、投资者对AI领域投入的回报率的提高、以及更远大的通用数字助手的愿景。


正文

请到「今天看啥」查看全文



正如谷歌DeepMind的CTO科雷·卡武克奥卢所说:“如果把我们一年前的位置和现在相比,今天发布的Flash模型比我们一年前的任何模型都要强大得多,而且成本只是其一小部分。”


最小赢过了竞争对手最大、最先进的模型,这让人甚至都很难想象 Gemini 2.0 Ultra 会强到什么地步。


借由模型性能的提升,Gemini能够更好地理解复杂指令、进行长期规划,并具备更强的组合函数调用能力。


这是Gemini强大规划能力的基础。


但更引人注目的是模型的多模态能力。Gemini 2.0不仅能理解文本、图像、视频、音频和代码,还能原生生成图像和多语言音频。


这意味着它可以像人类一样自然地在不同形式的信息之间转换。


在Gemini 1.0时,谷歌已经实现了多模态大系统模型的训练,但生成这一侧他们还是没能突破。现在它做到了。


这是其它所有领先模型都做不到的事,ChatGPT的图片生成还要依靠DALLE,语音生成也是单独的模块。


虽然Gemini 1.0刚推出的时候,大家都认为大一统模型会是未来,但到今天,GPT-4o可能也还没用这种方式训练。


这是Gemini感知能力的基础。


长上下文理解也一直是Gemini的长项,虽然在官方文档中仅仅提及了“更长的上下文”,但鉴于Gemini 1.5 Pro 已经支持 200 万token的海量上下文窗口, Gemini 2不会比这更低。


这是Gemini记忆能力的基础。


此外,Gemini 2.0还能原生调用Google搜索、执行代码以及使用第三方用户定义的功能。


这是Gemini工具使用能力的基础。


让我们回顾前OpenAI研究副总裁翁荔分析的智能体的几大基础能力。记忆、工具使用和规划能力,都在Gemini 2.0中得到了大幅的提升。



而感知,也是传统智能体的核心需求之一,它决定了智能体的应用范围。


谷歌产品经理图尔西·多希在新闻发布会上就表示:“这些新能力使得构建能够思考、记忆、规划,甚至代表你采取行动的代理成为可能。”


从今天开始,全球Gemini用户就可以在桌面和移动网页版中选择使用2.0 Flash实验版,移动应用版本也将很快推出。


谷歌计划在明年初将Gemini 2.0扩展到更多产品中。


对开发者而言,谷歌推出了新的多模态实时API,支持实时音频、视频流输入和多个组合工具的使用。这些功能将从本周开始通过谷歌AI工作室和Vertex AI向开发者开放,而完整版本将于明年1月推出。


接着Gemini-Exp-1121的火热,Gemini 2.0 Flash在正式发布前就已经获得了用户用脚投的票了。


根据API团队产品经理Logan Kilpatrick的数据,“Flash使用量的增长超过900%,这是令人难以置信的。


在过去几个月里,我们推出了六个实验性模型,现在已有数百万开发者在使用Gemini。”


因此,Gemini 2.0的发布确如皮查伊所说,这标志着谷歌AI发展进入了新阶段。


但谷歌并没有止步于此。


让智能体渗入谷歌的每条血脉


如果说Gemini 2.0的技术突破令人印象深刻,那么把它结合进具体的应用场景会诞生什么呢?


答案是:谷歌版的智能体全家桶!


谷歌通过三个研究原型展示了这一技术的潜力:Project Astra、Project Mariner和Jules,每一个都展现了智能体会如何改变我们与数字世界的互动方式。


Project Astra:目前看起来最惊艳的系统级智能体


Project Astra是谷歌最早在今年5月 I/O大会上展示的AI助手,刚发布时看起来并不太惊艳。但现在搭载Gemini 2.0后获得了显著提升。







请到「今天看啥」查看全文