专栏名称: 知危
提供敏锐、独到的商业信息与参考,重点关注TMT、出海、新消费、新能源。
目录
相关文章推荐
科技美学  ·  苹果新系统引领新潮流?OPPO:不跟进 ·  昨天  
纳米人  ·  废塑料太阳能制氢,Nature ... ·  昨天  
纳米人  ·  废塑料太阳能制氢,Nature ... ·  昨天  
澳洲求职  ·  建议所有女生6月都去投澳洲women ... ·  昨天  
澳洲求职  ·  建议所有女生6月都去投澳洲women ... ·  昨天  
独角兽早知道  ·  极智嘉赴港IPO获证监会备案,蚂蚁集团、高榕 ... ·  昨天  
独角兽早知道  ·  极智嘉赴港IPO获证监会备案,蚂蚁集团、高榕 ... ·  昨天  
51好读  ›  专栏  ›  知危

如果o3图片推理很吸引你,那你一定要看看豆包大模型的新品

知危  · 公众号  · 科技创业 科技自媒体  · 2025-04-18 21:53

主要观点总结

火山引擎发布了豆包1.5·深度思考模型,包括大语言模型和多模态版本。该模型在数学、编程、科学等领域表现出色,并具备强大的视觉理解能力。豆包1.5·深度思考模型通过结合视觉和推理能力,能够处理复杂任务,如生物学、化学和地理学方面的视觉推理。此外,豆包App还推出了AI Agent工具和解决方案,支持客户基于工具套件自定制,并具备云原生推理套件来提供高性能、低成本的推理服务。火山引擎通过构建全面的技术体系,为企业提供从AI能力构建到业务场景落地的全栈解决方案。

关键观点总结

关键观点1: 豆包1.5·深度思考模型的发布

包括大语言模型和多模态版本,在数学、编程、科学等领域表现出色。

关键观点2: 豆包1.5·深度思考模型的视觉理解能力

具备强大的视觉理解能力,能够处理复杂任务,如生物学、化学和地理学方面的视觉推理。

关键观点3: 豆包App的AI Agent工具和解决方案

支持客户基于工具套件自定制,具备云原生推理套件来提供高性能、低成本的推理服务。

关键观点4: 火山引擎的技术体系和全栈解决方案

通过构建模型矩阵、智能体生态和云原生底座,为企业提供端到端的AI工业化能力。

关键观点5: 豆包1.5·深度思考模型的融合方法

优化了用户使用产品时的无感体验,触及了AI产品的本质。


正文

请到「今天看啥」查看全文



介绍完豆包1.5·深度思考模型的技术原理和场景适用性,我们再实际考察一下视觉理解和深度思考如何相辅相成。


本次测评涉及基础层面的计数、定位、知识引入、多元素识别等能力维度,在更高阶层面,主要考察了在教育场景中的应用,比如生物、化学、地理等。


首先是基础层面的测评,我们测试一下豆包1.5·深度思考模型多模态版的计数能力。


输入下图并提问:图中有几个人?



豆包1.5·深度思考模型多模态版的输出结果是6个人,回答准确。在思维链中,它将每个人的具体特征都分析了出来,包括衣服、发型、肤色等,甚至识别出了谁是拍照的人。



上述测试已经有体现出多元素识别的能力了,再看看下方这个表情识别的例子。


输入下图并提问:总结图片内容。



在推理过程中,豆包1.5·深度思考模型多模态版能准确地将图像整体进行空间划分,强调关注“共同点和差异点”,比如一些紫色、蓝色、红色的对象有特别意义等。在生成结果中,基本上每一个表情豆包1.5·深度思考模型多模态版都解释的很到位,特别是最后一个表情 ( 思考/欲言又止 ) ,没有和左边的混淆 ( 困惑 ) ,就很细节了。



我们再测试一下定位的能力,在下方放满包包的架子上,让豆包1.5·深度思考模型多模态版找到 “ 第一层有几个紫色的包?”


输入图像:



豆包1.5·深度思考模型多模态版 不仅找到了纯紫色的包,还找到了一个部分紫色的拼接包,后者说实话由于不是很明显或者太接近黑色,知危一开始都以为是胡说,结果还真是对的。



然后是测试豆包1.5·深度思考模型多模态版的知识引入能力,让它通过查看图中的食材种类来帮我们解决人生难题 “ 今晚吃什么?”


输入图像:



豆包1.5·深度思考模型多模态版认出了所有的食材种类,然后推导出主菜可以是汉堡或红烧肉,但同时做两道菜可能太腻, 因此豆包1.5·深度思考模型多模态版分析出有两种组合,一种是汉堡加香辣炒五花肉,另一种是红烧肉加蔬菜汉堡,都考虑到了解腻的要求,非常贴心。








请到「今天看啥」查看全文