主要观点总结
火山引擎发布了豆包1.5·深度思考模型,包括大语言模型和多模态版本。该模型在数学、编程、科学等领域表现出色,并具备强大的视觉理解能力。豆包1.5·深度思考模型通过结合视觉和推理能力,能够处理复杂任务,如生物学、化学和地理学方面的视觉推理。此外,豆包App还推出了AI Agent工具和解决方案,支持客户基于工具套件自定制,并具备云原生推理套件来提供高性能、低成本的推理服务。火山引擎通过构建全面的技术体系,为企业提供从AI能力构建到业务场景落地的全栈解决方案。
关键观点总结
关键观点1: 豆包1.5·深度思考模型的发布
包括大语言模型和多模态版本,在数学、编程、科学等领域表现出色。
关键观点2: 豆包1.5·深度思考模型的视觉理解能力
具备强大的视觉理解能力,能够处理复杂任务,如生物学、化学和地理学方面的视觉推理。
关键观点3: 豆包App的AI Agent工具和解决方案
支持客户基于工具套件自定制,具备云原生推理套件来提供高性能、低成本的推理服务。
关键观点4: 火山引擎的技术体系和全栈解决方案
通过构建模型矩阵、智能体生态和云原生底座,为企业提供端到端的AI工业化能力。
关键观点5: 豆包1.5·深度思考模型的融合方法
优化了用户使用产品时的无感体验,触及了AI产品的本质。
正文
介绍完豆包1.5·深度思考模型的技术原理和场景适用性,我们再实际考察一下视觉理解和深度思考如何相辅相成。
本次测评涉及基础层面的计数、定位、知识引入、多元素识别等能力维度,在更高阶层面,主要考察了在教育场景中的应用,比如生物、化学、地理等。
首先是基础层面的测评,我们测试一下豆包1.5·深度思考模型多模态版的计数能力。
输入下图并提问:图中有几个人?
豆包1.5·深度思考模型多模态版的输出结果是6个人,回答准确。在思维链中,它将每个人的具体特征都分析了出来,包括衣服、发型、肤色等,甚至识别出了谁是拍照的人。
上述测试已经有体现出多元素识别的能力了,再看看下方这个表情识别的例子。
输入下图并提问:总结图片内容。
在推理过程中,豆包1.5·深度思考模型多模态版能准确地将图像整体进行空间划分,强调关注“共同点和差异点”,比如一些紫色、蓝色、红色的对象有特别意义等。在生成结果中,基本上每一个表情豆包1.5·深度思考模型多模态版都解释的很到位,特别是最后一个表情
( 思考/欲言又止 )
,没有和左边的混淆
( 困惑 )
,就很细节了。
我们再测试一下定位的能力,在下方放满包包的架子上,让豆包1.5·深度思考模型多模态版找到
“ 第一层有几个紫色的包?”
输入图像:
豆包1.5·深度思考模型多模态版
不仅找到了纯紫色的包,还找到了一个部分紫色的拼接包,后者说实话由于不是很明显或者太接近黑色,知危一开始都以为是胡说,结果还真是对的。
然后是测试豆包1.5·深度思考模型多模态版的知识引入能力,让它通过查看图中的食材种类来帮我们解决人生难题
“ 今晚吃什么?”
输入图像:
豆包1.5·深度思考模型多模态版认出了所有的食材种类,然后推导出主菜可以是汉堡或红烧肉,但同时做两道菜可能太腻,
因此豆包1.5·深度思考模型多模态版分析出有两种组合,一种是汉堡加香辣炒五花肉,另一种是红烧肉加蔬菜汉堡,都考虑到了解腻的要求,非常贴心。