主要观点总结
本文介绍了火山引擎公司举办的AI产品发布会的相关内容,重点介绍了豆包大模型的新版本功能以及视频生成模型Seedance 1.0 pro的升级情况。文章还提到了火山引擎推出的其他AI产品,强调了AI产品的落地性、调用效率、集成路径和使用成本的重要性。
关键观点总结
关键观点1: 豆包大模型 1.6 系列的新功能
包括推理能力增强、多模态理解能力优秀、GUI操作更加智能等。其中,豆包大模型 1.6-thinking 的表现尤为突出,其思考能力得到强化,能更准确地理解和处理复杂任务,在多项权威测评中表现优异。
关键观点2: Seedance 1.0 pro模型的升级
支持文字与图片输入,可生成多镜头无缝切换的高品质视频。该模型在运动连贯性、画面稳定性与整体质感都有很高的水准,价格却意外地接地气。
关键观点3: 火山引擎推出的其他AI产品
包括实时语音模型、AI云原生全栈产品等。这些产品在实际应用场景中表现出色,帮助企业实现智能化升级。
正文
在会议上,豆包 1.6 系列模型公布了多项权威测评成绩。特别是豆包 1.6-thinking 的表现,已经跻身全球顶尖行列。
模型会考试已经不是新鲜事,但能考清北的分数,还真不多见。
拿推理能力来说,豆包 1.6 相较于之前的模型进步很明显,做今年高考全国新一卷的数学题,豆包拿到了 144 分,位居全国第一。用海淀模拟全卷去测,相较于去年的 500 到 600多分,今年不管是文科还是理科,豆包 1.6 都超过了 700 分。
豆包在进行逻辑推理时的一个亮点在于,它不仅会自己思考,还懂得「边想边搜」。先拆解问题,找到关键信息,先做一轮思考,然后根据缺失的信息再做多轮的搜索。
比如,向豆包提问「详细梳理广东省内的昆虫分布状况、常见品种等,并以研究报告的形式呈现」。它在深度思考过程中首先考虑到了研究报告的格式要求,然后很快确定了梳理的框架。
接着,豆包考虑到「内容需要具体的数据和例子支撑」,所以开始自主搜索广东省的自然环境数据,以及以往相关研究。
会上还提到,豆包正在进行 DeepResearch 功能测试。过去需要专业人士花费数小时或者数天写的专业报告,豆包可以在 5 到 30 分钟内完成。而且还能自动的提炼信息,总结成网页,方便人们进行查阅。
另外,为方便企业用户使用「边想边搜」和 「DeepResearch」功能,火山引擎官网上线了大模型应用实验室,并开源了代码,可以搭建自己的 AI 应用原型,灵活编排自己的智能体。
豆包 1.6 全系列均原生支持多模态思考能力,让模型更好地理解和处理真实世界的问题。
多模态理解支持了豆包最新的「实时视频通话」功能。而在企业端,则可广泛应用于电商商品审核、自动驾驶标注、安全巡检等场景。
比如,可以用模型对商家上传的图片进行规范审查,也可以用模型快速对同类商品进行比价。
在汽车领域,可以通过模型来更准确的识别汽车行驶方向和驾驶意图,从海量的路采数据中选出特定的片段,用于下游的自动驾驶模型的训练。
在更多线下场景中,豆包可以准确地对图片中的信息进行定位和计数,从而完成安全巡检、门店巡检等任务。
比如,让豆包 1.6-thinking 检查一张洞穴探险的照片中是否存在因未戴头盔而可能引发的安全隐患。通过深度思考,它不仅能够对图片中的头盔佩戴情况进行准确计数。
更让人惊喜的是,它还能进一步思考「戴头盔就算安全吗」的问题,从而接着分析图片中头盔佩戴是否规范、穿衣是否合适、照明设备是否齐全、行走的安全距离是否恰当等等,并在最终提出了整改的优先级。
凭借领先的视觉深度思考能力和精确的视觉定位能力,豆包 1.6 能够让智能体与浏览器和其他工具进行流畅的交互和操作,高效地执行任务,比如,酒店预定筛选、票据整理等。
模型对 GUI 的操作,绝不仅仅只是替代人去解决手指点击 APP 的那几下的便利,而是能够突破传统的 APP 和 GUI 的限制,去更加智能、自动地去满足人本质的需求。
豆包大模型 1.6 采用统一定价模式,无论是否开启深度思考模式,无论是文本还是视觉,tokens 价格均一致,按照输入上下文长度区间定价。