专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
51好读  ›  专栏  ›  APPSO

豆包深度思考模型正式发布!和 o3 一样能「看图思考」,还有一个 Agent 大招

APPSO  · 公众号  · app  · 2025-04-17 16:19

主要观点总结

本文主要介绍了字节近期发布的AI产品升级,包括豆包深度思考模型、文生图模型以及视觉理解模型的突破,还有AI Agent在垂类应用和OS Agent方面的进展。这些产品不仅在推理能力和多模态理解上实现突破,也通过Agent加速AI在更多场景的应用落地。

关键观点总结

关键观点1: 字节发布了一系列AI产品升级,包括豆包深度思考模型、文生图模型和视觉理解模型等。

这些升级在推理能力、多模态理解和视觉理解方面取得了重要突破,提升了AI在实际应用中的性能。

关键观点2: 豆包深度思考模型是本次升级的核心,具有强大的推理能力、极低的响应延迟和全面的多模态能力。

该模型在专业领域推理能力测试中达到或接近全球第一梯队水平,并采用了高效的MoE架构,显著降低了训练和推理成本。

关键观点3: 文生图模型在生成高清图像、文字排版和小字生成优化等方面有显著提升,跻身全球第一梯队。

该模型能够直接生成2K分辨率的图像,并具有高效的推理能力,为创作者提供了实时的交互体验。

关键观点4: AI Agent的应用在垂类场景和OS Agent方面取得了重要进展。

豆包团队推出了针对客服、数据和代码等领域的垂类应用Agent,同时国内首个AI IDE——Trae也亮相。OS Agent则代表了更高层次的AI能力,能够操作浏览器、电脑、手机或其他Agent完成复杂任务。


正文

请到「今天看啥」查看全文


豆包 1.5·深度思考模型作为本次升级的核心,有三个关键升级:更强的推理效果、极低的响应延迟和全面的多模态能力。
在专业领域推理能力测试中,豆包深度思考模型整体达到或接近全球第一梯队水平。

数学推理方面,在 AIME 2024 测试中的得分已追平 OpenAI o3-mini-high。

编程竞赛方面,在 Codeforces pass@8 测试中接近 OpenAI o1。

科学推理能力在 GPQA 测试中也接近 o3-mini。
豆包 1.5·深度思考模型采用总参数达 200B 的 MoE 架构,但激活参数仅为 20B。
这种设计可以在保证强大性能的同时,显著降低了训练和推理成本,实现了 20 毫秒的极低延迟,这意味着能更好应用在对延迟敏感的实时交互场景。
豆包深度思考模型技术报告 🔗
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
在实际体验中,豆包深度思考模型的「边想边搜」和「视觉推理」这两个功能,带来了一些惊喜,也是目前相较同类产品比较有特色的。
「边想边搜」功能模拟了人类解决问题时边思考边查阅资料的过程,它把搜索和推理捆绑在一起,基于每一步的思考结果进行多次搜索,能让回答更有逻辑、更贴近需求。
APPSO 不久前对豆包深度思考的「边想边搜」也进行了详细体验。
以购物推荐场景为例,用户需要为一家三口选择露营装备,涉及预算、安全性、便携性、适应天气等多维度因素。

豆包深度思考模型不是简单给出答案,而是像顾问一样进行多轮搜索和思考:

1. 第一轮搜索价格与性能数据,基本确定选择范围

2. 第二轮针对儿童需求搜索,筛选安全适合的装备

3. 第三轮考虑天气因素,查询详细评测
整个过程透明化,用户可以看到模型如何一步步构建解决方案。这种「边想边搜」能力不仅适用于购物决策,还能应用于金融分析、旅游规划等复杂决策场景。
至于豆包 1.5·深度思考模型的视觉推理能力,刚好和 OpenAI o3 不谋而合,让 AI 能像人类一样基于图像进行深层思考。






请到「今天看啥」查看全文


推荐文章
数据中心运维管理  ·  离心泵工作原理(视频)
8 年前
亿欧网  ·  7-11是怎么做零售的?
8 年前
利维坦  ·  吸奶器简史
8 年前