豆包深度思考模型正式发布！和 o3 一样能「看图思考」，还有一个 Agent 大招

APPSO · 公众号 · app · 2025-04-17 16:19

主要观点总结

本文主要介绍了字节近期发布的AI产品升级，包括豆包深度思考模型、文生图模型以及视觉理解模型的突破，还有AI Agent在垂类应用和OS Agent方面的进展。这些产品不仅在推理能力和多模态理解上实现突破，也通过Agent加速AI在更多场景的应用落地。

这些升级在推理能力、多模态理解和视觉理解方面取得了重要突破，提升了AI在实际应用中的性能。

该模型在专业领域推理能力测试中达到或接近全球第一梯队水平，并采用了高效的MoE架构，显著降低了训练和推理成本。

该模型能够直接生成2K分辨率的图像，并具有高效的推理能力，为创作者提供了实时的交互体验。

豆包团队推出了针对客服、数据和代码等领域的垂类应用Agent，同时国内首个AI IDE——Trae也亮相。OS Agent则代表了更高层次的AI能力，能够操作浏览器、电脑、手机或其他Agent完成复杂任务。

豆包 1.5·深度思考模型作为本次升级的核心，有三个关键升级：更强的推理效果、极低的响应延迟和全面的多模态能力。

在专业领域推理能力测试中，豆包深度思考模型整体达到或接近全球第一梯队水平。

数学推理方面，在 AIME 2024 测试中的得分已追平 OpenAI o3-mini-high。

编程竞赛方面，在 Codeforces pass@8 测试中接近 OpenAI o1。

科学推理能力在 GPQA 测试中也接近 o3-mini。

豆包 1.5·深度思考模型采用总参数达 200B 的 MoE 架构，但激活参数仅为 20B。

这种设计可以在保证强大性能的同时，显著降低了训练和推理成本，实现了 20 毫秒的极低延迟，这意味着能更好应用在对延迟敏感的实时交互场景。

豆包深度思考模型技术报告 🔗
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

在实际体验中，豆包深度思考模型的「边想边搜」和「视觉推理」这两个功能，带来了一些惊喜，也是目前相较同类产品比较有特色的。

「边想边搜」功能模拟了人类解决问题时边思考边查阅资料的过程，它把搜索和推理捆绑在一起，基于每一步的思考结果进行多次搜索，能让回答更有逻辑、更贴近需求。

以购物推荐场景为例，用户需要为一家三口选择露营装备，涉及预算、安全性、便携性、适应天气等多维度因素。

豆包深度思考模型不是简单给出答案，而是像顾问一样进行多轮搜索和思考：

1. 第一轮搜索价格与性能数据，基本确定选择范围

2. 第二轮针对儿童需求搜索，筛选安全适合的装备

3. 第三轮考虑天气因素，查询详细评测

整个过程透明化，用户可以看到模型如何一步步构建解决方案。这种「边想边搜」能力不仅适用于购物决策，还能应用于金融分析、旅游规划等复杂决策场景。

至于豆包 1.5·深度思考模型的视觉推理能力，刚好和 OpenAI o3 不谋而合，让 AI 能像人类一样基于图像进行深层思考。