专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

解构Manus AI:这是通用Agent革命,还是精巧缝合怪?

腾讯科技  · 公众号  · 科技媒体  · 2025-03-07 18:37

正文

请到「今天看啥」查看全文


图片

Planning的进化:推理之翼展开

Planning(规划)是最先有进步的。 从GPT-o1开始的测试时计算(test-time compute)拓展模型,也就是我们常说的推理模型,让单个大模型的Planning能力大幅提升。
这里就需要展开说说基础模型和推理模型的区别。相比基础模型,推理模型在四种关键认知能力上有很大提升:
验证 :如同一位细心的校对者,不放过任何错误
回溯 :当发现道路不通,敢于放弃并寻找新路径
子目标设定 :将庞大山峰分解为可攀登的阶梯
逆向思考 :从终点回望起点,寻找最优路径
也就是说,基础模型需要四个模型完成的事情,推理模型用一个就够了。
斯坦福大学最近的一篇论文正在试图破解推理模型为什么这么厉害。研究者在Qwen-2.5-3B和Llama-3.2-3B上施加相同训练后发现,Qwen如同开了挂一般迅速进步,而Llama则进展缓慢。
深入探究后发现,Qwen天生就具备验证和回溯等思维习惯,而Llama则缺乏这些"思维良习"。
图片


当研究者用含有这些思维模式的"示范"来引导Llama时,即使示范中的答案是错的,Llama也能迅速提升。 这揭示出,要想让AI在有更多思考时间时真正变聪明,它必须先掌握上面提出的四种基本思维方法。
此外,推理模型带来的另一个好处是灵活性。过去由workflow构建的模型往往只能解决特定问题。而推理模型因为其本身的泛化能力可以处理更通用的事物。这也是Manus能更“通用”的基础。
当前,Agent工作流系统中的主要核心节点功能在很大程度上就是在模拟这些思维模式。这四种能力齐全的推理模型本身已经是一个天然的Planning Agent系统了。这就是今天我们想重点探讨的。
在Manus出现前,在Agent中使用推理模型最成功的实践是2月2日OpenAI的DeepResearch及其类似产品,如Grok 3的DeepSearch。
在红杉对OpenAI DeepResearch产品团队的访谈中,团队在解释其能力时就提到,“DeepResearch是 o3 模型的一个微调版本,o3 是一个非常智能和强大的模型。很多分析能力也是来自底层的 o3 模型训练。”
DeepResearch是直接通过端到端的训练,而非搭建工作流的方式来运作。在这里,推理模型本身就成了Agent。
而DeepResearch,根据尝试进行复现的Jina AI(AI搜索产品)的分析,主要也就是搜索、阅读和分析三者间的循环工作。只不过推理需要能判别内容是否充足、搜索到的资料是否对应,再去要求下一轮搜索。
图片


而同样是在昨天发布、在外网获得满堂彩的Qwen团队推出的QwQ-32B模型,在其说明中特别提到了,它在推理模型中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
这都是为了已经有能力Agent化的大模型在打基础,做拓展。
而作为一款通用的AI代理,Manus毫无疑问的使用了推理模型带来的新能力。我们看到其搜索路径规划与DeepResearch非常相似,但在网页浏览中使用到了后面工具使用章节中的浏览器控制能力。
这确实很聪明,因为可以更好地阅读如网页PDF类直接读取页面难以完整呈现的内容。
图片






请到「今天看啥」查看全文