别被MCP的包装骗了！重构系统、向智能体转型，CEO亲述：关键时刻还是RPA兜底？

AI前线 · 公众号 · AI · 2025-06-07 13:30

正文

请到「今天看啥」查看全文

第二个改造方面源于 RPA 的易用性问题。

许多厂商声称 RPA 易于使用，但实际上当业务人员真正接触后，他们发现很难掌握。原因在于，他们需要学习各种教程，甚至要先把自己变成程序员，才能使用该软件。这显然违背了“第一性原理”，我们不应非得把业务人员变成程序员，才能让他们使用这种产品。因此，我们借鉴了类似于 Excel 中宏录制的方法，在操作系统内使我们的操作能够被记录下来。也就是说，通过算法引导用户识别操作对象，并知晓需要使用哪些组件，从而自动生成代码。

我们推出了全新的 AI-RPA 模式，对 RPA 进行改造并引入了智能化特点，并对底层通信架构进行了大量重构。这样一来，任何一款软件在我们这里都能被默认识别，且效率极高。这并非简单地将 RPA 与大模型结合，而是要解决底层的两个非常困难的问题。解决了这些问题后，我们又接入了自己的垂直大模型。如此一来，我们的技术方案能够很好地适配当前智能体的工作需求。

InfoQ：构建一个智能体原型很容易，但要打造能支撑关键业务应用的可靠系统很难。你们如何解决这个难题?

孙林君： 许多人在理解智能体这一概念时，往往停留在较为浅显的层面。搭建一个初步的框架或许相对容易，但要构建一个真正可靠、稳定的系统，却并非易事。一个可靠的系统，首先必须具备可控性，其次要确保稳定性，即无论运行多少次，都能以相同的方式得出一致的结果。然而，如果仅仅依赖端到端的解决方案，情况就大不相同了，即使是相同的实验，也可能因采用不同的方法而得出多个截然不同的结果，甚至可能出现八次成功、两次失败的情况。这显然无法满足可靠性和稳定性的要求。

前面我们还提到了效率问题。 如果一个系统无法同时满足可控、稳定和高效这三个关键特点，那么对于众多企业客户而言，这样的智能体几乎是不可用的。 倘若在技术路线的选择上出现偏差，那么构建可靠系统的难度无疑将大幅增加。

我们引入大模型时，其生成结果本身就存在不确定性，而且大模型还可能产生幻觉，这对系统的稳定性构成了潜在威胁。因此，我们不得不对大模型进行一系列的优化和调整。具体来说，我们为大模型配备外挂知识库，并采用垂直领域的大模型，利用特定的数据来增强其性能。同时，我们还需要精心编写提示词，以对大模型的输出结果进行有效控制。通过综合运用多种手段，我们可以在最大程度上降低幻觉现象的发生概率，从而使大模型的输出结果更加可控。

如今，智能体的概念已经得到了广泛的认可。智能体的大方向无疑是让机器以人类的形态去替代人类完成工作，这已经成为业界的共识。当然，在实现这一目标的过程中，技术路线的选择必然会呈现出多样化的特点。我们可以看到，目前存在多种不同的技术路线，包括端到端的解决方案、大模型结合工具、大模型结合 API，以及 MCP、A2A 等能力整合方式。而我们所采用的技术路线则是将大模型与多模态技术以及 RPA 相结合。这些不同的技术路线，实际上都是基于对行业理解和需求的深入分析而做出的选择。

InfoQ：如何理解智能屏幕语义理解与多模态技术关系？构建 Agent 产品，自研大模型是必要的吗?

孙林君： 智能屏幕语义理解可以被视为多模态技术的一个分支。它主要关注软件界面元素的识别，例如操作类任务的范围。而多模态技术的范围更为广泛，包括但不限于给一张图讲故事、评论语义理解等。目前，我们已经在多模态领域进行了相关工作，例如网页数据提取涉及排序、数据过滤以及基于数据的问答等问题，都可以通过多模态技术获得结果。

InfoQ：之前你提到 Agent 研发中最难的“让大模型对任务理解到位”，具体怎么解决的?

孙林君： 针对这一研发难点，我们的解决方案是训练垂直的大模型。我们实在智能近年来服务了 4000 余家客户，积累了大量的行业 know how。对于一款完全未见过的软件，通用大模型可能只能靠想象去生成任务拆解步骤，出错概率较高。而我们的垂直大模型则能够结合具体行业知识，更准确地完成任务。

从实际效果来看，我们的垂直大模型在一些开放数据集上已经达到了较高的水平，这验证了 自研模型或垂直模型在 Agent 产品研发中的必要性和有效性 。

InfoQ：你们在智能体产品中加入了规划、推理能力吗?

孙林君： 在即将推出的新版本中，我们增加了深度思考的功能。这不仅是基础模型必须具备的能力，也是人工智能发展的一个重要标志，更是智能体基础能力的重要组成部分。

我们的大模型是在一些开源模型的基础上进行微调而来的。我们会将深度思考的特性与我们的数据相结合，构建长思维链的数据，并引入反思机制，以此来训练我们自己的垂直大模型。我们之前使用 DeepSeek作为基础大模型底座，而现在也开始使用千问。

InfoQ：是否需要打通大企业里的不同软件？具体有什么技术挑战吗?

孙林君： 在处理不同软件时，我们的策略是优先使用接口，因为接口能够提供高效且稳定的交互方式。然而，并非所有软件都提供接口。在这种情况下，如果软件支持 MCP，我们会选择使用 MCP 来进行操作。但当软件既没有接口也不支持 MCP 时，我们会采用 RPA 技术。RPA 的优势在于它不需要依赖接口，也能够完成特定的操作，并且在许多情况下能够满足稳定性的要求。不过，RPA 必须具备我之前提到的多种能力，如任务分解、逻辑推理和数据处理等，才能确保其在实际应用中的有效性和可靠性。

InfoQ：MCP 最近火起来了。

孙林君： 人工智能行业目前存在一个问题，那就是很多人只是空谈理论，而真正能够将理论转化为实际成果的人却寥寥无几。像一些人过于夸大新技术的作用，认为有了 MCP 就能解决所有问题，这种观点是不切实际的。实际上， MCP 只是将一些问题进行了封装，问题的本质并没有得到解决。 例如，如果没有相应的接口或能力，仍然需要进行开发工作，然后才能将这些能力对接到 MCP 上，供他人调用。而且，如果过度依赖 MCP 服务，尤其是对于特别简单的任务，可能会导致效率低下。而对于特别复杂的任务，MCP 后面的部分可能会变成一个黑盒，这在调试过程中会带来很大的困难。

我们应该正确看待新技术，承认它的价值和意义，但同时不能过分夸大它的作用。我们应该根据实际情况，灵活选择最适合的技术方案，而不是盲目追求某一种技术。只有这样，我们才能在人工智能领域取得真正的进步和突破。

“大模型不是一个产品”

InfoQ：通用 Agent 和垂类 Agent 的技术实现有什么差异?

孙林君： 按照我的理解，这两类智能体在技术实现上存在差异。对于通用智能体来说，我们需要解决 RPA 底层的通用性问题，而不是针对某个特定行业。例如，如果我专注于垂直的财务智能体，那我可能只需要关注财务领域主流软件的控制即可。通用智能体相对更难实现，但市场空间更大。我们需要克服的问题包括识别的通用性和使用的易用性，这需要很多技术创新来解决。对于垂直类智能体来说，它们需要更深入的行业知识以及其复杂的业务逻辑。