专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
目录
相关文章推荐
Web3天空之城  ·  Cursor核心成员圆桌:用强化学习训练编码 ... ·  7 小时前  
Web3天空之城  ·  Cursor核心成员圆桌:用强化学习训练编码 ... ·  7 小时前  
爱可可-爱生活  ·  【[110星]sparse_transfor ... ·  昨天  
爱可可-爱生活  ·  今日推介(第1794期):通过嫁接探索扩散T ... ·  昨天  
机器之心  ·  不愁了!开源智能体Paper2Poster「 ... ·  2 天前  
51好读  ›  专栏  ›  AI前线

别被MCP的包装骗了!重构系统、向智能体转型,CEO亲述:关键时刻还是RPA兜底?

AI前线  · 公众号  · AI  · 2025-06-07 13:30

正文

请到「今天看啥」查看全文


第二个改造方面源于 RPA 的易用性问题。

许多厂商声称 RPA 易于使用,但实际上当业务人员真正接触后,他们发现很难掌握。原因在于,他们需要学习各种教程,甚至要先把自己变成程序员,才能使用该软件。这显然违背了“第一性原理”,我们不应非得把业务人员变成程序员,才能让他们使用这种产品。因此,我们借鉴了类似于 Excel 中宏录制的方法,在操作系统内使我们的操作能够被记录下来。也就是说,通过算法引导用户识别操作对象,并知晓需要使用哪些组件,从而自动生成代码。

我们推出了全新的 AI-RPA 模式,对 RPA 进行改造并引入了智能化特点,并对底层通信架构进行了大量重构。这样一来,任何一款软件在我们这里都能被默认识别,且效率极高。这并非简单地将 RPA 与大模型结合,而是要解决底层的两个非常困难的问题。解决了这些问题后,我们又接入了自己的垂直大模型。如此一来,我们的技术方案能够很好地适配当前智能体的工作需求。

InfoQ:构建一个智能体原型很容易,但要打造能支撑关键业务应用的可靠系统很难。你们如何解决这个难题?

孙林君: 许多人在理解智能体这一概念时,往往停留在较为浅显的层面。搭建一个初步的框架或许相对容易,但要构建一个真正可靠、稳定的系统,却并非易事。一个可靠的系统,首先必须具备可控性,其次要确保稳定性,即无论运行多少次,都能以相同的方式得出一致的结果。然而,如果仅仅依赖端到端的解决方案,情况就大不相同了,即使是相同的实验,也可能因采用不同的方法而得出多个截然不同的结果,甚至可能出现八次成功、两次失败的情况。这显然无法满足可靠性和稳定性的要求。

前面我们还提到了效率问题。 如果一个系统无法同时满足可控、稳定和高效这三个关键特点,那么对于众多企业客户而言,这样的智能体几乎是不可用的。 倘若在技术路线的选择上出现偏差,那么构建可靠系统的难度无疑将大幅增加。

我们引入大模型时,其生成结果本身就存在不确定性,而且大模型还可能产生幻觉,这对系统的稳定性构成了潜在威胁。因此,我们不得不对大模型进行一系列的优化和调整。具体来说,我们为大模型配备外挂知识库,并采用垂直领域的大模型,利用特定的数据来增强其性能。同时,我们还需要精心编写提示词,以对大模型的输出结果进行有效控制。通过综合运用多种手段,我们可以在最大程度上降低幻觉现象的发生概率,从而使大模型的输出结果更加可控。

如今,智能体的概念已经得到了广泛的认可。智能体的大方向无疑是让机器以人类的形态去替代人类完成工作,这已经成为业界的共识。当然,在实现这一目标的过程中,技术路线的选择必然会呈现出多样化的特点。我们可以看到,目前存在多种不同的技术路线,包括端到端的解决方案、大模型结合工具、大模型结合 API,以及 MCP、A2A 等能力整合方式。而我们所采用的技术路线则是将大模型与多模态技术以及 RPA 相结合。这些不同的技术路线,实际上都是基于对行业理解和需求的深入分析而做出的选择。

InfoQ:如何理解智能屏幕语义理解与多模态技术关系?构建 Agent 产品,自研大模型是必要的吗?

孙林君: 智能屏幕语义理解可以被视为多模态技术的一个分支。它主要关注软件界面元素的识别,例如操作类任务的范围。而多模态技术的范围更为广泛,包括但不限于给一张图讲故事、评论语义理解等。目前,我们已经在多模态领域进行了相关工作,例如网页数据提取涉及排序、数据过滤以及基于数据的问答等问题,都可以通过多模态技术获得结果。

InfoQ:之前你提到 Agent 研发中最难的“让大模型对任务理解到位”,具体怎么解决的?

孙林君: 针对这一研发难点,我们的解决方案是训练垂直的大模型。我们实在智能近年来服务了 4000 余家客户,积累了大量的行业 know how。对于一款完全未见过的软件,通用大模型可能只能靠想象去生成任务拆解步骤,出错概率较高。而我们的垂直大模型则能够结合具体行业知识,更准确地完成任务。

从实际效果来看,我们的垂直大模型在一些开放数据集上已经达到了较高的水平,这验证了 自研模型或垂直模型在 Agent 产品研发中的必要性和有效性

InfoQ:你们在智能体产品中加入了规划、推理能力吗?

孙林君: 在即将推出的新版本中,我们增加了深度思考的功能。这不仅是基础模型必须具备的能力,也是人工智能发展的一个重要标志,更是智能体基础能力的重要组成部分。

我们的大模型是在一些开源模型的基础上进行微调而来的。我们会将深度思考的特性与我们的数据相结合,构建长思维链的数据,并引入反思机制,以此来训练我们自己的垂直大模型。 我们之前使用 DeepSeek作为基础大模型底座,而现在也开始使用千问。

InfoQ:是否需要打通大企业里的不同软件?具体有什么技术挑战吗?

孙林君: 在处理不同软件时,我们的策略是优先使用接口,因为接口能够提供高效且稳定的交互方式。然而,并非所有软件都提供接口。在这种情况下,如果软件支持 MCP,我们会选择使用 MCP 来进行操作。但当软件既没有接口也不支持 MCP 时,我们会采用 RPA 技术。RPA 的优势在于它不需要依赖接口,也能够完成特定的操作,并且在许多情况下能够满足稳定性的要求。不过,RPA 必须具备我之前提到的多种能力,如任务分解、逻辑推理和数据处理等,才能确保其在实际应用中的有效性和可靠性。

InfoQ:MCP 最近火起来了。

孙林君: 人工智能行业目前存在一个问题,那就是很多人只是空谈理论,而真正能够将理论转化为实际成果的人却寥寥无几。像一些人过于夸大新技术的作用,认为有了 MCP 就能解决所有问题,这种观点是不切实际的。实际上, MCP 只是将一些问题进行了封装,问题的本质并没有得到解决。 例如,如果没有相应的接口或能力,仍然需要进行开发工作,然后才能将这些能力对接到 MCP 上,供他人调用。而且,如果过度依赖 MCP 服务,尤其是对于特别简单的任务,可能会导致效率低下。而对于特别复杂的任务,MCP 后面的部分可能会变成一个黑盒,这在调试过程中会带来很大的困难。

我们应该正确看待新技术,承认它的价值和意义,但同时不能过分夸大它的作用。我们应该根据实际情况,灵活选择最适合的技术方案,而不是盲目追求某一种技术。只有这样,我们才能在人工智能领域取得真正的进步和突破。

“大模型不是一个产品”
InfoQ:通用 Agent 和垂类 Agent 的技术实现有什么差异?

孙林君: 按照我的理解,这两类智能体在技术实现上存在差异。对于通用智能体来说,我们需要解决 RPA 底层的通用性问题,而不是针对某个特定行业。例如,如果我专注于垂直的财务智能体,那我可能只需要关注财务领域主流软件的控制即可。通用智能体相对更难实现,但市场空间更大。我们需要克服的问题包括识别的通用性和使用的易用性,这需要很多技术创新来解决。对于垂直类智能体来说,它们需要更深入的行业知识以及其复杂的业务逻辑。







请到「今天看啥」查看全文