正文
最终还是需要人工核查吧?
杨浩:
当大模型的准确率足够高并且稳定时,某些场景我们已经能够实现无人值守。
吴昊宇:
在我们做营销时,很多时候并不是单纯关注钱的问题。我们对接了许多跨国公司,在这些公司里,中国区更加注重创新,如果实现了一个好的 AI 应用,它可能成为总部认可的机会,从而在总部获得更大的支持。
我们与一家医药客户合作,帮助他们的内部咨询部门关注一线人员的满意度。这个医药公司有大量的业务代表需要与医生接触,但因为医学专业性强,一线代表往往不敢直接提问,特别是担心问得多了会被视为不专业。
因此,我们帮助他们创建了一个基于知识库的应用,除了查询功能外,还包括内部培训和考试。经过这一套培训和练习后,他们的一线代表开始变得更加自信,敢于与医生沟通,见面的频率也有所增加,这对他们的销售工作帮助巨大。
郑岩:在选择大模型技术路线时,不同业务场景对模型能力的侧重点可能完全不同,能否结合各位的实践,分享一下技术选型时的优先级考量?在改造传统系统时,各位是选择“颠覆重构”还是“渐进升级”?
杨浩:
不同版本的模型适用于不同的需求。选择模型时,我们主要考虑三个因素:首先,场景的重点是侧重推理还是生成;其次,上下文的长度,一些场景需要处理长上下文,而其他场景可能只需要短上下文;最后,响应性能。在某些场景中,高性能响应是必须的,特别是深度思考的模型常常响应迟缓,可能需要几秒到几分钟才开始返回结果,这在某些应用中是不可接受的。
另外,关于选择颠覆重构还是渐进升级,也需根据具体场景分析。AI 应用有三种范式:AI Embedding、AI Copilot 和 AI Agent。其中,前两者偏向渐进升级,AI Agent 则偏向颠覆重构。
尤其是在财务领域,第三种模式(AI Agent)占据了大部分比重,可能超过 50%。从 2023 年下半年开始,我们先进行了一些 AI 嵌入的工作,将 AI 能力融入现有财务体系中。
用户并未感知到这是 AI 应用,只是看到了自动化的流程。比如在界面的右下角弹出一个机器人,用户可以与其交互进行智能分析、审核等任务。对于 AI Agent,我们正在定义数字员工,实际上是在重新构建整个财务系统的入口,这属于颠覆重构的方式。
郑岩:
财务体系相对其他业务领域,数字化成熟度是比较高的。如何在如此成熟的数字化体系中,深度采用 AI 且以超过 50% 的比例进行重构,如何确保业务能够适应这些变化?
杨浩:
财务领域确实有很多子领域,每个子领域基本上都有后台管理系统。在新的 AI Agent 模式下,我们设计了一个 AI Native 的财务体系,提供统一的入口,后端连接各个子系统,并且这些不同领域的 Agent 通过协议进行通信。
从业务角度来看,用户不再关注各个系统的功能,而是关注自己的业务需求。我们内部提出的口号是“从做功能到做服务”,举例来说,报销和报账是每个公司都会涉及的内容。
传统的系统需要用户手动处理提单、审核结算等复杂流程,而现在我们的系统只需要用户简洁地输入一句话,比如“我要报一个账”,并上传发票,后续的提单和审核等流程系统会自动完成,这是对用户体验的一次重要变革。
吴昊宇
:对于营销类客户,他们更加关注模型是否能够从多样化的材料中挖掘出相关信息。例如,若客户查询草莓相关内容,但历史报告只包含蓝莓数据,严格排除蓝莓内容可能导致无法提供有用信息。
因此,模型需要具备一定的灵活性。而对于医疗客户,他们对准确性、引用的精确性以及可解释性要求非常高。在这种情况下,模型必须严格按照原文回答,不能自行生成或引用其他知识。
在推理模型的应用中,处理报告和问答时,我们首先进行发散性推理,探索用户可能的需求和相关问题,但在回答时,必须确保模型的高准确性,避免过多的推理。这些差异决定了模型选择时需要根据客户需求进行权衡。
在传统系统的改造过程中,我们逐步升级。例如,在页面上添加类似 Copilot 的插件,用户可以通过该插件直接进行问答或操作。同时,我们将一些传统的判断逻辑转交给大模型处理,特别是在涉及关键节点的场景。
过去,这些节点依赖代码规则或小模型判断,而现在,大模型可以更好地利用工作流上下文,从而提供更准确的结论。虽然界面变化不大,但系统架构已发生显著变化。
郑岩:
我们在实际选型和采用各种模型时,还会考虑到一个问题:我们不希望模型的种类过于发散。技术团队若要熟悉多种不同模型的能力、风格、架构和部署方法,成本会相当高。
因此,在进行 POC(概念验证)或原型验证时,我们可以适度发散,但在生产环境中,我们更倾向于收敛。
郑岩:从 Open AI 提供 Agent 架构之后,大家都在 Agent 都有创新,在大家各自的领域,Agent 架构有哪些创新?或者实践?
杨浩:
我们自己定义了一套 Agent 体系,并将其分为四个主要部分:感知、决策、执行和反馈。
感知分为主动感知和被动感知。被动感知比较简单,就是用户通过对话给我们的信息。主动感知则是我们在企业内部应用中,通过感知用户的角色、岗位、权限和任务等,来为用户打标签并进行画像。
系统会根据这些信息推荐相关的任务和操作。决策部分涉及到存储和各种决策模型,决策模型帮助 Agent 决定要做什么以及如何做。执行部分则涉及各种工具的调用,比如 API、SQL 等,Agent 通过调度这些工具来完成任务。
我们在反馈链路方面进行了创新。例如,用户遇到问题并认为大模型的回答有误,但如果不做调整,下次用户再问相同问题时,大模型可能仍无法给出正确答案。
为了解决这一问题,我们构建了一个反馈链路,让用户可以格式化地反馈问题,指出模型在某些场景中的不足之处。
我们将这些反馈信息整理成学习知识库,并通过动态调整来优化模型性能。通过这一动态反馈机制,Agent 能够不断学习,逐步提升模型的能力。
郑岩:
可以举一些动态反馈的例子吗?
杨浩:
在智能审核场景中,我们关注每个审核点,如核对税率是否与合同一致。若从合同提取的税率错误,用户可结构化反馈,系统自动生成反馈内容。
收到反馈后,我们会人工确认其质量,确保数据准确无误,再将其加入知识库并定期更新。更新后的模型用于评测历史数据,若准确率提升,经过灰度测试后正式投入使用。最终,模型能像人一样理解并响应反馈,达到智能优化的效果。
郑岩:
不仅让大模型能“听懂人话”,还能让用户参与到大模型的持续演进过程中,形成一个非常有价值的循环。
杨浩: