不再“纸上谈兵”：大模型能力如何转化为实际业务价值

AI前线 · 公众号 · AI · 2025-05-15 14:45

正文

请到「今天看啥」查看全文

最终还是需要人工核查吧？

杨浩： 当大模型的准确率足够高并且稳定时，某些场景我们已经能够实现无人值守。

吴昊宇： 在我们做营销时，很多时候并不是单纯关注钱的问题。我们对接了许多跨国公司，在这些公司里，中国区更加注重创新，如果实现了一个好的 AI 应用，它可能成为总部认可的机会，从而在总部获得更大的支持。

我们与一家医药客户合作，帮助他们的内部咨询部门关注一线人员的满意度。这个医药公司有大量的业务代表需要与医生接触，但因为医学专业性强，一线代表往往不敢直接提问，特别是担心问得多了会被视为不专业。

因此，我们帮助他们创建了一个基于知识库的应用，除了查询功能外，还包括内部培训和考试。经过这一套培训和练习后，他们的一线代表开始变得更加自信，敢于与医生沟通，见面的频率也有所增加，这对他们的销售工作帮助巨大。

技术落地

郑岩：在选择大模型技术路线时，不同业务场景对模型能力的侧重点可能完全不同，能否结合各位的实践，分享一下技术选型时的优先级考量？在改造传统系统时，各位是选择“颠覆重构”还是“渐进升级”？

杨浩： 不同版本的模型适用于不同的需求。选择模型时，我们主要考虑三个因素：首先，场景的重点是侧重推理还是生成；其次，上下文的长度，一些场景需要处理长上下文，而其他场景可能只需要短上下文；最后，响应性能。在某些场景中，高性能响应是必须的，特别是深度思考的模型常常响应迟缓，可能需要几秒到几分钟才开始返回结果，这在某些应用中是不可接受的。

另外，关于选择颠覆重构还是渐进升级，也需根据具体场景分析。AI 应用有三种范式：AI Embedding、AI Copilot 和 AI Agent。其中，前两者偏向渐进升级，AI Agent 则偏向颠覆重构。

尤其是在财务领域，第三种模式（AI Agent）占据了大部分比重，可能超过 50%。从 2023 年下半年开始，我们先进行了一些 AI 嵌入的工作，将 AI 能力融入现有财务体系中。

用户并未感知到这是 AI 应用，只是看到了自动化的流程。比如在界面的右下角弹出一个机器人，用户可以与其交互进行智能分析、审核等任务。对于 AI Agent，我们正在定义数字员工，实际上是在重新构建整个财务系统的入口，这属于颠覆重构的方式。

郑岩： 财务体系相对其他业务领域，数字化成熟度是比较高的。如何在如此成熟的数字化体系中，深度采用 AI 且以超过 50% 的比例进行重构，如何确保业务能够适应这些变化？

杨浩： 财务领域确实有很多子领域，每个子领域基本上都有后台管理系统。在新的 AI Agent 模式下，我们设计了一个 AI Native 的财务体系，提供统一的入口，后端连接各个子系统，并且这些不同领域的 Agent 通过协议进行通信。

从业务角度来看，用户不再关注各个系统的功能，而是关注自己的业务需求。我们内部提出的口号是“从做功能到做服务”，举例来说，报销和报账是每个公司都会涉及的内容。

传统的系统需要用户手动处理提单、审核结算等复杂流程，而现在我们的系统只需要用户简洁地输入一句话，比如“我要报一个账”，并上传发票，后续的提单和审核等流程系统会自动完成，这是对用户体验的一次重要变革。

吴昊宇 ：对于营销类客户，他们更加关注模型是否能够从多样化的材料中挖掘出相关信息。例如，若客户查询草莓相关内容，但历史报告只包含蓝莓数据，严格排除蓝莓内容可能导致无法提供有用信息。

因此，模型需要具备一定的灵活性。而对于医疗客户，他们对准确性、引用的精确性以及可解释性要求非常高。在这种情况下，模型必须严格按照原文回答，不能自行生成或引用其他知识。

在推理模型的应用中，处理报告和问答时，我们首先进行发散性推理，探索用户可能的需求和相关问题，但在回答时，必须确保模型的高准确性，避免过多的推理。这些差异决定了模型选择时需要根据客户需求进行权衡。

在传统系统的改造过程中，我们逐步升级。例如，在页面上添加类似 Copilot 的插件，用户可以通过该插件直接进行问答或操作。同时，我们将一些传统的判断逻辑转交给大模型处理，特别是在涉及关键节点的场景。

过去，这些节点依赖代码规则或小模型判断，而现在，大模型可以更好地利用工作流上下文，从而提供更准确的结论。虽然界面变化不大，但系统架构已发生显著变化。

郑岩： 我们在实际选型和采用各种模型时，还会考虑到一个问题：我们不希望模型的种类过于发散。技术团队若要熟悉多种不同模型的能力、风格、架构和部署方法，成本会相当高。

因此，在进行 POC（概念验证）或原型验证时，我们可以适度发散，但在生产环境中，我们更倾向于收敛。

郑岩：从 Open AI 提供 Agent 架构之后，大家都在 Agent 都有创新，在大家各自的领域，Agent 架构有哪些创新？或者实践？

杨浩： 我们自己定义了一套 Agent 体系，并将其分为四个主要部分：感知、决策、执行和反馈。

感知分为主动感知和被动感知。被动感知比较简单，就是用户通过对话给我们的信息。主动感知则是我们在企业内部应用中，通过感知用户的角色、岗位、权限和任务等，来为用户打标签并进行画像。

系统会根据这些信息推荐相关的任务和操作。决策部分涉及到存储和各种决策模型，决策模型帮助 Agent 决定要做什么以及如何做。执行部分则涉及各种工具的调用，比如 API、SQL 等，Agent 通过调度这些工具来完成任务。

我们在反馈链路方面进行了创新。例如，用户遇到问题并认为大模型的回答有误，但如果不做调整，下次用户再问相同问题时，大模型可能仍无法给出正确答案。

为了解决这一问题，我们构建了一个反馈链路，让用户可以格式化地反馈问题，指出模型在某些场景中的不足之处。

我们将这些反馈信息整理成学习知识库，并通过动态调整来优化模型性能。通过这一动态反馈机制，Agent 能够不断学习，逐步提升模型的能力。

郑岩： 可以举一些动态反馈的例子吗？

杨浩： 在智能审核场景中，我们关注每个审核点，如核对税率是否与合同一致。若从合同提取的税率错误，用户可结构化反馈，系统自动生成反馈内容。

收到反馈后，我们会人工确认其质量，确保数据准确无误，再将其加入知识库并定期更新。更新后的模型用于评测历史数据，若准确率提升，经过灰度测试后正式投入使用。最终，模型能像人一样理解并响应反馈，达到智能优化的效果。

郑岩： 不仅让大模型能“听懂人话”，还能让用户参与到大模型的持续演进过程中，形成一个非常有价值的循环。

杨浩：