AI Agent 的工程化被低估了

阿里云开发者 · 公众号 · 科技公司 · 2025-06-17 18:00

主要观点总结

本文梳理了AI Agent工程化的核心模块与关键路径，包括产品工程和技术工程的目标及实现方式，后台逻辑确定性、流量与用户访问控制的重要性，以及日志与监控在AI应用中的特殊意义。同时，文章还提到了工程化对整个行业演进的影响和构建稳定可靠的应用基建的必要性。

关键观点总结

关键观点1: AI Agent工程化的核心模块

包括产品工程（满足用户需求和产品哲学，实现AI的可用性和易用性）和技术工程（验证产品功能，提高系统稳定性、启动速度、扩展性和清晰度）。

关键观点2: 后台逻辑确定性与流量、用户访问控制的重要性

流量和用户访问控制是保障AI Agent可用性和防止滥用的关键。通过限流、用户访问控制策略，确保系统的稳定性和安全性。

关键观点3: 日志与监控在AI应用中的特殊意义

AI应用的调试和跟踪面临更大的挑战，需要关注响应合理性、一致性、偏差、幻觉等语义层面的可观测目标，构建全栈的可观测数据平台。

关键观点4: 工程化对行业演进的影响

AI Agent工程化的推进需要整个行业的共同努力，构建稳定可靠、易于复用的应用基建，推动形成面向大模型的新一代“应用供应链”生态。

正文

请到「今天看啥」查看全文

用户在 Manus 执行任务过程中，可以随时关闭设备或追加指令，Manus 会根据新的指令调整任务执行流程。

这种设计要求在需求建模中考虑人机交互的灵活性和可控性，确保用户在协作过程中具有足够的控制权。

这种需求建模的方式类似于将用户的任务流程分段，并找出 AI 最擅长、最值得介入的环节，既避免了“大而泛”，又让用户第一时间感受到效率提升。

就像设计微服务的服务边界，哪些职责是订单单元负责，哪些职责是用户库存单元负责，AI 应用中，一样需要明确功哪些是 AI 负责的，哪些是业务逻辑兜底的，这些都将直接决定应用的最终体验。

2、UI/UX 设计

AI Agent 不同于传统软件，它的输出常常是不确定的、延迟的、难预测的，这也意味着 UI/UX 设计不仅是“界面美观”，更是对用户心理与行为节奏的把握。

举个例子，DeepSeek 首次将大模型的“思考过程“可视化，在生成响应前，会展示模型的思维链，让用户知道：AI 并非乱猜，而是有逻辑地在思考。用户不再被动接受结果，而是参与思考过程，建立共同解题的伙伴关系。

这种设计有效提升了用户的信任度与接受度，尤其在多步骤任务、复杂文档总结、跨信息引用的场景。

目前，“渐进式信息呈现”、“思路可视化”、“结果结构化”等交互策略已经成为 AI Agent 的标配。用户可以查看调用链路、追踪引用来源等。甚至，Qwen 还提供了引用来源的删除选项，进一步降低了不可信互联网来源导致的幻觉。

3、系统提示词

系统提示词（System Prompt）是 AI Agent 开发者预设的一组指令或约束，用于定义模型在特定应用场景中的行为框架、角色设定、交互风格和输出规则。它与用户在前端直接输入的查询（User Prompt）不同，属于更底层的控制机制，对模型输出内容的质量、风格、一致性和安全性具有决定性影响。其核心构成要素通常包括：角色定义、行为约束、任务导向以及上下文管理。[4]

举个例子，NotebookLM 的核心理念是：用户上传自己的资料，而 AI 助理基于这些资料回答问题、提供建议，充当“可信任的知识顾问”，赋能用户进行更高效、更智能的学习与研究活动。

这种产品定位决定了， NotebookLM 背后的系统提示词不仅要完成基础的语言引导，还要实现更复杂的任务指令与安全约束。我们可以从几个关键维度来拆解其系统提示词设计思路：

1. 角色定义：你是我的研究助理

NotebookLM 的系统提示词会将模型设定为“文档知识顾问”，强调它只能根据用户上传的笔记、PDF、网页等提供答案。这一点非常关键，它确保了模型的回答不会随意“发挥”或引入幻觉信息，而是始终围绕用户提供的内容展开。

prompt你是一个研究助手，你的职责是帮助用户理解他们上传的文档内容，回答问题时仅引用这些资料，不做主观推测。

这种角色设定不仅控制了模型的输出范围，也让用户心理上更容易信任回答的来源。

2. 行为约束：引用并注明资料

NotebookLM 强调答案必须「引用资料出处」，这就需要系统提示词明确要求模型在回答时附上对应文档和段落链接。开发者通常会在提示词中加入这样的约束：

prompt在回答每一个问题时，引用文档中相关段落，并用 markdown 格式列出其标题与段落索引。

这使得用户在阅读模型回答时，可以随时回溯验证来源，形成良好的可追溯体验。对 AI 输出质量的信任，往往来自于这种“有出处”的设计。

3. 任务导向：以提问为驱动的内容生成

NotebookLM 不仅回答问题，还支持结构化内容生成，如自动总结文档、生成研究大纲等。每种任务模式都会使用不同的系统提示词。例如，在总结模式下，提示词可能这样引导模型：

prompt请根据用户提供的文档，提炼出 5 个最重要的观点，并逐条列出，语言风格保持客观、中性，不做扩展解释。

任务导向的 Prompt 编排，已经超越了传统“对话式问答”的范畴，像是一种“任务脚本”，为多模态的 AI 应用埋下能力基础。

4、反馈闭环

没有哪个 AI Agent，输出的内容一开始就是准的。现实的情况是它在某些输入下表现不佳、在某些数据下语义偏差，这时就需要收集“失败案例”，形成从输入到评估的闭环。

比如 Monica 的记忆功能，当用户浏览推荐的记忆条目时，若点击了“采纳为事实”，这些内容就会写入记忆数据库，供后续对话中调用；而用户不采纳的，则不会被强记。这种“反馈 → 选择性吸收 → 下一轮调优”的机制，就是对传统 Prompt + Chat 模式的增强。

Monica 会通过用户特征的持续学习，提升需求理解的精度和响应准确性。本质是在对话式交互中重建了上下文感知机制。就好像人与人之间交流，相处时间越长，越熟悉彼此，越能理解对方所表达的。

二、技术工程（Technical Engineering）

目标：让 AI 背后那套系统启动的快、跑得稳、扩得动、看得清