吴恩达评Agent现状：MCP尚处“蛮荒”，单Agent跑通已是“奇迹”，A2A协作堪称“双重奇迹”

InfoQ · 公众号 · 科技媒体 · 2025-05-31 10:41

正文

请到「今天看啥」查看全文

吴恩达： 我觉得最大的挑战在于：很多业务流程里，牵涉到的是合规、法务、人力等团队的具体操作。那你要怎么构建一个“管道”把这些流程数字化？是用 LangGraph 做集成？还是看看 MCP 是否也能帮助实现？

一个很重要但常被忽略的点是：要搭建一个正确的 Eval（评估）体系，不只是评估整个系统的效果，还要能追踪每一步骤，这样你才能快速定位“是哪一步坏了”，“是哪个 Prompt 没有发挥作用”。很多团队在这个过程中可能进展比应有的慢——他们一直靠人手评估，每次改完 Prompt，就一个个看输出，人工判断，这会极大影响效率。

我认为，构建系统性评估机制是最理想的方式。但问题是，很多团队还没有这种“下一步该做什么”的直觉。技能不足的团队经常会走进“死胡同”——比如花几个月去优化一个永远也做不好的组件。而经验丰富的团队会说：“这个方案我们放弃吧，换一条路线。”

我希望我能总结出更高效的方式，教会大家这种“经验性判断”，因为很多时候你必须在几分钟甚至几小时内，看着 LangChain 的 Trace 输出、判断当前状态，然后迅速做出决策，而这仍然是非常困难的。

2 从工具到体系：AI 系统构建进入模块化时代

Harrison Chase：你认为这种“经验性判断”，更多是和 LLM（大模型）本身的限制有关，还是更偏向产品结构、任务拆解这些“构建能力”？

吴恩达： 我觉得两者都有。过去几年，AI 工具公司构建了一套非常强大的工具体系，包括 LangGraph 在内。你可以思考如何实现 RAG，如何构建聊天机器人，如何做记忆系统、构建 Eval、加上 Guardrails 等等。

我经常会用一个类比：如果你手上只有一种颜色的乐高积木，比如只有紫色的，你其实很难拼出复杂的结构。但现在我们有了更多类型的“积木”工具：红的、黑的、黄的、绿的，各种形状和功能。 你拥有的积木越丰富，组装成复杂结构的能力就越强。

我们提到的那些 AI 工具，它们其实是不同形状的“乐高积木”。在构建系统时，你可能就正好需要那个“弯曲奇怪形状的那一块”， 有经验的人知道用哪一块，能迅速完成任务。但如果你从没做过某种类型的 Eval，可能会因此多花三个月时间，走弯路 。而有经验的人会直接说：“我们用 LLM 做 Judge，评估方式换成这个，三天就能搞定。”

这也是 AI 比较“残酷”的地方之一——它不是一个工具能解决所有问题。写代码时，我自己也会用一堆不同的工具。我不能说自己精通每一个，但我熟悉足够多，可以快速组合。而且，工具之间的变化也很快。例如，随着 LLM 的上下文长度持续增加， 一年半前的很多 RAG 最佳实践，今天可能就不适用了。

我记得 Harrison 在这方面很早就开始探索了，比如早期的 LangChain RAG 框架、递归摘要等。而现在，由于上下文窗口扩大了，我们可以往里面直接塞入更多信息。RAG 并没有消失，但调参难度已经大大降低——现在有一大段“都还行”的参数区间。

所以，随着 LLM 的持续进化，我们两年前的一些直觉，有些可能就已经不再适用了。

Harrison Chase：有哪些“乐高积木”组件是现在被低估了，但你会推荐大家去关注的？

吴恩达： 虽然大家现在都在谈论评估这件事，但很多人其实并没有真正去做。我不太明白为什么不做，可能是因为大家通常认为写一个评估系统是一项巨大而严谨的任务。但我自己是把评估当成一个可以在 20 分钟内快速搭起来的小工具，可能做得不够完美，但可以作为我人工 Eyeball（眼球）评估的补充。

经常会发生这样的事：我构建了一个系统，然后某个问题不断出现。我以为修好了，它又坏了，再修好，又坏了。这时候我就会写一个非常简单的评估，可能只包含五个输入样例，用一些非常基础的 LLM 作为评审，只针对这个特定的回归问题做检测——比如“这个地方是不是又坏了”。我并不会完全用自动化评估取代人工评估，还是会亲自看输出。但这个简单的评估可以帮我减轻一点负担，自动跑一下，让我不用每次都手动去检查。

然后会发生什么呢？就像我们写论文一样，一开始只是搭一个非常简陋、明显有缺陷的评估系统。但等你有了初版，你会想“其实我可以改进它”，然后就开始迭代优化。很多时候我就是从一些糟糕透顶、几乎没什么帮助的评估开始做起的。然后随着你查看它的输出，你会发现“这个评估系统是坏的，但我可以修好它”，就慢慢让它变得更好。

另一个我想提的点是，虽然大家也讨论得挺多，但我觉得还远远被低估的，是 Voice stack（语音技术栈）。这是我非常感兴趣的领域，我身边很多朋友也很看好语音应用。我们也看到不少大型企业对语音技术极其感兴趣，而且是规模很大的企业、使用场景也很大。

虽然这个社区里也有一些开发者在做语音，但开发者的关注度相比这些企业的关注度还是小得多。而且我们说的也不仅仅是实时语音 API，也不只是 Speech-to-text 那类原生音频模型——因为那种模型往往很难控制。我更喜欢一种基于 Agentic 工作流的语音技术栈，它更容易控制。我最近在和很多团队一起做语音栈相关的项目，有些希望很快能对外公布。

还有一个可能不算“被低估”，但我认为更多企业应该去做的事情是——让开发者使用 AI 辅助编程。很多人应该都见过，使用 AI 辅助的开发者效率远远高于不使用的开发者。但我还是看到很多公司，尤其是 CIO、CTO 们，还制定了一些政策，不允许工程师用 AI 编程工具。我知道有时也许是出于合理原因，但我觉得我们需要尽快突破这个限制。坦白讲，我和我的团队，已经完全无法想象在没有 AI 帮助的情况下写代码了。但现在还有很多企业需要接受和适应这一点。

还有一个被低估的观点是，我觉得“每个人都应该学一点编程”。我们 AI Fund 的一个有趣事实是：我们公司每个人都会写代码，包括前台接待、CFO、法务总顾问……所有人都会写。不是说我希望他们成为软件工程师，但在自己的岗位上，他们通过学一点点代码，能够更清晰地告诉计算机他们想做什么。这带来了各个非工程岗位的显著生产力提升，这个现象我也觉得挺令人激动。