当AI创业公司遇困境，能借“Agent化”找到新出路吗？

腾讯科技 · 公众号 · 科技媒体 · 2025-01-08 14:44

主要观点总结

本文回顾了2024年AI Agent的发展情况，包括其应用场景、技术进步和资本关注等方面。文章指出，虽然目前AI Agent还存在不少挑战和问题，但其在垂直领域的应用已经逐渐显现，并获得了资本的青睐。文章预测，未来AI Agent将朝着更加智能化、自主化的方向发展，并在医疗、教育等领域发挥重要作用。同时，多模态交互和群体协作等模式也将成为AI Agent的重要发展方向。

关键观点总结

关键观点1: AI Agent在2024年取得了哪些进展

AI Agent在多个领域得到应用，如编程、问卷调查和分析、软件质量测试、政府合同竞标、客户支持、人才招聘等。同时，AI Agent的技术也取得了进步，如记忆机制、Tool use能力等方面的突破。

关键观点2: AI Agent当前面临哪些挑战

AI Agent目前仍存在不少挑战，如性能质量、用户信任等问题。同时，如何在垂直领域跑出“种子选手”，如何平衡性能、可靠性和用户信任，也是AI Agent需要面对的问题。

关键观点3: 未来AI Agent的发展趋势

未来AI Agent将朝着更加智能化、自主化的方向发展，并可能在医疗、教育等领域发挥重要作用。同时，多模态交互和群体协作等模式也将成为AI Agent的重要发展方向。AI Agent有望带来独属于AI 2.0时代的交互方式、产品形态和商业模式。

正文

请到「今天看啥」查看全文

冷静的现实：当我们在谈论AI Agent时，到底是在谈论什么？

如果只看到上述的热闹景象，你大概会得出结论——2024年是AI Agent的当打之年。

但用户能够真正依赖的AI Agent，其实寥寥无几。

只需花3秒钟思考——你喜欢用哪几款AI Agent？如果你是程序员，答案可能只是Cursor。如果我们换个问题——你喜欢用哪几款AI大模型？答案会五花八门，比如ChatGPT、Gemini、Claude、Kimi等等。

至少从实感来说，目前大热的AI Agent仍是“虚火”。

主因是“不靠谱”和“鸡肋”。 AI Agent依赖LLM“黑盒”，本身就存在不可预测性，而工作流程更是要将多个AI 步骤连接起来，会加剧这些问题，尤其是对于需要精确输出的任务。用户难以确保Agent能否始终提供准确、符合上下文的响应。

LangChain发布的State of AI Agents可以作为重要参考。其调查涉及的1300多位受访者指出，性能质量（41%）是首要关注点，重要性远超成本（18.4%）和安全（18.4%）等因素。甚至对于向来格外关注成本的小企业而言，其中45.8%将性能质量列为主要关注点，成本因素仅为22.4%。同时，报告指出，生产中采用AI Agents的主要挑战包括：开发人员很难向团队和利益相关者解释 AI Agent 的功能和行为。

此外，虽然AI Agent依赖的基座LLMs在Tool use方面表现不错，但它们速度不快且成本高，特别是需要进行循环和自动重试时。WebArena 排行榜对 LLM智能体在现实任务中的表现进行了基准测试。结果显示，即便是表现最好的模型SteP，成功率也只有35.8%，而GPT-4的成功率仅达到14.9%。

那么，市面上不能“完全自理”的AI Agent算得上Agent吗？

如果我们按吴恩达的思路就很好理解了——AI Agent是可以分层级的。他提出了Agentic System（智能体系统），并认为形容词“Agentic”比名词“Agent”能更好地帮助我们理解这类智能体的本质。如同自动驾驶汽车L1-L4，Agent的进化也是一个过程。

BabyAGI创始人Yohei Nakajima对于AI Agent的分类，同样值得参考。

1、手工制作Agent：由 Prompt和API 调用组成的链条，具有一定自主性，但约束较多。

特征：流水线机器人，按照固定步骤完成任务。

举例：它就像一个专门订票的助手——当你告诉航班需求时，它能够直接调用API搜索并完成预订；然而一旦涉及复杂行程规划，手工制作Agent就会“卡住”（欢迎大家代入产品）。

2、专业Agent：在一组任务类型和工具内动态决定要做什么，比手工制作Agent约束少。

特征：娴熟工匠，能够在特定领域（比如木工）熟练地使用工具，不仅能按照要求制作家具，还能根据实际需求调整设计，调用材料。

举例：AutoGPT通过CoT技术分解复杂问题，动态选择最优解决路径。面对一个市场研究任务，AutoGPT能自动分解任务为“搜索趋势”“整理数据”“生成报告”等子任务并完成。

3、通用Agent：Agent的AGI——目前还处于理论概念阶段，尚未实现。

特征：全能助手，就像钢铁侠的Jarvis。你可以询问它任何问题，它不仅能理解你的需求，还能结合知识和环境动态适应，提供创新解决方案。

举例：还没有真正能实现的产品，相关研究包括更强的多模态交互和长期记忆优化。

处于当前的历史节点，Prompt Agent数量最多，表现为大模型APP里的遍地Agent；垂直领域的专业Agent正处于爆点，并因其实用性备受资本青睐；人类所期待的真正Agent——全能助手Jarvis，有待关键技术突破。这也意味着未来一段时间内，我们能看到更多“L1-L4”之间的技术进化。

这一年AI Agent“皮下”技术进化到哪儿了？

根据Lilian Weng列举的公式：Agent = LLM+Memory+Planning skills+Tool use

假设你是黑暗料理界的“五虎星”。LLM代表你的知识储备，包含所有菜系菜谱；Memory类似于你的厨师笔记，记录着不同食客的口味需求，输给“小当家”的历史教训；Planning好比你的做菜规划，面对不同要求，是先炸再烤，还是先煮再炸；Tools则是你的魔法厨具，包括如何调用不同刀具（软件），帮助执行复杂的任务。

AI Agent的突破取决于各项技术的进步。

首先是LLM。在GPT5这样的强悍“大脑”出现之前，OpenAI就发现了推理引擎的能力。

2024年10月，OpenAI高级研究科学家、德扑AI之父Noam Brown提出：让AI模型思考20秒所带来的性能提升，相当于将模型扩大100,000倍并训练100,000倍的时间。

Brown所指的技术便是System 1/2 thinking，正是OpenAI o1长出“推理能力”的秘诀。

System 1，即“快思考”，你看到一只苹果，不需要思考，就知道这是水果；System 2，即“慢思考”，你要做一道17*24的数学题，则需拆解步骤来思考，答案才更准确。

近期，谷歌DeepMind研究人员也将这项技术集成到AI Agent中，并开发了Talker-Reasoner框架。System 1是默认运行的“快速模式”，而System 2作为“备用引擎”随时待命。当System 1感到困惑时，会将任务交给System 2处理。“双引擎”共同运行，对于解决复杂、冗长的任务帮助巨大，突破了传统AI Agent执行业务流程的方法，极大提升了效率。

其次是记忆机制。当生成式AI开始“胡言乱语”，或许不是性能问题，而是记忆力不佳。这时候就需要RAG（检索增强型生成）来帮忙。它是LLM“外挂”般的存在，能够利用外部知识库为LLM提供相关上下文，防止LLM不懂装懂。

然而，传统RAG流程只考虑一个外部知识源，不能调用外部工具；仅生成一次性解决方案，上下文只检索一次，不能进行推理或验证。

在此情况下，融合Agent能力的RAG应运而生。虽然Agentic RAG在整体流程上与传统RAG一脉相承：检索-合成上下文-生成，但其融入了Agent自主规划能力，能够适应更加复杂的RAG查询任务——决定是否需要检索；自主决策使用哪个检索引擎自主规划使用检索引擎的步骤；评估检索到的上下文，并决定是否重新检索；自行规划是否需要借助外部工具。

如果说，原始RAG是坐在图书馆查看特定问题；那么，Agentic RAG就像拿着iPhone，调用Google浏览器、电子邮件等等搜索问题。

此外，2024年YC孵化的开源Mem0项目，也有望成为RAG助手，并为AI Agent插上个性化记忆的翅膀。

Mem0像是大脑的“海马体”，为LLM提供了一个智能、自我优化的记忆层。它能进行信息分层存储——将短时信息转化为长期记忆。类似于，你会整理“新学知识”，而后存入脑海；它还能建立语义链接——通过语义分析为存储的知识创建关联网络。类似于，你告诉 AI自己喜欢看侦探电影，它不仅能记住，还会推测你可能喜欢的犯罪纪录片。