主要观点总结
本文回顾了2024年AI Agent的发展情况,包括其应用场景、技术进步和资本关注等方面。文章指出,虽然目前AI Agent还存在不少挑战和问题,但其在垂直领域的应用已经逐渐显现,并获得了资本的青睐。文章预测,未来AI Agent将朝着更加智能化、自主化的方向发展,并在医疗、教育等领域发挥重要作用。同时,多模态交互和群体协作等模式也将成为AI Agent的重要发展方向。
关键观点总结
关键观点1: AI Agent在2024年取得了哪些进展
AI Agent在多个领域得到应用,如编程、问卷调查和分析、软件质量测试、政府合同竞标、客户支持、人才招聘等。同时,AI Agent的技术也取得了进步,如记忆机制、Tool use能力等方面的突破。
关键观点2: AI Agent当前面临哪些挑战
AI Agent目前仍存在不少挑战,如性能质量、用户信任等问题。同时,如何在垂直领域跑出“种子选手”,如何平衡性能、可靠性和用户信任,也是AI Agent需要面对的问题。
关键观点3: 未来AI Agent的发展趋势
未来AI Agent将朝着更加智能化、自主化的方向发展,并可能在医疗、教育等领域发挥重要作用。同时,多模态交互和群体协作等模式也将成为AI Agent的重要发展方向。AI Agent有望带来独属于AI 2.0时代的交互方式、产品形态和商业模式。
正文
-
冷静的现实:当我们在谈论AI Agent时,到底是在谈论什么?
如果只看到上述的热闹景象,你大概会得出结论——2024年是AI Agent的当打之年。
但用户能够真正依赖的AI Agent,其实寥寥无几。
只需花3秒钟思考——你喜欢用哪几款AI Agent?如果你是程序员,答案可能只是Cursor。如果我们换个问题——你喜欢用哪几款AI大模型?答案会五花八门,比如ChatGPT、Gemini、Claude、Kimi等等。
至少从实感来说,目前大热的AI Agent仍是“虚火”。
主因是“不靠谱”和“鸡肋”。
AI Agent依赖LLM“黑盒”,本身就存在不可预测性,而工作流程更是要将多个AI 步骤连接起来,会加剧这些问题,尤其是对于需要精确输出的任务。用户难以确保Agent能否始终提供准确、符合上下文的响应。
LangChain发布的State of AI Agents可以作为重要参考。其调查涉及的1300多位受访者指出,
性能质量(41%)是首要关注点,重要性远超成本(18.4%)和安全(18.4%)等因素。
甚至对于向来格外关注成本的小企业而言,其中45.8%将性能质量列为主要关注点,成本因素仅为22.4%。同时,报告指出,生产中采用AI Agents的主要挑战包括:开发人员很难向团队和利益相关者解释 AI Agent 的功能和行为。
此外,虽然AI Agent依赖的基座LLMs在Tool use方面表现不错,但它们速度不快且成本高,特别是需要进行循环和自动重试时。WebArena 排行榜对 LLM智能体在现实任务中的表现进行了基准测试。结果显示,即便是表现最好的模型SteP,成功率也只有35.8%,而GPT-4的成功率仅达到14.9%。
那么,市面上不能“完全自理”的AI Agent算得上Agent吗?
如果我们按吴恩达的思路就很好理解了——AI Agent是可以分层级的。
他提出了Agentic System(智能体系统),并认为形容词“Agentic”比名词“Agent”能更好地帮助我们理解这类智能体的本质。如同自动驾驶汽车L1-L4,Agent的进化也是一个过程。
BabyAGI创始人Yohei Nakajima对于AI Agent的分类,同样值得参考。
1、手工制作Agent:由 Prompt和API 调用组成的链条,具有一定自主性,但约束较多。
举例:它就像一个专门订票的助手——当你告诉航班需求时,它能够直接调用API搜索并完成预订;然而一旦涉及复杂行程规划,手工制作Agent就会“卡住”(欢迎大家代入产品)。
2、专业Agent:在一组任务类型和工具内动态决定要做什么,比手工制作Agent约束少。
特征:娴熟工匠,能够在特定领域(比如木工)熟练地使用工具,不仅能按照要求制作家具,还能根据实际需求调整设计,调用材料。
举例:AutoGPT通过CoT技术分解复杂问题,动态选择最优解决路径。面对一个市场研究任务,AutoGPT能自动分解任务为“搜索趋势”“整理数据”“生成报告”等子任务并完成。
3、通用Agent:Agent的AGI——目前还处于理论概念阶段,尚未实现。
特征:全能助手,就像钢铁侠的Jarvis。你可以询问它任何问题,它不仅能理解你的需求,还能结合知识和环境动态适应,提供创新解决方案。
举例:还没有真正能实现的产品,相关研究包括更强的多模态交互和长期记忆优化。
处于当前的历史节点,Prompt Agent数量最多,表现为大模型APP里的遍地Agent;垂直领域的专业Agent正处于爆点,并因其实用性备受资本青睐;人类所期待的真正Agent——全能助手Jarvis,有待关键技术突破。这也意味着未来一段时间内,我们能看到更多“L1-L4”之间的技术进化。
根据Lilian Weng列举的公式:Agent = LLM+Memory+Planning skills+Tool use
假设你是黑暗料理界的“五虎星”。LLM代表你的知识储备,包含所有菜系菜谱;Memory类似于你的厨师笔记,记录着不同食客的口味需求,输给“小当家”的历史教训;Planning好比你的做菜规划,面对不同要求,是先炸再烤,还是先煮再炸;Tools则是你的魔法厨具,包括如何调用不同刀具(软件),帮助执行复杂的任务。
首先是LLM。
在GPT5这样的强悍“大脑”出现之前,OpenAI就发现了推理引擎的能力。
2024年10月,OpenAI高级研究科学家、德扑AI之父Noam Brown提出:让AI模型思考20秒所带来的性能提升,相当于将模型扩大100,000倍并训练100,000倍的时间。
Brown所指的技术便是System 1/2 thinking,正是OpenAI o1长出“推理能力”的秘诀。
System 1,即“快思考”,你看到一只苹果,不需要思考,就知道这是水果;System 2,即“慢思考”,你要做一道17*24的数学题,则需拆解步骤来思考,答案才更准确。
近期,谷歌DeepMind研究人员也将这项技术集成到AI Agent中,并开发了Talker-Reasoner框架。System 1是默认运行的“快速模式”,而System 2作为“备用引擎”随时待命。当System 1感到困惑时,会将任务交给System 2处理。“双引擎”共同运行,对于解决复杂、冗长的任务帮助巨大,突破了传统AI Agent执行业务流程的方法,极大提升了效率。
其次是记忆机制。
当生成式AI开始“胡言乱语”,或许不是性能问题,而是记忆力不佳。这时候就需要RAG(检索增强型生成)来帮忙。它是LLM“外挂”般的存在,能够利用外部知识库为LLM提供相关上下文,防止LLM不懂装懂。
然而,传统RAG流程只考虑一个外部知识源,不能调用外部工具;仅生成一次性解决方案,上下文只检索一次,不能进行推理或验证。
在此情况下,融合Agent能力的RAG应运而生。虽然Agentic RAG在整体流程上与传统RAG一脉相承:检索-合成上下文-生成,但其融入了Agent自主规划能力,能够适应更加复杂的RAG查询任务——决定是否需要检索;自主决策使用哪个检索引擎自主规划使用检索引擎的步骤;评估检索到的上下文,并决定是否重新检索;自行规划是否需要借助外部工具。
如果说,原始RAG是坐在图书馆查看特定问题;那么,Agentic RAG就像拿着iPhone,调用Google浏览器、电子邮件等等搜索问题。
此外,2024年YC孵化的开源Mem0项目,也有望成为RAG助手,并为AI Agent插上个性化记忆的翅膀。
Mem0像是大脑的“海马体”,为LLM提供了一个智能、自我优化的记忆层。它能进行信息分层存储——将短时信息转化为长期记忆。类似于,你会整理“新学知识”,而后存入脑海;它还能建立语义链接——通过语义分析为存储的知识创建关联网络。类似于,你告诉 AI自己喜欢看侦探电影,它不仅能记住,还会推测你可能喜欢的犯罪纪录片。