主要观点总结
本文介绍了智谱在2025中关村论坛上发布的AutoGLM沉思,它是一个具有思考与执行能力的Agent产品,能像人类一样浏览网页、检索分析数据并生成报告。智谱AI CEO张鹏分享了关于模型发展方向、Agent技术、开源策略、商业化路径等问题的观点,包括模型即场景,未来的智能体应用形态将回归以模型为核心的结构等。同时,他也谈到了智谱AI在处理复杂任务时的策略以及未来在Agent领域的规划。
关键观点总结
关键观点1: 智谱AI发布了AutoGLM沉思,是行业中第一个无门槛、免费且人人可用的Agent产品。
智谱AI在发布会上展示了其新的Agent产品AutoGLM沉思,该产品具有思考和执行能力,可以完成浏览网页、检索分析数据并生成报告等任务。这是行业中第一个无门槛、免费且人人都可以使用的Agent产品。
关键观点2: 智谱AI的CEO张鹏分享了关于模型发展方向和Agent技术的观点。
张鹏强调了模型发展方向和Agent技术的重要性,并指出未来的智能体应用形态将回归以模型为核心的结构。他认为,模型能力一旦提升,产品能力就会得到提升,这是一个典型的新应用范式的变化。
关键观点3: 智谱AI在处理文本任务表现良好,但在复杂网页操作(如淘宝搜索)时存在限制。
智谱AI在处理文本任务方面表现良好,但在进行复杂网页操作时,如淘宝搜索,还存在一些限制。张鹏认为这并不是因为网页本身设计不好,而是当前通用Agent产品的能力还存在短板,需要遵循木桶原理,不能有明显的缺项。
关键观点4: 智谱AI未来在Agent领域的规划是遵循完整的AGI发展路线图,强化Agent战略。
张鹏表示,智谱在Agent领域的布局很早,并且遵循完整的AGI发展路线图。今天的发布会并不是战略方向的重大转变,而是Agent技术已经到了应用与落地的关键阶段。未来智谱AI在Agent领域的规划是强化Agent战略,提供更多功能和应用场景。
关键观点5: 智谱AI坚持预训练模型的重要性,并投入大量资源进行技术研发和创新。
尽管现在行业对预训练的关注度有所降低,但张鹏仍然坚持预训练模型的重要性。他表示,预训练仍然是逼近模型天花板的重要途径。智谱AI会坚持投入大量资源进行技术研发和创新,不断探索新的可能性。
正文
提问:Pleias的联合创始人Alexander Doria前段时间说,未来AI智能体的发展方向还得是模型本身,而不是工作流。他还举了Manus的例子,说是它的效果不理想,无法完成复杂的任务,你怎么理解?
张鹏:
我非常同意Alexander Doria的总结。确实未来的新应用形态,尤其是智能体的应用形态,还是会回归到模型上。也是我们一直所倡导的模型即场景的概念,
未来很多的应用会以模型为核心,包上一个很浅的或者很薄的产品化的壳就会变成一个产品。
模型能力一旦提升产品能力就得到提升,
这是很典型的新应用范式的变化。
但是也不可否认的是在当下AGI之路刚刚开始,模型的能力还无法达到完全类比人的水平。当下我们怎么把这些能力落到实际的应用当中去,这是工程上要解决的问题,因为技术的研究需要时间,还是遵循研究的规律。
所以,我理解中间的所有方法,
包括Manus这种产品化、工程化的方法,它是权宜之计,我们折中式的解决方案。
永远是模型进,工程退
。你的技术越先进,需要工程化的事情越简单。所以,终极的目标是当我造出一个像人一样聪明的脑子之后,工程上的事情就比较少,我只需要给它装上手和眼睛就像人一样可以完成很多工作,这是AGI的终极目标。
提问:智谱Agent在处理文本任务表现良好,但在复杂网页操作(如淘宝搜索)时常失败。这是否与中国互联网发展特点有关,我们的移动互联网生态更发达,网页的设计并没有那么完美?这会限制AI能力发展吗?大语言模型作为Agent底座有固有局限,如幻觉问题,且错误可能在推理过程中被放大。你认为好用的Agent必须基于大语言模型吗?
首先第一个并不是因为网页本身设计不好这件事情,我们叫“点儿背不能怪社会”。大部分“人类”都可以用,为什么Agent不能用呢?我们更多思考的是这个问题。
当前的通用Agent的产品,想要落地,要遵循木桶原理,不能有明显的缺项。
为什么Agents会发生找不到输入框的问题?有几个可能,第一个可能是视觉理解能力不如人,泛化能力不够,最终归结为它基础能力的某一个缺项。
Agent要真正有价值,必须全面发展而不能有短板。文本处理、思考、操作、环境理解、工具应用和反复尝试等能力缺一不可,任何明显短板都会导致实用价值大幅下降。所以我们一直坚持所有类型的模型我们都会做,包括语言的、多模态的Agent。
我觉得很重要的一点,你不能怪外面的环境,我们反过来还是要看技术本身发展的缺陷在哪里。
第二个问题,
对于Agent来讲它的底座模型是什么呢?
你可以理解为就是类比人的大脑,大脑的能力是多样化的,
除了思考和推理的能力以外,还会有感知,视觉、听觉和其他的能力
,这些能力都达到一定水平线以上它才会完成一些基本的任务。
所以未来的底座是什么?我们看到AutoGLM是一个产品,背后的模型,今天我们强调的是推理模型。但实际上智能体的所有模型,包括视觉理解,所有的这些东西都已经在这里了。
反过来讲,这是智谱的优势,
不需要东拉西借Agent需要的各种能力,再把它缝合起来
。