正文
基于大语言模型构建真正智能体成为一个可行路径。智能体与环境交互的关键在于感知输入、推理决策和产生输出。大语言模型既可以作为中枢大脑,又可以通过扩展实现感知行动。构建基于大语言模型的智能体框架,使其既具备语言智能,又具备实际交互能力,是当前的一个前沿课题。本文尝试进行全面的讨论分析,以推动该课题的进一步发展。
2 背景
2.1 智能体的起源
智能体的起源可以上溯到古希腊哲学思想,经历了计算机科学领域的不同发展阶段。智能体强调主动性,推动了人工智能向更高层次发展。
智能体在哲学上有悠久的渊源,早在公元前苏格拉底、柏拉图时期就有类似概念。后来休谟、康德等哲学家进一步探讨了主体性和能动性等相关概念。这些思想奠定了智能体的学术基础。
20世纪50年代,著名科学家图灵在提出机器智能的测试方法时,引入了智能体相关概念,将其引入计算机科学和人工智能领域。但长期以来,主流研究更关注狭义的技术问题。直到1980年代,智能体才真正成为人工智能的核心概念之一。
智能体不同于被动接受输入的非智能对象,更强调主体的自主性、目标性、主动性和社交性等方面的能动特征。智能体的提出极大推动了人工智能研究向更高层次发展,成为实现更强人工智能的重要前提。
2.2 代理研究的技术趋势
智能体技术经历了符号主义、连接主义、数学分析等多个发展阶段。大型神经语言模型为智能体注入新的活力。
智能体技术发展经历了多个里程碑事件。早期的符号主义依赖于符号逻辑体系,采用规则推理方式,但应对不确定性问题时显得捉襟见肘。后来统计学习方法和神经连接主义崛起,使智能体向学习、适应方向发展。
近些年深度学习和深度强化学习的融合为智能体带来更好的感知学习能力。Alpha Go的成功就是一个典型例子。随着大数据和计算能力的提升,大型神经语言模型也日渐成熟,为构建新一代智能体提供了巨大动力。
目前大语言模型已经开始被探索应用于智能体构建,并取得一些初步成功。这为智能体注入了新的活力,推动该领域向更智能的方向迈进。智能体技术仍处在快速发展阶段,大语言模型带来的革新还有待持续探索。
2.3 为什么大语言模型适合作为代理大脑的主要组件
相比传统方法,大语言模型具有语言理解生成、知识学习、复杂推理、自主学习等人工智能必需的核心能力。
相比其他方法,大语言模型具备以下核心能力,使它非常适合作为构建智能体大脑的基础:
-
强大的语言理解生成能力。这是与人类交互的基础。
-
在多语种、多领域内联进行知识学习和积累的能力。
-
存储、检索过往知识的记忆能力。
-
根据当前目标进行复杂推理规划的能力。
-
基于已有知识快速适应新任务的迁移学习能力。
-
与人类或其他智能体天然交互的社交能力。
-
在多轮学习中不断积累提升的能力。
-
处理不确定性输入并进行试错的适应能力。
综上所述,大语言模型集各种人工智能的关键能力于一体,将其应用于智能体构建具有非常大的可能性。
3 代理的诞生:基于大语言模型构建智能体
图2:
基于大语言模型的智能体框架,包含三个组件:大脑、感知和行动。大脑模块作为控制器,承担记忆、思考和决策等基本任务。感知模块感知并处理来自外部环境的多模态信息,行动模块使用工具执行,并影响周围环境。这里我们给出一个例子来说明工作流程:当一个人问是否会下雨时,感知模块会将指令转换成LLM可以理解的表示。然后,大脑模块根据当前天气和互联网上的天气预报进行推理。最后,行动模块作出响应,并将雨伞递给人。通过重复上述过程,代理可以持续获取反馈并与环境互动。
3.1 大脑
大脑模块是智能体的中枢所在,我们将采用大语言模型担任这个角色。大语言模型具备语言理解、记忆、推理等多种人工智能必需的核心能力。我们主要强化其在以下几个方面的能力:
3.1.1 自然语言交互
大语言模型具有强大的自然语言理解生成能力,这使它可以与人类和其他智能体进行富有成效的交互。我们将增强智能体处理多轮对话的能力,使其可以利用语言上下文进行有效的知识累积。
大语言模型像GPT系列在自然语言处理任务上已经取得了很多突破。不同于结构化的通信协议,自然语言使智能体之间的交互更加灵活。智能体需要具备理解用户意图的能力,以及生成语义连贯的回应的能力。
多轮对话能力尤为关键。相比单次问答,多轮对话需要智能体追踪语言上下文,才能产生连贯相关的回应。我们将加强智能体处理长序列输入的能力,并利用记忆机制存储上下文。
具体来说,大语言模型可以进行多轮交互式对话,回答用户的问题并提出后续问题。通过追踪语言上下文,它可以产生符合逻辑的连贯回应。大语言模型也可以处理含蓄的语言,理解隐含的意图。此外,它还可以根据不同场景调整语言风格。这些能力对实现智能的人机交互至关重要。
我们还将增强智能体的多语言能力,使其可以处理英语、中文等不同语言的输入,并进行适当的响应。为了产生更丰富的语言表达,可以引入自然语言生成模块,帮助智能体生成更加多样、逻辑清晰的语言表达。
3.1.2 知识
大语言模型可以从大规模文本数据中获取各类知识,这为智能体决策提供依据。我们将加强智能体获取和应用知识的能力,知识类型包括:
-
语言知识:语法、语用等语言结构知识。
-
常识知识:一般世界事实知识。
-
领域知识:特定领域的专业知识。
知识的获取可以通过持续训练完成。但是应对知识过时、错误知识等问题仍存在挑战。一种可行方法是引入外部知识库,与模型知识进行集成。
具体来说,大语言模型可以学习不同类型的知识,包括自然语言结构知识、常见事实知识以及专业领域知识。这些知识来源于模型训练使用的大规模文本数据。但直接训练获得的知识也存在缺陷,可能包含过时、错误的知识。为了处理这一问题,我们可以让智能体访问外部知识库,并集成知识库知识来纠正及补充模型知识。另一种方法是通过人机交互持续更新模型知识。大语言模型具有快速学习新知识的能力。通过与用户交互获得新的知识,智能体可以不断丰富知识库并提升决策质量。
3.1.3 记忆
记忆和检索过往知识是智能体一个必不可少的能力。我们将增强智能体存储和利用历史交互的能力。具体来说,智能体可以将过往对话以略缩框架的形式存储,并在后续交互中检索这些记忆。
随着记忆内容积累,检索相关记忆变得更具挑战性。我们可以使用最近相关性、语义相关性等原则来指导记忆检索。存储也可能采用向量化等方式进行压缩。这些方法可以提升记忆的质量和检索效率。
具体来说,智能体需要存储它与用户及环境的历史交互内容,这些内容组成了记忆。随着记忆的累积,直接处理会面临计算资源限制。为此,可以采用如主题建模等方式压缩记忆,并进行向量表示。向量表示还使得后续可以进行语义匹配,实现相关记忆的检索。除此之外,还可以使用关系数据库来存储结构化记忆,并基于关键词进行查询。另一方面,也可以定期清除陈旧的不相关记忆,防止记忆过于膨胀。
3.1.4 推理和规划
复杂推理和规划是智能体智能的核心体现。大语言模型已经展现了在该方面的卓越能力。我们将进一步增强其根据当前目标进行推理并制定规划的能力。
具体来说,智能体需要进行假设推理,评估不同决策路径的效果。这可以采用提示引导的方式进行。规划方面,智能体需要将复杂任务进行分解,明确各个子任务的步骤。在执行过程中,规划也需要根据反馈进行调整。
推理方面,大语言模型已经表现出进行链式推理的能力。我们可以通过多轮交互的方式引导智能体进行假设推理,评估各种决策并选择最优决策。在规划方面,智能体可以使用多种方法进行任务分解,比如通过问题分解和资源分配等方式将复杂问题分解为多个子问题。在执行过程中,智能体可以基于环境反馈动态调整规划,使用各种规划算法重新规划以更好地完成最终目标。
3.1.5 可转移性和泛化能力
可转移性和泛化能力对于智能体处理新任务和新环境至关重要。传统上这是一个挑战点。近期研究表明大语言模型表现了强大的泛化能力。
我们将进一步增强智能体的可转移性。具体来说,通过上下文学习方法,智能体可以学习如何快速适应新任务,而不需要从头训练。此外,智能体也应具备从少量样本中泛化的能力。这些能力使智能体更加适应开放的复杂环境。
与传统的机器学习方法相比,大语言模型表现出了更强的可迁移能力。通过在大规模异构数据上进行预训练,模型已经获得了强大的语言表示能力。在新任务上,大语言模型可以实现零样本或少样本泛化。未来的一个重点是增强模型的元学习能力,使其可以更快地适应新的任务,而不需要完全重新训练。我们也将探索在多模态输入上的泛化能力。此外,持续学习是另一个重要方面,它将使智能体能够不断获取新知识和技能,而不会丢失已获得的能力。
3.2 感知
感知模块负责从外部世界采集各种输入,传递给大脑模块。除了文本,我们将进一步加强图像、音频等多模式感知能力。
3.2.1 文本输入
文本仍将是智能体的一种基本输入形式。主要挑战在于理解隐含的上下文知识。这需要结合先验常识进行推理。我们也探索直接从网页等半结构化文本提取信息。
文本输入是一种基本的输入形式。为了更好地理解文本中隐含的知识,我们可以引入常识知识库,以丰富上下文理解。对于网页等半结构化文本,可以进行主题分析、情感分析等来获取额外信息。为处理长文本,还需要引入注意力机制或记忆网络来获取全局信息。与单文本解析不同,多轮交互需要对话管理模块来控制语境。总体而言,文本理解仍需要更复杂的推理来掌握隐含知识。
3.2.2 图像输入
图像输入可以为智能体提供丰富的视觉信息。一种方法是将图像自动描述为文本,然后输入给模型。更先进的方法是直接对图像进行视觉编码,如通过卷积神经网络进行编码。这样可以得到更丰富的表示。
将视觉表示映射到语言表示是一个关键问题。可以采用可学习的对齐层进行映射。同时也要处理视觉内容与自然语言描述的一致性问题。
图像作为输入可以提供丰富的视觉信息。简单的方法是进行图像标注,生成文字描述。更复杂的方法是使用卷积神经网络对图像进行特征提取和编码。这样获得的图像特征需要与语言特征进行融合,一个关键是找到对齐的映射关系。除此之外,也需要解决视觉内容与语言描述的不一致问题。此外,视频输入需要额外建模时间因素。当前方法主要是级联不同模块,未来需要更深层次集成。总体来说,视觉 输入仍需在表示、融合、一致性等方面进行改进,以获得更丰富的多模态语境信息。
3.2.3 音频输入
音频输入同样重要,它提供了声音和语音等额外信息。音频输入可以进行语音转文本,也可以采用语音的频谱图表示等方式。与图像输入类似,音频表示也需要与语言表示对齐。
音频作为输入也非常重要,主要包含两大类型:语音和非语音音频。对语音输入,可以先进行语音识别得到文字,再输入到语言模型。非语音音频如环境音可以转化为频谱图表示。当前的难点还是如何将音频表示更好地融合到语言模型中,找到对齐的转换关系。此外,音频也需要进行分段和情感识别等前处理。未来需要探索端到端的多模态融合方法,而不是简单的流水线级联。
3.2.4 其他输入
除上述的输入外,未来也可以探索更多模态。例如,结合触觉反馈获取物体质感;嗅觉可以提供气味信息等。这些新式感知可以进一步扩展智能体对复杂环境的理解能力。
除了视觉和听觉,也可以考虑引入其他感官模态。例如,触觉可以提供接触物体时的压力、温度、粗糙度等信息。嗅觉输入可以为气味、气体浓度提供辅助判断。另外,热成像提供红外视觉信息,也是模拟人眼视觉的补充。将来可以基于多模态融合的框架继续扩展输入形式,丰富感知信息。但也存在输入维度过高的风险,需要在表达力与效率之间权衡。
3.3 行动
行动模块负责将大脑的决策输出转换为不同形式的交互影响环境。我们将探索多种行动形式,包括语言、工具使用以及物理环境中的具身交互等。
3.3.1 文本输出
语言响应仍将是一种基本输出形式。我们将进一步提升其连贯性、逻辑性和符合交互场景的能力。
文本响应作为基本输出形式,需要确保逻辑清晰、连贯流畅。除了语法正确性,也需要符合对话交互场景。未来的一个方向是使输出更具可解释性,需要增强解释生成模块。为避免冗长重复,可以引入简洁性模块进行修饰。另一方面,需要注意安全性,避免生成损害性内容。因此,输出调控技术也很关键。
3.3.2 工具使用
工具使用可以扩展智能体的能力。具体来说,智能体可以调用外部工具或服务完成特定功能,这比重新训练模型更具效率,也更简单。掌握工具接口是关键。
工具使用可以大大扩展智能体的能力。关键是理解工具的功能接口,将其约束与目标任务进行匹配,选择合适的工具组合方案。除了直接调用,智能体也可以针对接口进行扩展和组合,创建更优化的工具链。当前的难点在于如何更好地对未知工具进行泛化。为此,建议使用基于功能的接口抽象表示,而不是针对具体工具编程。
3.3.3 具身行动
在物理环境中,智能体需要进行具身交互,如机械臂控制。这需要理解三维场景并进行空间推理。同时转换语言指令为底层运动控制也是一个难点。
与虚拟环境不同,具身环境需要理解实际三维场景,进行视觉空间推理。另一难点是将抽象语言指令映射到精确的运动轨迹和力控制上。与工具使用类似,也需要进行任务抽象与映射。安全性是另一个重要问题。总体而言,具身交互仍有待视觉与语言的深层融合,以及强化学习等方式进行场景适配。
4 实践中的代理:永远利用人工智能
图7:基于大语言模型的智能体应用场景。我们主要介绍三种场景:单个代理、多个理和人机交互。单个代理具有多种能力,可以在各种应用方向上展示出色的任务解决表现。当多个代理进行交互时,它们可以通过合作或对抗的交互实现进步。此外,在人机协同中,人类反馈可以使代理更有效、更安全地执行任务,而代理也可以为人类提供更好的服务。
4.1 单一代理的通用能力
图8:单个基于大语言模型的智能体在不同场景中的实际应用。在任务导向部署中,代理帮助人类用户解决日常任务。他们需要具备基本的指令理解和任务分解能力。在创新导向部署中,代理展示了在科学领域自主探索的潜力。在生命周期导向部署中,代理具有持续探索、学习和利用新技能的能力,并确保在开放的世界中长期生存。
4.1.1 任务导向的部署
针对不同领域和场景的特定任务,开发和部署专门的智能体。
不同任务需要不同能力,因此我们可以开发专门的智能体。例如对于家庭服务机器人,可以优化其视觉感知、导航和手持物体抓取的能力。对于法律辅助系统,可以优化其推理和案例搜索能力。训练可以使用领域特定的知识库及交互数据集。这样可以提高适配特定任务的智能体性能。
4.1.2 创新导向的部署
需要防止被滥用于非法或不道德的创新,更好引导智能体进行有益的科研创新。