正文
类人思考——攻克智能体的“人为编排”困境
当前市场中多数的智能体产品主要采用传统工作流(workflow)方法——将复杂任务拆分成多个子任务,每个子任务分别处理后再汇总成结果。
这类方法需要在系统层面人为提前编排和定义,虽然在一定程度上能取得不错的效果,但限制了模型的自主性和灵活性,难以有效扩展到更多、更复杂任务上,泛化能力和适用性不足。
在此背景下,特斯联提出
采用端到端强化学习(Reinforcement Learning)方法,使用高质量数据微调训练出HALI智能体系统,通过奖励函数(reward function)而非依赖人工,引导模型在与工具/设备/环境的交互中不断优化策略。
基于该方法,智能体能够直接依据用户的输入进行推理、规划、执行任务,无需外部人工编排系统、定义流程的执行逻辑,将整个任务交给一个模型来完成;智能体模型在内部自行决定外部工具的调用、子任务的分解、自我校验等。
这种方法使智能体系统既获得了良好的简洁性,又增强了系统的鲁棒性、泛化能力和准确性。目前大家看到的智能体产品更多聚焦于产品工程能力上的提升,事实上,模型本身仍有极大的提升空间。
引入端到端强化学是特斯联针对提升智能体底层模型能力做出的初步尝试,也是推动机器向类人思考迈出的第一步。