专栏名称: GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
51好读  ›  专栏  ›  GiantPandaLLM

一键式训练端到端Agent,Qwen3+MCP工具集高效集成!

GiantPandaLLM  · 公众号  · 3D  · 2025-05-27 07:50

正文

请到「今天看啥」查看全文


  • 模型形式 :其他开源/闭源模型(如用 GPT-4o 做文档总结,输入 Prompt,输出 Response)
  • Agent 形式 :程序和模型的集合(如文献综述 Agent,输入主题,输出综述结果)
  • 端到端Agent模型有哪些不一样?

    传统工作流依赖人工规则和分阶段处理,效率低下。RLFactory 支持端到端训练,模型可自主推理决策,决定何时、如何调用工具与终止任务,极大提升 LLM 应用的智能化和自动化水平。

    • 输入 :原始任务(如用户的自然语言指令、问题、对话等)
    • 输出 :最终的任务结果(如多轮工具调用后的答案、执行结果等)
    • 无需人工为每一步单独设计规则

    下图展示了端到端Agent模型的交互流程:

    1. 输入原始 Prompt ,Agent模型推理输出 Response (自行决定使用工具或者输出结果)
    2. 对模型输出做后处理,解析工具名称及参数(若未解析到工具,视为终止循环,输出模型响应)
    3. 按解析到的工具名称及参数运行工具(可并行),并对工具结果做后处理
    4. 将工具结果拼接回 Prompt ,再次调用模型,直至终止

    RLFactory - 简单且高效的端到端RL后训练

    RLFactory的目标是让用户专注于奖励逻辑和工具配置,以极少的代码实现快速的 Agentic Learning,而进阶开发者则可以专注于提升训练效率和模型性能。

    RLFactory的核心优势:

    • 奖励函数易设计 :通过 规则 模型判分(LLM as Judge)






    请到「今天看啥」查看全文