专栏名称: 爱分析ifenxi
爱分析ifenxi是一家专注于创新领域的投研机构,以企业价值研究为内核,服务企业决策者和机构投资者。爱分析重点研究技术驱动型创新领域,包括新金融、企业服务及大消费等,并通过全网多个平台发布访谈和调研报告。
目录
51好读  ›  专栏  ›  爱分析ifenxi

DeepSeek的开源,激发了AI行业巨大的潜力|对话首席

爱分析ifenxi  · 公众号  ·  · 2025-03-19 18:00

正文

请到「今天看啥」查看全文


纯强化学习下的长思维链和工作流是相互融合、相互补充的

DeepSeek R1技术实现采用了Pure RL方式,这一技术层面的突破验证了纯粹用强化学习可以提升模型在解决特定复杂问题时的能力,使模型具备深度的思考和强推理的能力。 在具体场景如解数学题和写代码上,Pure RL方式带来了显著的影响。 一方面,它降低了模型在特定复杂任务上提升能力时对标注数据的依赖。 过去,要让模型具备解数学题和编程能力,需要标注大量的高质量题目,但这样的数据并不易得,且标注成本高昂。 而现在,通过强化学习,模型可以在较少的标注数据下达到一个不错的水平,并进一步提升至更高水平。
另一方面,Pure RL方式的影响还体现在其应用场景的广泛性上。虽然数学和编程任务因其公开性和可校验性成为强化学习的试验田,但真实生活和工作中还有大量场景,如客服解答客户诉求、营销人员获取销售线索等,这些都可以描述成有最终结果的任务。对于这类任务,做Agent平台的公司可以用强化学习在特定的场景上训练Agent模型,使其具备复杂的推理能力和解决特定问题的能力。
关于工作流路线能否延续,取决于模型的强度和应用场景。 论上 ,如果模型足够强,工作流是可以在模型做深度推理时生成出来的。 特别是在一些长尾场景中,工作流很难事先描述或设计,此时让模型学会并在推理过程中生成工作流将更为合适 然而,在ToB场景下,工作流路线仍然是适合的。 因为ToB场景对准确性、稳定性和可靠性要求很高,如果每次工作流都要靠模型生成,可能存在不可靠性。 此外,在很多ToB场景下,工作流本身就已经存在,如文档、流程图或专家脑中,此时让模型直接遵循工作流将更为高效。
过去,人们先设计工作流,然后在不同节点上用大模型解决特定问题;现在有了长思维链后,模型可以在思维链中直接体现工作流的逻辑。因此,工作流和思维链之间并非矛盾关系,而是可以相互融合、相互补充的。未来可以基于强化学习的长思维链和工作流,以融合的方式各自解决不同的问题。在长思维链中,模型可以生成工作流,也可以调用工作流。






请到「今天看啥」查看全文