专栏名称: 中金点睛
图文并茂讲解中金深度研究报告
目录
相关文章推荐
云端新视界  ·  A股:“春天”来了?别急!“牛回头”还是“熊 ... ·  9 小时前  
云端新视界  ·  A股:“春天”来了?别急!“牛回头”还是“熊 ... ·  9 小时前  
金融早实习  ·  三峡银行2026届实习生招聘 ·  昨天  
金融早实习  ·  中兴财经2025春季校园招聘! ·  昨天  
Wind万得  ·  年化收益300%!Labubu如何从潮玩到金 ... ·  昨天  
51好读  ›  专栏  ›  中金点睛

中金 | AI智道(9):多模态推理技术突破,向车端场景延伸

中金点睛  · 公众号  · 金融  · 2025-06-03 07:45

正文

请到「今天看啥」查看全文


点击小程序查看报告原文


多模态推理为2025大模型技术迭代重要方向,Google领衔、国内多成果发布。 2025年3月,Google发布Gemini 2.5模型,原生支持文本、图像、音频、视频、代码库等输入类型,并能进行多模态融合推理,落地场景包括建筑风格询问、设备故障排查,在LMArena排行榜超越GPT-4.5和Claude 3.7。国内厂商在多模态推理范畴接连更新:2025年4月,阶跃星辰发布多模态推理模型Step-R1-V-Mini、商汤发布SenseNova V6模型,后者以多模态长思维链构建、多模态强化学习、多模态全局记忆的技术创新,实现多模态推理能力大幅进步,率先实现10分钟长视频理解。5月,MiniMax开源首个视觉RL统一框架V-Triune,能够使得VLM在后训练流程中,掌握视觉推理和感知的统一能力。


以MiniMax V-Triune新框架成果为例,推理感知统一框架在可拓展性、泛化性初步验证。 V-Triune以三层组件架构实现视觉推理和感知任务统一至强化学习框架:1)多模态样本数据格式化;2)验证器奖励计算,采用异步客户端-服务器架构,奖励计算和主训练循环解耦;3)数据源级指标监控,便于溯源和提升稳定性。结合动态IoU奖励机制、冻结ViT参数等工程优化,Orsta系列模型(32B参数)在MEGA-Bench Core基准测试中实现了最高14.1%的性能提升。


多模态推理助力智能驾驶能力升阶。 在智能驾驶场景,多模态推理是增强道路交通标志识别判断能力、提升复杂场景泛化性的重要途径,正成为头部智能驾驶企业算法演进的重点。2025年5月30日,蔚来世界模型NVM首个版本正式开启推送,具备全量理解、想象重构和推理能力,能够对实时环境多模信息进行理解和推演,在选择最优ETC车道通行、停车场自主寻路等场景的性能提升显著。此外,理想自研的VLA大模型亦具备思维链推理能力,以多模态推理模拟人类驾驶员的思维运作方式。


图表1:MiniMax多模态RL成果V-Triune模型三层架构







请到「今天看啥」查看全文