中金 | AI智道（9）：多模态推理技术突破，向车端场景延伸

中金点睛 · 公众号 · 金融 · 2025-06-03 07:45

正文

请到「今天看啥」查看全文

多模态推理为2025大模型技术迭代重要方向，Google领衔、国内多成果发布。 2025年3月，Google发布Gemini 2.5模型，原生支持文本、图像、音频、视频、代码库等输入类型，并能进行多模态融合推理，落地场景包括建筑风格询问、设备故障排查，在LMArena排行榜超越GPT-4.5和Claude 3.7。国内厂商在多模态推理范畴接连更新：2025年4月，阶跃星辰发布多模态推理模型Step-R1-V-Mini、商汤发布SenseNova V6模型，后者以多模态长思维链构建、多模态强化学习、多模态全局记忆的技术创新，实现多模态推理能力大幅进步，率先实现10分钟长视频理解。5月，MiniMax开源首个视觉RL统一框架V-Triune，能够使得VLM在后训练流程中，掌握视觉推理和感知的统一能力。

以MiniMax V-Triune新框架成果为例，推理感知统一框架在可拓展性、泛化性初步验证。 V-Triune以三层组件架构实现视觉推理和感知任务统一至强化学习框架：1）多模态样本数据格式化；2）验证器奖励计算，采用异步客户端-服务器架构，奖励计算和主训练循环解耦；3）数据源级指标监控，便于溯源和提升稳定性。结合动态IoU奖励机制、冻结ViT参数等工程优化，Orsta系列模型（32B参数）在MEGA-Bench Core基准测试中实现了最高14.1%的性能提升。

多模态推理助力智能驾驶能力升阶。在智能驾驶场景，多模态推理是增强道路交通标志识别判断能力、提升复杂场景泛化性的重要途径，正成为头部智能驾驶企业算法演进的重点。2025年5月30日，蔚来世界模型NVM首个版本正式开启推送，具备全量理解、想象重构和推理能力，能够对实时环境多模信息进行理解和推演，在选择最优ETC车道通行、停车场自主寻路等场景的性能提升显著。此外，理想自研的VLA大模型亦具备思维链推理能力，以多模态推理模拟人类驾驶员的思维运作方式。

图表1：MiniMax多模态RL成果V-Triune模型三层架构