专栏名称: AI科技评论
点评学术,服务 AI !
目录
相关文章推荐
湾区财经传媒  ·  5月存款利率全线跳水,中长期存款利率全面进入 ... ·  19 小时前  
湾区财经传媒  ·  5月存款利率全线跳水,中长期存款利率全面进入 ... ·  19 小时前  
Linux就该这么学  ·  微信期待已久的功能终于来了!支持U盘、SSD ... ·  昨天  
Linux爱好者  ·  1 个空指针,捅破了天……谷歌官方首次披露 ·  3 天前  
Linux就该这么学  ·  国补将结束?各地官方回应了 ·  2 天前  
Linux就该这么学  ·  跨越平台壁垒:可将用户账号密码安全迁至 ... ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

MMLab@HKU 闪耀 CVPR 2025!与全球顶尖学者共话 AI 前沿

AI科技评论  · 公众号  ·  · 2025-06-11 17:33

正文

请到「今天看啥」查看全文


03

六场深度活动:解锁 AI 落地的技术密码

除了国际竞赛,MMLab 在 CVPR 2025 也 主办了六项前沿 Workshop、Tutorial 活动 ,全面覆盖自动驾驶、多模态、世界模型、协同感知、数据赋能等热点议题。

  • Embodied Intelligence for Autonomous Systems on the Horizon

  • Workshop on Autonomous Driving

  • Distillation of Foundation Models for Autonomous Driving

  • Multi-Agent Embodied Intelligent Systems Meet Generative-AI Era: Opportunities, Challenges and Futures

  • Robotics 101: An Odyssey from A Vision Perspective

  • The 1st Workshop on Benchmarking World Models


图片

04

技术风向标:多项AI前沿研究盘点

在生成式智能与多模态感知飞速发展的当下,这一系列研究成果展示了在跨模态理解、场景生成、人机交互和机器人智能等领域的一些进步。比如,文本驱动的视频合成、图像安全性评估、高精度的三维高斯建模和机器人操作策略学习这些技术,都在提升模型的通用性、效率以及在现实世界中的适应能力。不管你关心的是更安全可信的生成系统、更聪明的机器人大脑,还是更高质量的视觉生成模型,这些项目都代表了技术创新的前沿,欢迎关注!

  • TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization [Oral]

    • 统一物理人景交互合成,通过任务分词实现

    • arXiv: https://arxiv.org/abs/2503.19901

    • Github: https://github.com/liangpan99/TokenHSI

  • Parallelized Autoregressive Visual Generation [Highlight]

    • PAR ,根据视觉 token 间依赖关系所设计的并行自回归生成模型

    • arXiv: https://arxiv.org/abs/2412.15119

    • Github: https://yuqingwang1029.github.io/PAR-project/

  • RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins [Highlight]

    • 机器人双臂评测基准集与数据合成器

    • arXiv: https://arxiv.org/abs/2504.13059

    • Github: https://github.com/TianxingChen/RoboTwin

  • HMAR: Efficient Hierarchical Masked AutoRegressive Image Generation

    • HMAR ,通过多尺度自回归与掩码重建结合的高效高质量图像生成模型

    • arXiv: https://arxiv.org/html/2506.04421v1

    • Project Page: https://research.nvidia.com/labs/dir/hmar/

  • MBQ: Modality-Balanced Quantization for Large Vision-Language Models

    • MBQ ,均衡视觉和语言之间敏感性差异的视觉 - 语言模型量化方法

    • arXiv: https://arxiv.org/abs/2412.19509

    • Github: https://github.com/thu-nics/MBQ

  • MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation







请到「今天看啥」查看全文