专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
arXiv每日学术速递  ·  「Next-Token」范式改变!刚刚,强化 ... ·  8 小时前  
arXiv每日学术速递  ·  「Next-Token」范式改变!刚刚,强化 ... ·  8 小时前  
宝玉xp  ·  😄-20250614103431 ·  昨天  
量子位  ·  120亿腾讯系AI独角兽冲刺港股IPO,北大 ... ·  2 天前  
Java仓库  ·  AI 工具,永久免费了 ·  2 天前  
Java仓库  ·  AI 工具,永久免费了 ·  2 天前  
爱可可-爱生活  ·  【[124星]Awesome-3D-Dete ... ·  3 天前  
51好读  ›  专栏  ›  新智元

何恺明评审,谢赛宁获奖!牛津华人博士生拿下CVPR 2025最佳论文

新智元  · 公众号  · AI  · 2025-06-14 02:33

主要观点总结

CVPR 2025大会揭晓了多个重要奖项,包括最佳论文奖、年轻研究者奖等。华人博士生王建元等获得了最佳论文奖。大会还公布了各细分领域的论文接收情况和审稿人质量统计。同时,还介绍了最佳论文奖评审委员会的成员以及其他获奖者的相关信息。另外,还详细列举了其他获奖论文的作者、机构以及论文地址。

关键观点总结

关键观点1: CVPR 2025大会的奖项揭晓

CVPR 2025大会颁发了多个奖项,包括最佳论文奖、年轻研究者奖等。华人博士生王建元等获得了最佳论文奖。还有其他的荣誉提名和奖项,例如Longuet-Higgins奖等。

关键观点2: 大会的投稿和审稿情况

大会官方统计显示,今年的投稿量创下了历史新高,来自全球各地的学者积极参与。审稿人的质量也相对稳定,其中学术界、PhD学生和产业界的审稿人都有出色的表现。

关键观点3: 最佳论文的细节

获得最佳论文的作者和机构包括牛津大学、Meta AI等。论文涉及前馈神经网络在三维计算机视觉领域的应用,提出了一种能够从场景的单个、少量或数百个视图中直接推断出其所有关键三维属性的方法。此外,还有其他最佳论文和最佳学生论文的详细信息。

关键观点4: 其他获奖者的信息

其他获奖者如Kristen Grauman等都是在计算机视觉领域有突出贡献的研究者。他们的研究方向包括计算机视觉与机器学习,涉及到视觉识别、视频分析等多个子领域。


正文

请到「今天看啥」查看全文


这个奖项每年都会颁给在计算机视觉领域有突出研究贡献的年轻学者,但获奖者拿到博士学位的时间不能超过七年。

Hao Su,北大航空航天大学应用数学博士,斯坦福大学数学与计算机科学博士,现在是加州大学圣迭戈分校的副教授(兼职)。

他的研究方向很广,覆盖了计算机视觉、计算机图形学、机器学习、通用人工智能和机器人技术。

去年,他还参与创立了一家叫Hillbot的机器人公司,担任CTO。

谢赛宁,2013年从上海交通大学本科毕业,2018年在加州大学圣迭戈分校计算机科学与工程系拿到了博士学位,研究方向主要是深度学习和计算机视觉。

之后,他加入了Facebook人工智能研究室(FAIR)做研究科学家。

2022年,他和William Peebles一起发表了DiT论文,首次把Transformer和扩散模型结合了起来。

荣誉提名

获得荣誉提名的是Ishan Misra,在Meta的GenAI团队担任研究科学家主任,领导视频生成模型的研究工作。

在此之前,他在Meta的FAIR团队,专注于计算机视觉的自监督学习和多模态学习。

他在卡内基梅隆大学拿到了博士学位。2024年,因为在计算机视觉和机器学习方面的研究贡献,获得了卡内基梅隆大学颁发的近期校友成就奖。


最佳论文
VGGT: Visual Geometry Grounded Transformer


作者: Jianyuan Wang,Minghao Chen,Nikita Karaev,Andrea Vedaldi,Christian Rupprecht,David Novotny

机构: 牛津大学,Meta AI

论文地址: https://arxiv.org/abs/2503.11651

代码模型: https://github.com/facebookresearch/vggt

本次CVPR 2025最佳论文来自牛津大学、Meta AI,提出了一种前馈神经网络,能够从场景的单个、少量或数百个视图中直接推断出其所有关键三维属性,包括相机参数、点图、深度图和三维点轨迹。

在三维计算机视觉领域,模型通常仅限于并专用于单一任务,而这种方法代表了该领域的一大进步。

它还兼具简洁与高效的特点,能在一秒内完成图像重建,并且其性能优于那些需要采用视觉几何优化技术进行后处理的替代方案。

该网络在多项三维任务中均取得了当前最佳SOTA成果,包括相机参数估计、多视图深度估计、密集点云重建以及三维点跟踪。

文中还证明,使用预训练的VGGT作为特征主干网络,能显著增强下游任务的性能,例如非刚性点跟踪和前馈式新视角合成。

论文第一作者Jianyuan Wang为Facebook AI Research和牛津大学视觉几何组(VGG)的联合博士研究生。

他的博士研究专注于打造创新的端到端几何推理框架,主导开发了PoseDiffusion、VGGSfM,以及本次提出的通用3D基础模型VGGT。

同样是Jianyuan Wang作为第一作者的VGGSfM研究被CVPR 2024接收,并入选Highlight论文。

另一位华人作者Minghao Chen是牛津大学的博士生,导师是Andrea Vedaldi教授和Iro Laina博士。同时,也在Meta GenAI进行研究科学家实习。

此前,他曾在石溪大学攻读博士学位,师从Haibin Ling教授。期间在微软亚洲研究院实习,合作导师为Houwen Peng博士。

他分别在哥伦比亚大学获得硕士学位,在北京航空航天大学获得学士学位。







请到「今天看啥」查看全文