专栏名称: 传感器技术
制造业的未来是智能化,智能化的基础就是传感器; 互联网的方向是物联网,物联网的基石也是传感器; 关注传感器技术,获得技术资讯、产品应用、市场机会,掌握最黑科技,为中国工业导航。
目录
相关文章推荐
51好读  ›  专栏  ›  传感器技术

Meta研究:基于头显摄像头进行姿态估计的方法和优缺点

传感器技术  · 公众号  ·  · 2023-05-31 07:00

正文

请到「今天看啥」查看全文


这种不同寻常的自中心视觉表现需要一种全新的方法和全新的训练语料库,而本篇论文正是主要针对这两个问题。他们提出的全新神经网络架构编码了由不同分辨率、极端视角效应和自遮挡引起的上下身体关节之间的不确定性差异。

团队使用真实的3D注释对合成基准和真实世界基准进行了定量和定性评估,并表明所述方法的性能比以前的Mo2Cap2高出25%以上。消融研究表明,引入新型multi-branch解码器来重建2D输入热图和旋转是3D姿态估计的显著改进的原因。

架构

团队提出了用于3D姿态估计的深度学习架构。这是一种由两个主要模块组成的两步方法:i)第一个模块检测图像空间中身体关节位置的2D热图;ii)第二个模块将从前面模块生成的2D热图预测作为输入,并使用新颖的multi-branch自动编码器架构回归身体关节的3D坐标,并根据骨骼层次的局部关节旋转和重建的热图预测。

这种管道方法最重要的优点之一是,可以根据可用的训练数据独立训练2D和3D模块。例如,如果具有3D注释的足够大的图像语料库不可用,则可以使用3D mocap数据及其投影热图来独立地训练3D lifting模块。一旦对这两个模块进行了预训练,整个架构就可以端到端地进行微调,因为它完全可微分。

multi-branch自动编码器模块同时提供了具有姿势的多个表示的能力,例如关节位置和局部旋转等。所述架构的另一个优点是,第二和第三branch只在训练时需要,并且可以在测试时删除,从而保证更好的性能和更快的执行。

二维姿势检测

给定RGB图像I∈R368×368×3作为输入,2D姿势检测器推断2D姿势,表示为一组热图HM∈R47×47×15,每个身体关节一个。对于这项任务,团队已经试验了不同的标准架构,包括ResNet 50和U-Net。

他们使用归一化输入图像对模型进行训练。其中,图像是通过减去平均值并除以标准差获得。然后,他们使用ground truth热图与预测热图之间差异的均方误差作为损失:

二维到三维映射

3D姿态模块将第一模块计算的15个热图作为输入,并输出最终的3D姿态P∈R16×3作为一组关节位置。请注意,输出3D关节的数量为16,因为包括头部(尽管头部在视场之外,但它可以在3D中回归)。

团队的方法从输入热图预测3D姿势,而不仅仅是2D位置。主要优点是热图携带了与2D姿态估计的不确定性相关的重要信息。

所提出的架构的主要新颖性是,确保热图表示中表达的不确定性信息不会丢失,它在姿态嵌入中得到了保留。当编码器将一组热图作为输入并将其编码到嵌入z

中时,解码器有多个branch。首先从z

回归3D姿势;2nd估计局部关节旋转(相对于父节点);以及3rd重构输入热图。所述branch的目的是迫使latent向量对估计的2D热图的概率密度函数进行编码。

自动编码器的整体损失函数表示为:

研究人员测试了不同的局部联合旋转表示,而由于训练过程中旋转的稳定性,他们最终选择了四元数表示,从而产生更稳健的模型。旋转branch同时有助于生成更好的结果,在逐帧估计的姿势上,连续帧上的过渡更平滑。

使用估计旋转的角色动画

由multi-branch自动编码器架构生成的姿态嵌入估计包含姿态的相关基本信息,这使得能够基于特定应用程序更改/添加表示。具体而言,旋转branch的引入改善了整体重建误差,如表2所示,并且它是可用于角色动画的姿势定义。







请到「今天看啥」查看全文


推荐文章
新京报传媒研究  ·  逃离朋友圈三十天
7 年前
罗曼蒂克情趣史  ·  BigBooty(第六十三季)
7 年前