0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

3D姿态估计 时序卷积+半监督训练

电子设计 ? 来源:电子设计 ? 作者:电子设计 ? 2020-12-08 22:54 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

首发:AIWalker

标题&作者团队

1. 论文简要

在这项工作中,视频中的3D姿态可以通过全卷积模型来估计,具体是在二维关键点上通过空洞时间卷积的模型得到3D姿态。我们还介绍了一种不带标签(反向投影)的半监督式训练方法。我们先从未标注视频中得到2D姿态,然后估计3D姿态和最后反向投影到输入的2D关键点。在实验中,全卷积模型相比之前state-of-arts,在Human3.6 M上平均每个关节位置误差小6mm,对应误差降低11%,模型在HumanEva-I中也有显著改进。

代码和模型的下载地址:https://github.com/facebookre...

2. 背景介绍

我们的工作重点是视频中的三维人体姿态估计。我们以最先进的方法为基础,然后将问题描述为2D关键点检测三维姿态估计,这种方法可能导致不同的3D姿态对应相同的2D关键点。早期为解决这一问题主要通过RNN构建时序信息,但是由于RNN的串行结构无法多帧并行处理,因此本文提出一个完整的卷积架构,在二维关键点上执行时序卷积用于视频中准确的三维姿态预测,该方法兼容任何二维关键点检测器,并能通过空洞卷积有效地处理较大的上下文信息。与依赖RNNs的方法相比,它在计算复杂度和参数数量方面都提供了更高的精度、简单性和效率。

在构建一个高度精确和高效的架构之后,接下来需要关注训练数据,本文引入了半监督训练的方案,因为3D姿态的监督学习需要大量的带标签的训练数据,收集3D人体姿态标签需要昂贵的动作捕捉设备和长时间录制。本文的方法的灵感来自于无监督机器翻译中的循环一致性,即翻译到中间语言和翻译回原始语言的往返应该接近恒等函数。具体地说,使用现有的2D关键点检测器为未标记的视频预测2D关键点,然后预测3D姿态,最后将它们映射回2D空间中。

本文创新点有两个:(1)在网络结构方面,基于空洞时序卷积将2D关键点轨迹推理出3D人体姿态,在计算量和模型参数量上远小于基于RNN的模型;(2)在训练数据方面,采用半监督学习解决数据量不足的问题,相比于其他方法,该方法仅仅需要相机内部参数(数据增强的过程中需要相机参数对ground-truth姿态进行几何变换),不需要2D标签或带有外部摄像机参数的多视图图像。

image-20201126105219606

3. 相关工作

深度学习成功之前,大部分的三维姿态估计方法都是基于特征工程和骨骼和关节灵活性的假设。目前大多数的姿态估计方法是在二维姿态估计器的基础上,建立了一种新的三维姿态估计器,然后 被提升到3D空间中。

视频姿态估计,大多数以前的工作都是在单帧的背景下进行的,但最近几年利用视频的时间信息来产生更可靠的预测,并降低对噪音的敏感性。最近,有人提出了LSTM序列到序列学习模型,该模型将视频中的二维姿态序列编码为固定大小的向量,然后解码为三维姿态序列。然而,输入和输出序列具有相同的长度,2D姿态的确定性转换是更自然的选择。用seq2seq模型进行的实验表明,输出姿势在较长的序列上容易产生漂移。

4. 本文方法

4.1 时序空洞卷积模型

image-20201126112311029

我们的模型是一个具有残差结构的完全卷积的架构,它将一个2D姿态序列作为输入,并通过时间卷积对其进行转换。卷积模型允许在批处理维度和时间维度上并行化,而RNNs不能在时间维度上并行化。在卷积模型中,无论序列长度如何,输出和输入之间的梯度路径都是固定长度的,这可以缓解影响RNN的消失和爆炸梯度。卷积架构也提供了对时间感受域的精确控制,这有利于建立三维姿态估计任务的时间依赖模型。此外,使用空洞卷积能够对长期依赖关系进行建模,同时也保持较高计算效率。(上图表示带有2D关键点的243帧图像,经过网络推理得到3D关节点)

4.2 半监督训练方法

image-20201126113555405

本文引入了一种半监督训练方法,以提高真实的标记数据不足的情况下的模型的准确性。我们利用未标记的视频,然后结合一个现成的2D关键点检测器,来扩展监督损失函数一个反向投影损失项。解决了未标记数据的自动编码问题:编码器(位姿估计器)根据二维关节坐标进行三维位姿估计,解码器(投影层)将三维位姿投影回二维关节坐标。当来自解码器的二维关节坐标远离原始输入时,训练就会受到惩罚。

上图将监督组件与充当正则化器的非监督组件组合在一起。这两个目标是共同优化的,标记数据占据Batch的前半部分,未标记数据占据Batch的后半部分一半。对于标记数据,我们使用真实三维姿态作为目标,训练一个监督损失。未标记的数据用于实现自动编码器损失,其中预测的3D姿态被投影回2D,然后检查与输入的一致性。

轨迹模型,由于透视投影,屏幕上的2D姿态都取决于轨迹(人体根节点整体位置,可以理解成人体中心点)和3D姿态(所有关节点相对于根关节的位置)。目标函数为每个关节的加权平均轨迹的位置误差(WMPJPE)。

骨骼长度损失,添加一个软约束来近似匹配未标记batch的受试者与已标记batch的受试者的平均骨长度。

5. 实验论证

5.1 数据集与评价标准

数据集有两个分别是Human3.6M,HumanEva-I,评价标准是Protocol 1: MPJPE(每个关节点的平均误差), Protocol 2:P-MPJPE(与标签数据对准后的平移、旋转、缩放误差),Protocol 3:N-MPJPE(只在比例上与真实标签相匹配)

5.2 2D姿态估计

2D姿态估计网络模型:stacked hourglass detector, Mask R-CNN with ResNet-101-FPN,CPN

5.3 3D姿态估计

image-20201126140916717

image-20201126141002629

image-20201126141144006

6. 总结

介绍了一个简单的完全卷积模型用于视频中三维人体姿态估计。网络结构利用时间信息在2D关键点轨迹上进行空洞卷积。这项工作的第二个贡献是反向投影,这是一种半监督训练方法,在标记数据稀缺的情况下提高性能。该方法适用于未标记的视频,只需要内在的摄像机参数,使其在运动捕捉具有挑战性的场景中切实可行。

7. 论文复现

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏深度学习从入门到精通

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3836

    浏览量

    138750
  • 深度学习
    +关注

    关注

    73

    文章

    5569

    浏览量

    123092
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    3D打印能用哪些材质?

    3D打印的材质有哪些?不同材料决定了打印效果、强度、用途乃至安全性,本文将介绍目前主流的3D打印材质,帮助你找到最适合自己需求的材料。
    的头像 发表于 07-28 10:58 ?471次阅读
    <b class='flag-5'>3D</b>打印能用哪些材质?

    如何在树莓派 AI HAT+上进行YOLO姿态估计

    大家好,接下来会为大家开一个树莓派5和YOLO的连载专题。内容包括四个部分:在树莓派5上使用YOLO进行物体和动物识别-入门指南在树莓派5上开启YOLO姿态估计识别之旅!如何在树莓派AIHAT+上进
    的头像 发表于 07-20 20:34 ?178次阅读
    如何在树莓派 AI HAT+上进行YOLO<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>?

    3D AD库文件

    3D库文件
    发表于 05-28 13:57 ?5次下载

    2025年3D工业相机选型及推荐

    3D工业相机的选型
    的头像 发表于 05-21 16:49 ?501次阅读
    2025年<b class='flag-5'>3D</b>工业相机选型及推荐

    基于RV1126开发板的人脸姿态估计算法开发

    人脸姿态估计是通过对一张人脸图像进行分析,获得脸部朝向的角度信息。姿态估计是多姿态问题中较为关键的步骤。一般可以用旋转矩阵、旋转向量、四元数
    的头像 发表于 04-14 17:21 ?1730次阅读
    基于RV1126开发板的人脸<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>算法开发

    3D闪存的制造工艺与挑战

    3D闪存有着更大容量、更低成本和更高性能的优势,本文介绍了3D闪存的制造工艺与挑战。
    的头像 发表于 04-08 14:38 ?1247次阅读
    <b class='flag-5'>3D</b>闪存的制造工艺与挑战

    EPLAN 2.6 3D宏制作与使用

    电子发烧友网站提供《EPLAN 2.6 3D宏制作与使用.pdf》资料免费下载
    发表于 03-11 15:53 ?1次下载

    3D打印中XPR技术对于打印效果的影响?

    我是3D打印设备的制造商,我想具体了解下3D打印中XPR技术对于打印效果的影响? 或者是否能提供对应的专利信息以备查阅
    发表于 02-18 07:59

    英伦科技裸眼3D便携屏有哪些特点?

    英伦科技裸眼3D便携屏采用了领先的光场裸眼3D技术,无需佩戴3D眼镜即可观看,给用户带来裸眼看3D视频的体验,为用户带来更加便捷和自由的视觉享受。
    的头像 发表于 02-06 14:20 ?579次阅读
    英伦科技裸眼<b class='flag-5'>3D</b>便携屏有哪些特点?

    SciChart 3D for WPF图表库

    SciChart 3D for WPF 是一个实时、高性能的 WPF 3D 图表库,专为金融、医疗和科学应用程序而设计。非常适合需要极致性能和丰富的交互式 3D 图表的项目。 使用我们
    的头像 发表于 01-23 13:49 ?747次阅读
    SciChart <b class='flag-5'>3D</b> for WPF图表库

    腾讯混元3D AI创作引擎正式发布

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具将为用户带来前所未有的3D内容创作体验,标志着腾讯在AI技术领域的又一重大突破。 混元3D AI创作引擎凭借其强大
    的头像 发表于 01-23 10:33 ?689次阅读

    腾讯混元3D AI创作引擎正式上线

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具,标志着腾讯在3D内容生成领域迈出了重要一步。 混元3D AI创作引擎的核心功能极为强大,用户只需通过简单的提示词
    的头像 发表于 01-22 10:26 ?685次阅读

    uvled光固化3d打印技术

    说到UVLED光固化3D打印技术,那可是当下3D打印领域的一股清流啊!这项技术利用紫外线和光固化树脂来制造3D打印模型,原理简单又高效。UVLED光固化3D打印,采用的是逐层固化的方式
    的头像 发表于 12-24 13:13 ?866次阅读
    uvled光固化<b class='flag-5'>3d</b>打印技术

    3D超高压电动试压泵

    3D
    jiaoyumeng
    发布于 :2024年12月03日 16:38:42

    透明塑料件喷粉3D扫描CAV全尺寸检测逆向3D建模设计服务-CASAIM

    3D建模
    中科院广州电子
    发布于 :2024年08月30日 10:04:53