0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Transformer的可泛化人体表征设计方案

3D视觉工坊 ? 来源:3D视觉工坊 ? 2023-11-23 11:25 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:潘啸,论文第一作者

0. 笔者前言

可泛化人体重建旨在在多个人体视频上进行预训练,学习可泛化的重建先验。在测试阶段,给定新人物的稀疏视角参考图,在无需微调或者训练的情况下,可直接输出新视角。以往方法大部分使用基于稀疏卷积(SparseConvNet)的人体表征方式,然而,一方面,稀疏卷积有限的感受野导致其对人体的自遮挡十分敏感,另一方面,其输入为不断变化的观察空间姿势下的人体,导致训练和推理阶段的姿势不匹配问题,降低了泛化能力。

不同于此,本文工作TransHuman使用Transformer围绕SMPL表面构建了人体部位之间的全局联系,并且将输入统一在标准姿势下,显著的提升了该表征的泛化能力。在多个数据集上达到了新SOTA的同时,具有很高的推理效率。

本文专注于可泛化人体重建任务。为了处理动态人体的运动和遮挡,之前方法主要采用了基于稀疏卷积的人体表征。然而,该表征方式1)在多变的观察姿势空间进行优化,导致训练与测试阶段输入姿势不一致,从而降低泛化性; 2)缺少人体部位之间的全局联系,从而导致对人体的遮挡敏感。为了解决这两个问题,我们提出了一个新的框架TransHuman。TransHuman在标准姿势空间进行优化, 并且使用Transformer构建了人体部位之间的联系。具体来讲,TransHuman由三个部分组成:基于Transformer的人体编码(TransHE), 可形变局部辐射场(DPaRF), 以及细粒度整合模块 (FDI). 首先,TransHE在标准空间使用Transformer处理SMPL;然后,DPaRF将TransHE输出的每个Token视为一个可形变的局部辐射场来获得观察空间下某一查询点的特征。最后,FDI进一步从参考图中直接收集细粒度的信息。本文在ZJU-MoCap及H36M上进行大量实验,证明了TransHuman的泛化性显著优于之前方法,并具有较高的推理效率。

4. 算法解析

Pipeline概览 / 研究背景

TransHuman的pipeline如图4所示。整个pipeline可以抽象为:给定空间中一个查询点(Query Point),我们需要从多视角参考图中提取一个对应的 条件特征(Condition Feature) 输入NeRF,从而实现泛化能力(详细可参考PixelNeRF)。而条件特征主要由两部分组成:表面特征(Appearance Feature)及人体表征(Human Representation)。

表面特征:该特征可由将查询点通过相机参数进行反向投影后在参考图中进行插值得到,其直接反应参考图中的原始RGB信息,因此属于细粒度信息。但由于其缺少人体几何先验信息,仅使用此特征会导致人体几何的崩塌(详见Paper原文实验部分);

人体表征:为获得人体表征,首先通过现有的SMPL估计方法,从视频中拟合出一个SMPL模版(Fitted SMPL,数据集一般自带)。然后对于SMPL的每一个顶点,将其反向投影到参考图得到该顶点对应的CNN Feature,就得到了着色之后的SMPL(Painted SMPL)。从着色之后的SMPL提取出来的特征便是人体表征。人体表征包含了人的几何先验,因此在pipeline中起着关键作用,也是本文的研究重点。

c3b6e30e-7245-11ee-939d-92fbcf53809c.png

图4:Pipeline概览图

研究动机

之前的方法主要利用稀疏卷积(SparseConvNet) 来得到人体表征 ,如图5上半部分所示。该方法主要有两个问题:

多变的输入姿势问题。 稀疏卷积的输入为观察姿势下的SMPL,也就是说其输入的姿势会随着帧数的变化而变化。这导致了训练和推理阶段的输入姿势不一致问题(推理阶段的人的姿势可能是各种各样的),从而极大的增加了泛化的难度。

局部感受野问题。 由于我们所能获取的参考图往往是十分稀疏的(本文默认采用3个视角),所以着色之后的SMPL通常包含大量的被遮挡部分。而另一方面,稀疏卷积本质是3D卷积,其感受野比较有限,从而导致无法进行人体部位之间的全局的推理。具体举例来说,假设人的左手是可见的而右手是被遮挡的,如果有全局之间的关系,那么网络理论上可以推断出右手被遮挡的部分大概是什么样。基于此直觉,我们认为在人体不同部位之间构建全局关系是很重要的。

为了解决以上两个问题,我们提出了本文关键的两个创新点(如图5下半部分所示),即:

用Transformer在SMPL表面之间构建全局关系,即TransHE部分。

将网络输入先统一在标准空间(比如T-pose的SMPL),然后将输出通过SMPL形变的方式转化回观察姿势进行特征提取,即DPaRF部分。

c3c10172-7245-11ee-939d-92fbcf53809c.png

图5:研究动机。SPC-base (Previous) vs. Transformer-based (Ours)。

基于Transformer的人体编码 (TransHE)

接下来我们详细介绍TransHE的细节。

如图7左下角所示,TransHE模块的输入是Painted SMPL (6890 x d1,d1为CNN feature的维度)。一种直接的做法是将6890个Token输入Transformer(本文使用ViT-Tiny),然而这种做法:

会带来巨大的计算开销。

会引入细粒度误差(Fitted SMPL只是人体的粗略模版而不包含衣物等细节,因此其着色本身也存在一定的误差)。

基于这两个问题,我们需要降低输入Transformer的Token数量。

一种非常直接的想法是对Painted SMPL进行grid voxelization,即,将空间均匀划分为一个个小方块,在同一个方块内的顶点取平均算做一个Token,同时把方块中心作为Token对应的PE。但由于Painted SMPL是在观察姿势下的,而观察姿势随着输入帧的变化而变化,这就导致每次输入ViT的Token数量以及PE都在变化,使得优化变得十分困难,而且会将不同语义部分划分到同一个Token。图6举了一个人移动右手的例子,在这种情况下,grid voxelization对点的划分会随着姿势的变化而变化,并且将左手和右手的顶点划分在了同一个Token,这显然不是我们所希望的。

为了进一步解决这个问题,我们提出先对标准姿势SMPL(本文使用T-pose)进行K-Means聚类(本文默认聚300类)得到一个分组的字典。然后用该字典对Painted SMPL进行划分,同一类的特征取均值作为Token,同时将标准姿势SMPL下的聚类中心作为PE输入ViT。这样一来,Token数量和PE便不再受观察姿势的影响,极大的降低了学习的难度,如图6右侧所示。

c3d526c0-7245-11ee-939d-92fbcf53809c.png

图6:简单的Grid Voxelization划分方式(左) vs. 我们的划分方式(右)。

可形变局部辐射场 (DPaRF)

由于我们在TransHE模块将输入统一在了标准姿势,而我们最终需要的是观察姿势 下给定查询点 对应的特征,因此,我们需要将TransHE的输出变回到观察姿势。这里我们的思路是,为每个Token(对应一个身体部位)维护一个局部辐射场,且该辐射场的坐标系随着观察姿势 一起旋转,如图7右下角所示。

然后对于每一个查询点, 我们将其分配到距离最近的K个局部辐射场。对于每个局部辐射场,我们将Token与该场下的局部坐标进行拼接得到该场下的人体表征。最终的人体表征 则是这K个场的所有人体表征的加权和(根据距离加权)。

细粒度整合模块 (FDI)

通过TransHE和DPaRF, 我们已经得到了给定查询点的人体表征,该表征包含了粗粒度的人体几何先验信息。接下来,和之前的工作类似,我们使用一个Cross-attention模块,将粗粒度的人体表征 视作Q,细粒度的表面特征 视为K和V,得到最终的条件特征。

c3df00f0-7245-11ee-939d-92fbcf53809c.png

图7:Pipeline细节图。

5. 实验结果

本文在ZJU-MoCap和H36M上进行了泛化性实验,结果如下图所示。主要分为四个setting: Pose的泛化,Identity的泛化,只给一张参考图的泛化,以及跨数据集的泛化。在四个setting上均显著高于之前方法,达到了新的SOTA。

c3efd18c-7245-11ee-939d-92fbcf53809c.png

同时,作者还给出了在其代码中直接将TransHE + DPaRF模块替换成原来的SPC-based方法,以争取尽量公平的对比。结果如下图所示,本文方法仍明显领先。

c4177264-7245-11ee-939d-92fbcf53809c.png

另外,作者对本文方法的效率也给出了分析。在使用相同推理时间的情况下,本文方法性能仍然明显高于之前的方法,并且推理消耗的内存更小。可见本文方法具有比较高的推理效率。

c4230c3c-7245-11ee-939d-92fbcf53809c.png

更多详细的Ablation以及可视化推荐大家阅读原文及观看项目主页的视频DEMO。

6. 总结

本文为可泛化人体重建领域引入了一种新的基于Transformer的人体表征。该表征在人体部件之间构建了全局关系,并将优化统一在了标准姿势下。其泛化性能明显优于先前的基于稀疏卷积的表征,而且具有比较高的推理效率,为后续可泛化人体重建的研究提供了一个新的更高效的模块。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Transformer
    +关注

    关注

    0

    文章

    152

    浏览量

    6550

原文标题:ICCV 2023开源 | 基于Transformer的可泛化人体表征来了!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智能人体心率检测装置的设计方案

    智能人体心率检测装置的设计方案 0 引 言   心率是人体中一个非常重要的生命信息,而传统的脉诊由于其定性和主观性影响了心率测试的精度,成为中医脉诊
    发表于 04-20 15:30 ?1961次阅读
    智能<b class='flag-5'>人体</b>心率检测装置的<b class='flag-5'>设计方案</b>

    基于DINO知识蒸馏架构的分层级联Transformer网络

    在本文的网络设计中,训练阶段首先会训练第一阶段的 Transformer 网络来得到一个有较好表征能力的特征生成器,随后再引入池操作,加上二三阶段 Transformer 共同训练。
    发表于 07-25 16:58 ?1582次阅读

    如何使用ads1298采集人体表面的表面肌电信号?

    目前正在做一个项目,使用ads1298采集人体表面的表面肌电信号。能否请大家提供一个简单的demo参考学习?
    发表于 12-20 07:05

    眼科超声波诊断仪的设计方案

    眼科超声波诊断仪的设计方案在超声诊断技术不断发展的形势下,各类专科超声设备也得到了很大的发展。其中眼科A/B超是发展最迅速的专科超声设备之一。眼睛属于体表小器官,其特点决定了眼科A/B超需要较高
    发表于 11-30 11:40

    小区智能系统设计方案

    小区智能系统设计方案
    发表于 08-18 15:38

    笨人的创意,创意智能插座设计方案,绝对实现

    发点不太高大上的东东,以下是我精心整理的智能插座设计方案,单片机领域竞争是在太厉害,撸主这样的小虾米只能从别的找找突破口,比如这个智能插座吧,别看它小,实用性可不小,这些方案都是我亲自试验过可以实现
    发表于 09-07 17:47

    品佳:适用于家庭智能照明的无线控制设计方案

    高整合度的球泡灯设计方案. 另, 当客户欲设计自有智能家庭方案时, 品佳亦可协助建置恩智浦的完整开发平台.其主要特色为,? 弹性、轻松扩充而具成本效益的软件解决方案 ? IP 式高度
    发表于 01-28 17:05

    大神求助tps333热电堆传感器为主的人体表面温度检测电路

    各位大神求助一个以tps333热电堆传感器为主的人体表面温度检测电路,需要什么运放,环境温度补偿电路怎么设计,求指教
    发表于 04-08 16:52

    ABBYY FineReader 和 ABBYY PDF Transformer+功能比对

    图像文件和PDF文件转换为可编辑、搜索格式PDF专业解决方案应用场景将扫描或PDF文件转换为可编辑、搜索格式丰富、广泛的功能集合(文本编辑器、版面矫正等)基础功能数码相机 OCR√[/td]纸质文件数字
    发表于 09-01 10:45

    AMEYA360设计方案人体感应灯

    人体感应灯对检测距离的要求;芯片自带 940nm 带通滤波,可以有效滤除掉使用环境中的其他波段可见光及红外光;驱动红外 LED 脉宽仅 25.6μs,驱动电流从 5.6mA-360mA 可配置,9μA 平均电流消耗,可使系统平均功耗降低,满足系统电池供电要求。方案框图`
    发表于 05-08 14:38

    在网是什么?

    的普遍共识。ITU-T 、3GPP、ETSI 等相关标准组织都已经启动了在网相关的研究,在网在全球正在从设想变成现实,从局部应用变为规模推广。
    发表于 10-10 09:12

    分享一款不错的基于LM358的人体感应灯电路设计方案

    LM358的封装形式有哪几种?基于LM358的人体感应灯电路设计方案
    发表于 04-14 06:34

    HarmonyOS的组件设计方案

    能力、适配多种终端形态”,HarmonyOS采用了“组件”的设计方案,实现根据设备的资源能力和业务特征灵活裁剪,满足不同形态终端设备对操作系统的要求。 一、为什么采用“组件设计方案
    的头像 发表于 10-13 09:59 ?2802次阅读

    应用案例 I 人体及医用红外热像仪检测校准系统方案

    明策科技MTC人体及医用红外热像仪检测校准系统方案医疗红外检定智能方案符合GB/T19665-2005电子红外成像人体表面测温仪规范GB/
    的头像 发表于 04-04 10:00 ?1602次阅读
    应用案例 I  <b class='flag-5'>人体</b>及医用红外热像仪检测校准系统<b class='flag-5'>方案</b>

    SHERF:驱动人体神经辐射场的新方法

    人体神经辐射场的目标是从 2D 人体图片中恢复高质量的 3D 数字人并加以驱动,从而避免耗费大量人力物力去直接获取 3D 人体几何信息。这个方向的探索对于一系列应用场景,比如虚拟现实和辅助现实场景,有着非常大潜在性的影响。
    的头像 发表于 08-15 11:46 ?1105次阅读
    SHERF:<b class='flag-5'>可</b><b class='flag-5'>泛</b><b class='flag-5'>化</b><b class='flag-5'>可</b>驱动<b class='flag-5'>人体</b>神经辐射场的新方法