0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度预测模型推断移动中的人的场景深度

电子工程师 ? 来源:YXQ ? 2019-05-27 11:23 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

谷歌近日推出了在计算机视觉领域模拟重建人类视觉的新模型,与以往方法不同的是,新模型利用AI,通过普通Youtube视频预测深度图,可以在场景内的摄像头和人同时运动的复杂情况下生成自然视频。

人类的视觉系统具有非凡的能力,可以从2D投影中理解3D世界。即使在包含多个移动物体的复杂环境中,人也能够对物体的几何形状和深度的排序进行可行的解释。长期以来,计算机视觉领域都在研究如何通过2D图像数据计算重建场景的几何特征,来实现和人类类似的能力,但在许多情况下,仍然难以实现具备充分鲁棒性的重建。

当摄像头和场景中的物体都在自由移动时,是实现重建的最困难的情况。这种情况混淆了基于三角测量的传统3D重建算法,该算法假设可以同时从至少两个不同的观察点观察到相同的对象。满足这个假设需要一个多摄像头阵列,或者单摄像头移动,但场景目标本身是静止状态。因此,现有的大多数方法要么需要过滤掉移动的目标(将移动目标的深度固定为“零”),要么直接忽略移动目标(会导致深度值发生错误)。

左图:传统的立体设置假设至少有两个观察点在同时捕捉场景。右图:我们考虑摄像头和拍摄对象都在移动的情况。

我们通过基于深度学习的方法来解决这个基本问题,该方法可以从普通视频中生成深度图,场景中的摄像头和主体目标都可以自由移动。模型从数据中学习人体姿势和形状的先验知识,无需直接3D三角测量。尽管最近使用机器学习进行深度预测逐渐兴起,但这项工作是第一个针对同时在摄像头和目标都在运动的状态下的基于学习的方法。

本研究中的观察目标是人类,人类是增强现实和3D视频效果的有趣目标。

我们的模型可以预测深度图(右图,离摄像头越近,图中越亮),场景中的人和摄像头都在自由移动。

训练数据

我们以监督学习的方式训练深度预测模型,该模型需要通过移动的摄像头捕获的自然场景视频以及精确的深度图。关键问题是从何处获取此类数据。综合生成数据需要对各种场景和自然人类行为进行逼真的建模和渲染,这是很困难的任务。

此外,针对这样的数据训练的模型可能难以推广到真实场景中。另一种方法可能是用RGBD传感器(如微软的Kinect)记录真实场景,但深度传感器通常仅限于室内环境,而且要面临3D重建上的一系列问题。

我们利用现有的数据来进行监督学习:即YouTube视频,视频中的人们通过自己定格在各种自然姿势,模仿人体模特效果,而手持摄像机则在现场记录。

因为整个场景是静止的(只有摄像机在移动),所以基于三角测量的方法是行得通的,可以获得包括其中人物在内的整个场景的精确深度图。我们收集了大约2000个这样的视频,涵盖了各种逼真的场景,场景中的人按照不同的分组配置自然分布。

人们在摄像头在场景中移动时模仿人体模特,我们将其作为训练数据。我们使用传统的MVS算法来估计深度,并在深度预测模型的训练中将其用于监督。

推断移动中的人的场景深度

Mannequin挑战视频对移动中的摄像机和“定格”的人进行深度监控,但我们的目标是利用移动的摄像头和移动的人来处理视频。我们需要构建网络输入来弥补这一差距。

一种可能的方法是为视频的每一帧都进行深度图推断(也就是对模型的输入相当于单帧图像)。虽然这种模型改进了用于深度预测的最先进的单帧方法,但是我们可以通过来自多帧的信息组合来进一步改善结果。比如运动视差,即两个不同视点之间的静态物体的明显的相对运动,就对深度推断提供了有力线索。为了充分利用这些信息,我们计算了视频中每个输入帧和另一帧之间的2D光流,用它表示两帧之间的像素位移。

这些光流场取决于场景的深度和摄像头的相对位置。但是,由于摄像头位置是已知的,可以从流场中去除二者之间的依赖关系,由此生成初始深度图。此初始深度仅对静态场景区域有效。为了在测试时处理运动中的人,可以利用人工分割网络来盖住初始深度图中的人类区域。这样,我们网络的完整输入包括:RGB图像、盖住人类的区域,以及基于视差的遮盖后的深度图。

深度预测网络:模型的输入包括RGB图像(第t帧),人类区域的遮盖和非人类区域的初始深度,根据输入帧与另一个之间的运动视差(光流)计算视频中的帧。模型输出第t帧的完整深度图。由MVS算法计算出的深度图负责对训练过程的监督。

该网络的作用是“修复”人与场景的深度值,并在其他地方细化深度值。因为人类的外形和大小特征几乎一致,网络可以通过观察多个训练样例,在模型内部学习这些先验知识。经过训练后,模型就可以处理任意摄像头和人体同时运动的视频。

来看一段介绍视频:

以下是基于视频的深度预测模型结果的一些示例,并与最近基于最新学习的方法做了比较。

上图:基于学习的单眼深度预测方法。 下图:基于学习的立体方法(DeMoN)和我们的估计深度图的结果。

使用深度图处理3D视频效果

我们预测的深度图可用于产生一系列3D感知视频效

使用估计深度图产生的散景效果

我们的深度图也可用于其他方面的应用,包括利用单眼视频生成立体视频,将合成CG对象插入场景,还可以在视频的其他帧中显示内容的情况下进行场景区域的填充。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108559
  • 深度学习
    +关注

    关注

    73

    文章

    5569

    浏览量

    123087

原文标题:Google AI:机器学习预测场景深度图,模拟人眼更进一步

文章出处:【微信号:smartman163,微信公众号:网易智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 ?1474次阅读
    自动驾驶<b class='flag-5'>中</b>Transformer大<b class='flag-5'>模型</b>会取代<b class='flag-5'>深度</b>学习吗?

    晶圆切割深度动态补偿的智能决策模型与 TTV 预测控制

    摘要:本文针对超薄晶圆切割过程 TTV 均匀性控制难题,研究晶圆切割深度动态补偿的智能决策模型与 TTV 预测控制方法。分析影响切割深度
    的头像 发表于 07-23 09:54 ?169次阅读
    晶圆切割<b class='flag-5'>深度</b>动态补偿的智能决策<b class='flag-5'>模型</b>与 TTV <b class='flag-5'>预测</b>控制

    存储示波器的存储深度对信号分析有什么影响?

    存储深度(Memory Depth)是数字示波器的核心参数之一,它直接决定了示波器在单次采集过程能够记录的采样点数量。存储深度对信号分析的影响贯穿时域细节捕捉、频域分析精度、触发稳定性等多个维度
    发表于 05-27 14:39

    摩尔线程与当虹科技达成深度合作

    近日,摩尔线程与当虹科技达成深度合作,基于国产GPU成功完成了与BlackEye多模态视听大模型深度融合。双方联手打造专业级视听“引擎”,并在超高清GPU算力场景
    的头像 发表于 03-20 15:22 ?717次阅读

    【AIBOX 应用案例】单目深度估计

    ?Firefly所推出的NVIDIA系列的AIBOX可实现深度估计,该技术是一种从单张或者多张图像预测场景深度信息的技术,广泛应用于计算机视觉领域,尤其是在三维重建、场景理解和环境感知
    的头像 发表于 03-19 16:33 ?512次阅读
    【AIBOX 应用案例】单目<b class='flag-5'>深度</b>估计

    在OpenVINO?工具套件的深度学习工作台中无法导出INT8模型怎么解决?

    无法在 OpenVINO? 工具套件的深度学习 (DL) 工作台中导出 INT8 模型
    发表于 03-06 07:54

    DLPDLCR3310EVM需要考虑投影仪在工作距离固定时,景深有多大?

    需要考虑投影仪在工作距离固定时,景深有多大?这决定投影仪能在深度方向所成的清晰像的区间。
    发表于 02-18 07:09

    设智控全面接入DeepSeek加速AI+设备资产管理全场景深度融合

    近日,设智控完成DeepSeek于ACCM3设备资产综合管控服务内的部署,并且即将推出AI+设备资产综合管控的相关应用场景,推动设备资产管理从数字化向AI+数智化的演进。通过人工智能与设备资产管理
    的头像 发表于 02-14 09:43 ?760次阅读
    <b class='flag-5'>中</b>设智控全面接入DeepSeek加速AI+设备资产管理全<b class='flag-5'>场景深度</b>融合

    百川智能发布全场景深度思考模型Baichuan-M1-preview

    近日,百川智能正式发布了国内首个全场景深度思考模型——Baichuan-M1-preview。这一创新成果标志着我国在人工智能领域取得了重要突破,特别是在语言、视觉和搜索三大领域的推理能力上实现了
    的头像 发表于 02-05 13:51 ?670次阅读

    百川智能发布全场景深度思考模型Baichuan-M1-preview

    1月24日,百川智能正式发布了全场景深度思考模型Baichuan-M1-preview。 Baichuan-M1-preview同时具备语言、视觉和搜索三大领域推理能力的模型。在数学、代码等权威评测
    的头像 发表于 01-24 14:40 ?1106次阅读

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    准确性。 类别不平衡问题:当某些类别的样本数远多于其他类别时,分类器可能会偏向多数类别,导致少数类别的预测精度较低。 过拟合风险:复杂的模型容易在训练数据上过拟合,即学到了训练数据的特定特征而不是一般化
    发表于 12-19 14:33

    GPU深度学习应用案例

    GPU在深度学习的应用广泛且重要,以下是一些GPU深度学习应用案例: 一、图像识别 图像识别是深度学习的核心应用领域之一,GPU在加速图像识别模型
    的头像 发表于 10-27 11:13 ?1603次阅读

    FPGA加速深度学习模型的案例

    FPGA(现场可编程门阵列)加速深度学习模型是当前硬件加速领域的一个热门研究方向。以下是一些FPGA加速深度学习模型的案例: 一、基于FPGA的AlexNet卷积运算加速 项目名称
    的头像 发表于 10-25 09:22 ?1343次阅读

    AI大模型深度学习的关系

    AI大模型深度学习之间存在着密不可分的关系,它们互为促进,相辅相成。以下是对两者关系的介绍: 一、深度学习是AI大模型的基础 技术支撑 :深度
    的头像 发表于 10-23 15:25 ?3073次阅读

    FPGA做深度学习能走多远?

    支持不同的数据精度、量化和激活函数等。这种灵活性使其能够适应各种深度学习任务,为不同的应用场景提供定制化的解决方案。 ? 低功耗:FPGA 是可编程的,可以在设计仅使用所需的计算资源,从而避免不必要
    发表于 09-27 20:53