0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习不是万灵药 神经网络3D建模其实只是图像识别

DPVg_AI_era ? 来源:yxw ? 2019-06-17 11:21 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着深度学习的大热,许多研究都致力于如何从单张图片生成3D模型。但近期一项研究表明,几乎所有基于深度神经网络的3D中重建工作,实际上并不是重建,而是图像分类。深度学习并不是万能的!

深度学习并不是万灵药。

近几年,随着深度学习的大热,许多研究攻克了如何从单张图片生成3D模型。从某些方面似乎再次验证了深度学习的神奇——doing almost the impossible。

但是,最近一篇文章却对此提出了质疑:几乎所有这些基于深度神经网络的3D重建的工作,实际上并不是进行重建,而是进行图像分类。

arXiv地址:

https://arxiv.org/pdf/1905.03678.pdf

在这项工作中,研究人员建立了两种不同的方法分别执行图像分类和检索。这些简单的基线方法在定性和定量上都比最先进的方法产生的结果要更好。

正如伯克利马毅教授评价:

几乎所有这些基于深度神经网络的3D重建的工作(层出不穷令人眼花缭乱的State of the Art top conferences 论文),其实还比不上稍微认真一点的nearest neighbor baselines。没有任何工具或算法是万灵药。

至少在三维重建问题上,没有把几何关系条件严格用到位的算法,都是不科学的——根本谈不上可靠和准确。

并非3D重建,而只是图像分类?

基于对象(object-based)的单视图3D重建任务是指,在给定单个图像的情况下生成对象的3D模型。

如上图所示,推断一辆摩托车的3D结构需要一个复杂的过程,它结合了低层次的图像线索、有关部件结构排列的知识和高层次的语义信息。

研究人员将这种情况称为重建和识别:

重构意味着使用纹理、阴影和透视效果等线索对输入图像的3D结构进行推理。

识别相当于对输入图像进行分类,并从数据库中检索最合适的3D模型。

虽然在其它文献中已经提出了各种体系结构和3D表示,但是用于单视图3D理解的现有方法都使用编码器——解码器结构,其中编码器将输入图像映射到潜在表示,而解码器执行关于3D的非平凡(nontrivial)推理,并输出空间的结构。

为了解决这一任务,整个网络既要包含高级信息,也要包含低级信息。

而在这项工作中,研究人员对目前最先进的编解码器方法的结果进行了分析,发现它们主要依靠识别来解决单视图3D重建任务,同时仅显示有限的重建能力。

为了支持这一观点,研究人员设计了两个纯识别基线:一个结合了3D形状聚类和图像分类,另一个执行基于图像的3D形状检索。

在此基础上,研究人员还证明了即使不需要明确地推断出物体的3D结构,现代卷积网络在单视图3D重建中的性能是可以超越的。

在许多情况下,识别基线的预测不仅在数量上更好,而且在视觉上看起来更有吸引力。

研究人员认为,卷积网络在单视图3D重建任务中是主流实验程序的某些方面的结果,包括数据集的组成和评估协议。它们允许网络找到一个快捷的解决方案,这恰好是图像识别。

纯粹的识别方法,性能优于先进的神经网络

实验基于现代卷积网络,它可以从一张图像预测出高分辨率的3D模型。

方法的分类是根据它们的输出表示对它们进行分类:体素网格(voxel grids)、网格(meshes)、点云和深度图。为此,研究人员选择了最先进的方法来覆盖主要的输出表示,或者在评估中已经清楚地显示出优于其他相关表示。

研究人员使用八叉树生成网络(Octree Generating Networks,OGN)作为直接在体素网格上预测输出的代表性方法。

与早期使用这种输出表示的方法相比,OGN通过使用八叉树有效地表示所占用的空间,可以预测更高分辨率的形状。

还评估了AtlasNet作为基于表面的方法的代表性方法。AtlasNet预测了一组参数曲面,并在操作这种输出表示的方法中构成了最先进的方法。它被证明优于直接生成点云作为输出的唯一方法,以及另一种基于八叉树的方法。

最后,研究人员评估了该领域目前最先进的Matryoshka Networks。该网络使用由多个嵌套深度图组成的形状表示,,这些深度图以体积方式融合到单个输出对象中。

对于来自AtlasNet的基于IoU的表面预测评估,研究人员将它们投影到深度图,并进一步融合到体积表示。 对于基于表面的评估指标,使用移动立方体算法从体积表示中提取网格。

研究人员实现了两个简单的基线,仅从识别的角度来处理问题。

第一种方法是结合图像分类器对训练形状进行聚类;第二个是执行数据库检索。

在聚类方面的基线中,使用K-means算法将训练形状聚类为K个子类别。

在检索基线方面,嵌入空间由训练集中所有3D形状的两两相似矩阵构造,通过多维尺度将矩阵的每一行压缩为一个低维描述符。

研究人员根据平均IoU分数对所有方法进行标准比较。

研究人员发现,虽然最先进的方法有不同体系结构的支持,但在执行的时候却非常相似。

有趣的是,检索基线是一种纯粹的识别方法,在均值和中位数IoU方面都优于所有其他方法。简单的聚类基线具有竞争力,性能优于AtlasNet和OGN。

但研究人员进一步观察到,一个完美的检索方法(Oracle NN)的性能明显优于所有其他方法。值得注意的是,所有方法的结果差异都非常大(在35%到50%之间)。

这意味着仅依赖于平均IoU的定量比较不能提供这种性能水平的全貌。 为了更清楚地了解这些方法的行为,研究人员进行了更详细的分析。

每类mIoU比较。

总的来说,这些方法在不同的类之间表现出一致的相对性能。检索基线为大多数类生成最佳重构。所有类和方法的方差都很大。

mIoU与每个类的训练样本数量。

研究人员发现一个类的样本数量和这个类的mIoU分数之间没有相关性。所有方法的相关系数c均接近于零。

定性的结果

聚类基线产生的形状质量与最先进的方法相当。 检索基线通过设计返回高保真形状,但细节可能不正确。 每个样本右下角的数字表示IoU。

左:为所选类分配IoU。 基于解码器的方法和显式识别基线的类内分布是类似的。 Oracle NN的发行版在大多数类中都有所不同。 右图:成对Kolmogorov-Smirnov检验未能拒绝两个分布的无效假设的类数的热图。

研究中的一些问题

参照系的选择

我们尝试使用视角预测网络对聚类基线方法进行扩展,该方法将重点回归摄像头的方位角和仰角等规范框架,结果失败了,因为规范框架对每个对象类都有不同的含义,即视角网络需要使用类信息来解决任务。我们对检索基线方法进行了重新训练,将每个训练视图作为单独样本来处理,从而为每个单独的对象提供空间。

量度标准

平均IoU通常在基准测试中被用作衡量单视图图像重建方法的主要量化指标。如果将其作为最优解的唯一衡量指标,就可能会出现问题,因为它在对象形状的质量值足够高时才能有效预测。如果该值处于中低水平,表明两个对象的形状存在显着差异。

如上图所示,将一个汽车模型与数据集中的不同形状的对象进行了比较,只有 IoU分数比较高(最右两张图)时才有意义,即使IoU=0.59,两个目标可能都是完全不同的物体,比较相似度失去了意义。

倒角距离(Chamfer distance)

如上图所示,两者目标椅子与下方的椅子的下半部分完美匹配,但上半部分完全不同。但是根据得分,第二个目标要好于第一个。由此来看,倒角距离这个量度会被空间几何布局显著干扰。为了可靠地反映真正的模型重建性能,好的量度应该具备对几何结构变化的高鲁棒性。

F-score

我们绘制了以观察者为中心的重建方式的F分数的不同距离阈值d(左)。在 d =重建体积边长的2%的条件下,F分数绝对值与当前范围的 mIoU分数相同,这并不能有效反映模型的预测质量。

因此,我们建议将距离阈值设为重建模型体积边长的1%以下来考察F值。如上图(右)中所示,在阈值d = 1%时,F分数为0.5以上。只有一小部分模型的形状被精确构建出来,预设任务仍然远未解决。我们的检索基线方法不再具有明显的优势,进一步表明使用纯粹的识别方法很难解决这个问题。

现有的基于CNN的方法在精度上表现良好,但丢失了目标的部分结构

未来展望

在这项研究中,研究人员通过重建和识别来推断单视图3D重建方法的范围。

工作展示了简单的检索基线优于最新、最先进的方法。分析表明,目前最先进的单视图3D重建方法主要用于识别,而不是重建。

研究人员确定了引起这种问题的一些因素,并提出了一些建议,包括使用以视图为中心的坐标系和鲁棒且信息量大的评估度量(F-score)。

另一个关键问题是数据集组合,虽然问题已经确定,但没有处理。研究人员正努力在以后的工作中纠正这一点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像识别
    +关注

    关注

    9

    文章

    529

    浏览量

    39268
  • 3D建模
    +关注

    关注

    0

    文章

    35

    浏览量

    10031
  • 深度学习
    +关注

    关注

    73

    文章

    5569

    浏览量

    123089

原文标题:深度学习不是万灵药!神经网络3D建模其实只是图像识别?

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    BP神经网络深度学习的关系

    BP神经网络深度学习之间存在着密切的关系,以下是对它们之间关系的介绍: 一、BP神经网络的基本概念 BP神经网络,即反向传播
    的头像 发表于 02-12 15:15 ?989次阅读

    BP神经网络图像识别中的应用

    BP神经网络图像识别中发挥着重要作用,其多层结构使得网络能够学习到复杂的特征表达,适用于处理非线性问题。以下是对BP神经网络
    的头像 发表于 02-12 15:12 ?791次阅读

    深度学习入门:简单神经网络的构建与实现

    深度学习中,神经网络是核心模型。今天我们用 Python 和 NumPy 构建一个简单的神经网络神经网络由多个
    的头像 发表于 01-23 13:52 ?601次阅读

    人工神经网络的原理和多种神经网络架构方法

    所拟合的数学模型的形式受到大脑中神经元的连接和行为的启发,最初是为了研究大脑功能而设计的。然而,数据科学中常用的神经网络作为大脑模型已经过时,现在它们只是能够在某些应用中提供最先进性能的机器
    的头像 发表于 01-09 10:24 ?1404次阅读
    人工<b class='flag-5'>神经网络</b>的原理和多种<b class='flag-5'>神经网络</b>架构方法

    卷积神经网络在自然语言处理中的应用

    自然语言处理是人工智能领域的一个重要分支,它致力于使计算机能够理解、解释和生成人类语言。随着深度学习技术的发展,卷积神经网络(CNNs)作为一种强大的模型,在图像识别和语音处理等领域取
    的头像 发表于 11-15 14:58 ?912次阅读

    卷积神经网络与传统神经网络的比较

    深度学习领域,神经网络模型被广泛应用于各种任务,如图像识别、自然语言处理和游戏智能等。其中,卷积神经网络(CNNs)和传统
    的头像 发表于 11-15 14:53 ?2041次阅读

    深度学习中的卷积神经网络模型

    深度学习近年来在多个领域取得了显著的进展,尤其是在图像识别、语音识别和自然语言处理等方面。卷积神经网络作为
    的头像 发表于 11-15 14:52 ?935次阅读

    卷积神经网络的基本原理与算法

    ),是深度学习的代表算法之一。 一、基本原理 卷积运算 卷积运算是卷积神经网络的核心,用于提取图像中的局部特征。 定义卷积核:卷积核是一个小的矩阵,用于在输入
    的头像 发表于 11-15 14:47 ?1928次阅读

    LSTM神经网络在语音识别中的应用实例

    语音识别技术是人工智能领域的一个重要分支,它使计算机能够理解和处理人类语言。随着深度学习技术的发展,特别是长短期记忆(LSTM)神经网络的引入,语音
    的头像 发表于 11-13 10:03 ?1982次阅读

    关于卷积神经网络,这些概念你厘清了么~

    许多种类型,但本文将只关注卷积神经网络(CNN),其主要应用领域是对输入数据的模式识别和对象分类。CNN是一种用于深度学习的 人工神经网络
    发表于 10-24 13:56

    AI大模型在图像识别中的优势

    AI大模型在图像识别中展现出了显著的优势,这些优势主要源于其强大的计算能力、深度学习算法以及大规模的数据处理能力。以下是对AI大模型在图像识别中优势的介绍: 一、高效性与准确性 处理速
    的头像 发表于 10-23 15:01 ?2624次阅读

    【飞凌嵌入式OK3576-C开发板体验】RKNPU图像识别测试

    RKNPU在深度学习运算能力上有了显著的提升。 2.3、技术特点 高性能 :RKNPU采用专门的硬件架构和优化算法,能够实现高效的神经网络计算,满足复杂场景下的实时处理需求。 低功耗 :RKNPU在提供
    发表于 10-10 09:27

    matlab 神经网络 数学建模数值分析

    matlab神经网络 数学建模数值分析 精通的可以讨论下
    发表于 09-18 15:14

    深度识别算法包括哪些内容

    深度识别算法是深度学习领域的一个重要组成部分,它利用深度神经网络模型对输入数据进行高层次的理解和
    的头像 发表于 09-10 15:28 ?902次阅读

    深度识别人脸识别在任务中为什么有很强大的建模能力

    通过大量数据进行训练,能够自动学习到人脸的特征表示,而不需要人为设计特征提取算法。 多层神经网络结构 :深度学习模型通常包含多层神经网络,这
    的头像 发表于 09-10 14:53 ?908次阅读