0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何以模型和场景为中心的方式控制数据生成

3D视觉工坊 ? 来源:计算机视觉深度学习和自 ? 作者:黄浴 ? 2022-10-26 11:06 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

训练计算机视觉模型通常需要在各种场景配置和属性下收集和标注大量图像。这个过程非常耗时,确保捕获的数据分布很好地映射到应用程序场景的目标域也是一个挑战。

最近,合成数据已成为解决这两个问题的一种方法。然而,现有的方法要么需要人类专家手动调整每个场景属性,要么用几乎没有控制的自动方法;这需要渲染大量随机的数据变异,其过程很慢,并且对于目标域来说通常是次优的。

作者提出了第一个完全可微分的合成数据流水线,在闭环中用神经辐射场(NERF),其具备目标应用的损失函数。这个方法按需生成数据,无需人力,最大限度地提高目标任务的准确性。

该方法在合成和真实目标检测任务中具备有效性。一个新的“YCB-in-the-Wild”数据集和基准,为现实环境中具有不同姿态的目标检测提供了测试场景。

最近,图像生成技术神经辐射场(NeRF),作为用基于神经网络的渲染器,替代传统光栅化和光线跟踪图形学流水线的方法。这种方法可以生成高质量的场景新视图,无需进行明确的3D理解。NeRF的最新进展允许控制其他渲染参数,如照明、材质、反照率、外观等。因此,被广泛应用于各种图形和视觉任务。

NeRF及其变型具有一些诱人的特性:(i)可差分渲染,(ii)与GANs和VAEs不同的对场景属性的控制,以及(iii)与传统渲染器相比,数据驱动的模式,而传统渲染器需要精心制作3D模型和场景。这些属性适合于为给定目标任务按需生成最佳数据。

NeRF更适合学习生成合成数据集的优势在于两个方面。 首先,NeRF学习仅基于图像数据和摄像头姿态信息从新视图生成数据。

相反,传统的图形学流水线需要目标的3D模型作为输入。获得具有正确几何、材质和纹理属性的精确3D模型通常需要人类专家(即艺术家或建模师)。这反过来限制了传统图形学流水线在许多新目标或场景的大规模渲染中的可扩展性。

其次,NeRF是一种可微分的渲染器,因此允许通过渲染流水线进行反向传播,学习如何以模型和场景为中心的方式控制数据生成。 工作目标是自动合成最佳训练数据,最大限度地提高目标任务的准确性,取名为Neural-Sim

在这项工作中,将目标检测作为目标任务。此外,最近,NeRF及其变型(NeRFs)已用于合成复杂场景的高分辨率真实感图像。这里提出了一种优化NERF渲染参数的技术,生成用于训练目标检测模型的最佳图像集。

如图所示:(a) 按需合成数据生成:给定目标任务和测试数据集,Neural- Sim使用完全可微分的合成数据生成流水线按需生成数据,最大限度地提高目标任务的精度。(b) 训练/测试域间隙导致检测精度显著下降(黄色条至灰色条)。动态优化渲染参数(姿势/缩放/照明),生成填充该间隙的最佳数据(蓝色条)。

a0a81ae0-4852-11ed-a3b6-dac502259ad0.png


NeRF模型

NeRF表示为V =(φ,ρ),把观察方向(或摄像头姿态)作为输入,并渲染沿V观看的场景图像x=NeRF(V)。注意,这里技术通常广泛适用于不同的渲染器。这项工作中还优化了NeRF-in-the-wild(NeRF-w),允许外观和照明变化以及姿势变化。

合成训练数据生成

考虑渲染参数V的参数概率分布pψ,其中ψ表示分布的参数。应注意,ψ对应于所有渲染参数,包括姿势/缩放/照明,这里,为了简单起见,ψ表示姿势变量。为了生成合成训练数据,首先采样渲染参数V1、V2、…、VN~ pψ。然后,用NeRF生成具有各自渲染参数Vi的合成训练图像xi=NeRF(Vi)。 使用现成的前景提取器获得标签y1,y2,…,yN。由此生成的训练数据集表示为Dtrain = {(x1,y1)、(x2,y2),…,(xN,yN)}。

优化合成数据生成

目标是优化渲染分布pψ,在Dtrain上训练目标检测模型使得在Dval上获得良好的性能。如此构建一个两层优化,即:

a0c77e6c-4852-11ed-a3b6-dac502259ad0.png

其中

a0dfe2ea-4852-11ed-a3b6-dac502259ad0.png

a0f6458a-4852-11ed-a3b6-dac502259ad0.png

这里求解方法采用如下的梯度计算:其分成两个项分别估计,?NeRF对应于通过从NeRF生成数据集的反向传播,以及?TV对应于通过训练和验证的近似反向传播

a1164a42-4852-11ed-a3b6-dac502259ad0.png

如图所示Neural-Sim的流水线:从经过训练的神经渲染器(NeRF)中找到生成视图的最佳参数,用作目标检测的训练数据。目标是找到能够生成合成训练数据Dtrain的最佳NeRF渲染参数ψ,在Dtrain上训练的模型(取RetinaNet为例)最大化验证集Dval表示的下游任务的精度。


a131ca7e-4852-11ed-a3b6-dac502259ad0.png

近似计算:

a157ff32-4852-11ed-a3b6-dac502259ad0.png

然后基于链式法则得到:

a17da4ee-4852-11ed-a3b6-dac502259ad0.png

为计算采用一些近似方法:

对于位姿参数离散区间上的分布pψ,提出了一种ψ的重新参数化,提供了dVi/dψ的有效近似(工具 1)。

用一种两次向前一次向后(twice-forward-once-backward)的方法(工具2),大大减少了(2)中梯度近似的内存和计算开销。如果没有这种新技术,实现中需要涉及大矩阵和计算图的高计算开销。

即使使用上述技术,在GPU内存方面,(3)中计算第一项和第二项的开销很大,取决于图像大小。用逐块梯度计算方法(工具 3)克服了这一问题。

关于工具1中重新参数化的实现,采用bin-samplinng,如图所示:首先将位姿空间离散为一组k个bins,然后对其进行采样以生成NeRF的视图参数。为了在采样过程中反向传播,用Gumble softmax的“重新参数化技巧”,从类别(即bin)分布中近似样本。在每个bin中,均匀采样。

a1979994-4852-11ed-a3b6-dac502259ad0.png

这里y的计算如下

a1bd50e4-4852-11ed-a3b6-dac502259ad0.png

这样?NeRF的计算变成:

a1d378ec-4852-11ed-a3b6-dac502259ad0.png

整个梯度计算包括三项:

a1e8e8da-4852-11ed-a3b6-dac502259ad0.png ?

而工具2提出的“两次向前一次向后“方法是这样的:在第一个前向路径中,不计算梯度,只渲染图像形成Dtrain,保存用于渲染的y,φj的随机样本。然后,转向梯度计算(3)。在第二次通路NeRF时,保持相同的样本,去计算梯度(1)和(2)。 所谓工具3的逐块梯度计算如下:

a20eb646-4852-11ed-a3b6-dac502259ad0.png

NeRF-in-the-wild(NeRF-w)扩展了普通NeRF模型,允许依赖于图像的外观和照明变化,从而可以显式模拟图像之间的光度差异。

NeRF-w沿观看方向V作为输入的是外观嵌入,表示为l,图像呈现为x=NeRF(V,l)。

对于NERF-w,位姿(V)的优化与上述相同。照明的有效优化,则利用NeRF-w的一个值得注意的特性:允许在颜色和照明之间进行平滑插值。这能够将照明优化为连续变量,其中照明(l)可以写成可用照明嵌入(li)的仿射函数,l = sum(ψi? li)其中sum(ψi)= 1。

为从等式(3)计算梯度,?xi/?l使用工具2和工具3,以与上述相同的方式计算l,并且dl/dψ项计算是直接的,并通过投影梯度下降(projected gradient descent)进行优化。

实现细节如下:用传统渲染Blender-Proc,100幅具有不同摄像头姿态和缩放因子的图像,为每个YCB目标训练一个NeRF-w模型。用RetinaNet作为下游目标检测器。

为了加速优化,在训练期间固定主干。在双层优化步骤中,用Gumble softmax 温度τ = 0.1。在每次优化迭代中,为每个目标类渲染50幅图像,并训练两个epoch的 RetinaNet。

基线方法包括:提出的方法与学习模拟器参数的两种流行方法进行比较。第一个基线是“Learning to simulate (LTS)“,它提出了一种基于REINFORCE的方法来优化模拟器参数。

还要注意,meta-sim是一种基于REINFORCE的方法。接下来,第二个考虑Auto-Sim,它提出了一种学习模拟器参数的有效优化方法。

NS是指提出的方法没有做两层优化的情况,NSO是指提出的方法采用两层优化的情况。

实验结果如下:

a22f3ba0-4852-11ed-a3b6-dac502259ad0.pnga254877a-4852-11ed-a3b6-dac502259ad0.pnga27ddcc4-4852-11ed-a3b6-dac502259ad0.pnga2aa3cf6-4852-11ed-a3b6-dac502259ad0.png








审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4981

    浏览量

    132161
  • 摄像头
    +关注

    关注

    61

    文章

    5002

    浏览量

    99178
  • 3D模型
    +关注

    关注

    1

    文章

    76

    浏览量

    16553
  • 提取器
    +关注

    关注

    0

    文章

    14

    浏览量

    8199

原文标题:Neural-Sim: 采用NeRF学习如何生成训练数据

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    生成式 AI 重塑自动驾驶仿真:4D 场景生成技术的突破与实践

    生成式AI驱动的4D场景技术正解决传统方法效率低、覆盖不足等痛点,如何通过NeRF、3D高斯泼溅等技术实现高保真动态建模?高效生成极端天气等长尾场景?本文
    的头像 发表于 08-06 11:20 ?3842次阅读
    <b class='flag-5'>生成</b>式 AI 重塑自动驾驶仿真:4D <b class='flag-5'>场景</b><b class='flag-5'>生成</b>技术的突破与实践

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换数据
    发表于 07-29 15:02

    KaihongOS操作系统FA模型与Stage模型介绍

    的运行环境。FA模型的开发方式通过导出匿名对象、固定入口文件的方式指定应用组件。开发者无法进行派生,不利于扩展能力。 Stage模型 S
    发表于 04-24 07:27

    适用于数据中心和AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G网
    发表于 03-25 17:35

    一种多模态驾驶场景生成框架UMGen介绍

    端到端自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成模型其提供了一种有效的技术架构。然而,现有的驾驶场景生成方法大多侧重于图像
    的头像 发表于 03-24 15:57 ?1059次阅读
    一种多模态驾驶<b class='flag-5'>场景</b><b class='flag-5'>生成</b>框架UMGen介绍

    英伟达GTC2025亮点 NVIDIA推出Cosmos世界基础模型和物理AI数据工具的重大更新

    推理模型,让开发者以前所未有的方式控制世界生成。 NVIDIA 还推出了两款由 NVIDIA Omniverse 和 Cosmos 平台提供支持的新蓝图,
    的头像 发表于 03-20 19:01 ?963次阅读

    是否可以输入随机数据集来生成INT8训练后量化模型

    无法确定是否可以输入随机数据集来生成 INT8 训练后量化模型
    发表于 03-06 06:45

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    API实现简单指令调用 支持多步骤工具链控制(如从仿真到结果分析的自动化脚本生成) R1 实时性需求 响应速度更快(适合轻量级任务) 复杂任务延迟较高,但结果更严谨 V3(轻量场景) 结论
    发表于 02-14 02:08

    华为支付-(可选)特定场景配置操作

    签约代扣场景 涉及商户:直连商户、服务商、平台类商户 处理人:商户产品、商户BD等 场景二:涉及账单下载 如需要生成及下载账单,需商户在华为支付商户平台入网时设置的管理员先在“华为支付商户平台
    发表于 01-21 10:30

    AN-715::走近IBIS模型:什么是IBIS模型?它们是如何生成的?

    电子发烧友网站提供《AN-715::走近IBIS模型:什么是IBIS模型?它们是如何生成的?.pdf》资料免费下载
    发表于 01-13 14:21 ?0次下载
    AN-715::走近IBIS<b class='flag-5'>模型</b>:什么是IBIS<b class='flag-5'>模型</b>?它们是如何<b class='flag-5'>生成</b>的?

    【「大模型启示录」阅读体验】营销领域大模型的应用

    解目标市场,从而制定更有效的营销策略。 大模型擅长分析,可以非常好的提炼IP,决策者提供辅助参考。 基于消费者的历史数据和行为模式,大模型能够提供个性化的产品或服务推荐。这种个性化的
    发表于 12-24 12:48

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    企业带来效益。在选择模型时,需要评估其性能表现。这包括模型的准确性、响应速度、对话流畅性、情感理解能力等方面。可以通过对比不同模型的测试结果、查看用户反馈和评分等
    发表于 12-17 16:53

    大语言模型优化生成管理方法

    大语言模型的优化生成管理是一个系统工程,涉及模型架构、数据处理、内容控制、实时响应以及伦理监管等多个层面。以下,是对大语言
    的头像 发表于 12-02 10:45 ?453次阅读

    NVIDIA Isaac Sim满足模型的多样化训练需求

    正从以算法中心向以数据中心的时代演进。高质量且丰富的训练数据,已成为推动创新的核心资源。特
    的头像 发表于 11-23 14:55 ?1498次阅读

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式 AI 训练的
    的头像 发表于 09-06 14:59 ?793次阅读
    NVIDIA Nemotron-4 340B<b class='flag-5'>模型</b>帮助开发者<b class='flag-5'>生成</b>合成训练<b class='flag-5'>数据</b>