0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种用于视觉定位的2D-3D匹配方法GAM

3D视觉工坊 ? 来源:3D视觉工坊 ? 2023-02-16 10:18 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

主要内容:

提出了一种新的2D-3D匹配方法,几何辅助匹配(GAM),使用外观信息和几何上下文来改进2D-3D特征匹配,可以在保持高精度的同时增强2D-3D匹配的recall,将GAM插入到分层视觉定位pipeline中,表明GAM可以有效地提高定位的鲁棒性和准确性,其实验表明,GAM可以找到比手工启发式和学习的方法更正确的匹配,在多个视觉定位数据集上获得了最先进的结果。

Contributions:

提出了GAM,首先根据视觉外观为每个2D点建立多个候选匹配,然后根据几何上下文过滤不正确的匹配。

提出了一种称为BMNet的深度神经网络来处理多对多候选匹配,它可以预测每个2D-3D匹配的几何先验并输出全局最优匹配集。

提出了一种具有新场景检索策略的分层视觉定位方法,进一步提高了姿态估计的鲁棒性。

所提出的定位方法在多个数据集上优于最先进的方法。

几何辅助匹配:

583fcf36-ad34-11ed-bfe3-dac502259ad0.png

58593cbe-ad34-11ed-bfe3-dac502259ad0.png

网络架构:

5877fa6e-ad34-11ed-bfe3-dac502259ad0.png

589dd0e0-ad34-11ed-bfe3-dac502259ad0.png

58b3f028-ad34-11ed-bfe3-dac502259ad0.png

Hungarian Pooling:

如果直接训练g(g;θ),网络参数将很难学习,因为几何一致性可能与监督冲突,如下图所示。

58cad842-ad34-11ed-bfe3-dac502259ad0.png

2D图像点与在3D空间中接近的两个3D点匹配,在相同的相机姿势下,它们可能都有小的重投影误差,网络易于根据提取的几何特征为它们生成相似的权重,这两种对应关系都被认为是几何一致的。

然而其中只有一个是inlier,其余的则是outlier,多个对应具有相似的几何特征但具有不同标签的这种差异使得网络难以收敛。

为了解决这个问题,将匈牙利算法引入到网络中进行端到端训练。匈牙利算法可以找到全局最优的一对一匹配,因为只选择了两个对应关系中的一个,所以可以消除几何一致性和监督之间的差异。

基于由g(g;θ)预测的权重向量w和二分图g,权重矩阵w被构造为:

58e217c8-ad34-11ed-bfe3-dac502259ad0.png

其中W的未填充元素被设置为0,然后将匈牙利算法应用于该权重矩阵W获得匹配M的最大权重。分配向量s由下列公式获得:

58efcd46-ad34-11ed-bfe3-dac502259ad0.png

由于输出边缘来自输入边缘的子集,引入匈牙利算法的层可以被视为一个特殊的采样层,称之为匈牙利池,端到端训练中使用的反向传播公式如下:

590280bc-ad34-11ed-bfe3-dac502259ad0.png

分层定位pipeline:

59195f26-ad34-11ed-bfe3-dac502259ad0.png

对于查询图像,提取其全局特征和局部特征,全局特征用于粗略定位以确定要匹配的3D点集,提取的局部特征和结合相应描述符的3D点集都被送到GAM中以获得全局最优2D-3D对应。

整个定位过程分为三个模块,即场景检索、2D-3D特征匹配和先验引导姿态估计。

场景检索:

594184ba-ad34-11ed-bfe3-dac502259ad0.png

596cbdce-ad34-11ed-bfe3-dac502259ad0.png

2D-3D特征匹配:

根据场景检索的顺序执行GAM并输出匹配的2D-3D对应,对于第k个场景597d6ad4-ad34-11ed-bfe3-dac502259ad0.png,获取其3D点和相应的描述子来构建3D特征集,在从查询图像提取的2D局部特征和3D特征之间执行GAM,输出匹配M的最大权重,根据欧氏距离执行kNN比率匹配,当描述子被归一化时,这可以通过矩阵运算有效地实现。

先验引导的姿态估计:

由于M中仍然存在一些错误匹配,在RANSAC循环中应用PnP解算器,在RANSAC loop中,采样2D-3D对应的概率由BMNet预测的似然决定,这使得能够以更大的机会对可能的inlier进行采样。

实验:

首先进行了2D-3D匹配实验,表明GAM以比手工制作的方法和学习方法更高的精度找到更多的真实匹配。

数据集:MegaDepth数据集中选择一个位置作为2D-3D匹配评估的测试数据集。

将GAM与传统手工制作方法和学习匹配方法进行了比较 使用最近邻(NN)匹配器从描述符空间中的每个2D点的所有3D点中找到最近邻,手工制作的异常值剔除方法包括比率测试(ratio)、距离阈值(distance)和彼此最近的邻居(cross check),因为没有其他基于学习的方法直接用于2D-3D特征匹配,因此将最近提出的一些在2D-2D匹配中表现良好的方法迁移到2D-3D进行比较,将LGCNet和OANet的输入从2D-2D对应替换为2D3D对应,即LGCNet-2D3D和OANet2D3D

598c397e-ad34-11ed-bfe3-dac502259ad0.png

评估GAM在视觉定位方面的有效性以及提出的视觉定位框架: 数据集:Aachen Day-Night

599b47a2-ad34-11ed-bfe3-dac502259ad0.png

与SOTA定位方法的比较: 数据集:Cambridge Landmarks 和Aachen Day-Night

59b3d696-ad34-11ed-bfe3-dac502259ad0.png59cbcd96-ad34-11ed-bfe3-dac502259ad0.png

总结:


提出了一种用于视觉定位的2D-3D匹配方法GAM,同时使用外观信息和几何上下文来提高匹配性能,在保持高精度的同时提高了2D-3D匹配的召回率,其引入了一种新的二部匹配神经网络BMNet以提取2D-3D对应的几何特征,并可以学习全局几何一致性以预测每个对应的真实匹配的可能性,还将匈牙利算法集成到BMNet中作为一个特殊的池层以端到端的方式找到最大权重匹配,使得定位能够获得更正确的匹配从而提高了定位的鲁棒性和准确性。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4814

    浏览量

    104469
  • gam
    gam
    +关注

    关注

    0

    文章

    5

    浏览量

    7381
  • 匹配器
    +关注

    关注

    0

    文章

    6

    浏览量

    5816

原文标题:用几何信息来辅助基于特征的视觉定位(arxiv 2022)

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    翌视科技3D视觉再升级

    近日,2025翌视科技LVM3000系列新品发布会以线上直播形式举行,超万名合作伙伴共同见证国产3D视觉技术的突破性进展。此次发布的LVM3000系列不仅展现了其“超规格” 实力,更宣告了国产3D
    的头像 发表于 08-12 14:44 ?712次阅读

    3D视觉引领工业变革

    随着工业智能化的推进,3D视觉技术正为制造业带来变革。市场规模逐年扩大,技术应用与市场竞争日益激烈。
    的头像 发表于 07-07 11:08 ?156次阅读
    <b class='flag-5'>3D</b><b class='flag-5'>视觉</b>引领工业变革

    一种用于动态环境的实时RGB-D SLAM系统

    了UP-SLAM,这是一种用于动态环境的实时RGB-D SLAM系统。实验结果表明,UP-SLAM在定位精度方面(高出59.8%)和渲染质量方面(峰值信噪比高出4.57分贝)均优于最
    的头像 发表于 07-04 15:14 ?316次阅读
    <b class='flag-5'>一种</b>适<b class='flag-5'>用于</b>动态环境的实时RGB-<b class='flag-5'>D</b> SLAM系统

    NW2-05D05DR3 NW2-05D05DR3

    电子发烧友网为你提供AIPULNION(AIPULNION)NW2-05D05DR3相关产品参数、数据手册,更有NW2-05D05DR3的引脚图、接线图、封装手册、中文资料、英文资料,NW2-05D05DR3真值表,NW
    发表于 03-20 18:30
    NW<b class='flag-5'>2-05D05DR3</b> NW<b class='flag-5'>2-05D05DR3</b>

    FN2-24D24C3N FN2-24D24C3N

    电子发烧友网为你提供AIPULNION(AIPULNION)FN2-24D24C3N相关产品参数、数据手册,更有FN2-24D24C3N的引脚图、接线图、封装手册、中文资料、英文资料,FN2-24D24C3N真值表,FN
    发表于 03-19 18:49
    FN<b class='flag-5'>2-24D24C3</b>N FN<b class='flag-5'>2-24D24C3</b>N

    FN2-24D15C3 FN2-24D15C3

    电子发烧友网为你提供AIPULNION(AIPULNION)FN2-24D15C3相关产品参数、数据手册,更有FN2-24D15C3的引脚图、接线图、封装手册、中文资料、英文资料,FN2-24D15C3真值表,FN
    发表于 03-19 18:46
    FN<b class='flag-5'>2-24D15C3</b> FN<b class='flag-5'>2-24D15C3</b>

    一种以图像为中心的3D感知模型BIP3D

    在具身智能系统中,3D感知算法是个关键组件,它在端侧帮助可以帮助智能体理解环境信息,在云端可以用来辅助生成3D场景和3D标签,具备重要的研究价值。现有主流算法主要依赖于点云作为输入
    的头像 发表于 03-17 13:44 ?555次阅读
    <b class='flag-5'>一种</b>以图像为中心的<b class='flag-5'>3D</b>感知模型BIP<b class='flag-5'>3D</b>

    对于结构光测量、3D视觉的应用,使用100%offset的lightcrafter是否能用于点云生成的应用?

    你好,我有些对于offset的疑问,希望能够得到解答。 对于结构光测量、3D视觉的应用,使用100%offset的lightcrafter是否能用于点云生成的应用? 标定和三角重建
    发表于 02-28 06:20

    多维精密测量:半导体微型器件的2D&amp;3D视觉方案

    精密视觉检测技术有效提升了半导体行业的生产效率和质量保障。友思特自研推出基于深度学习平台和视觉扫描系统的2D3D视觉检测方案,通过9
    的头像 发表于 01-10 13:54 ?797次阅读
    多维精密测量:半导体微型器件的<b class='flag-5'>2D</b>&amp;<b class='flag-5'>3D</b><b class='flag-5'>视觉</b>方案

    解决方案 3D 视觉机器人赋能汽车制造新征程

    随着智能化技术的不断发展,汽车制造企业正积极寻求提升智能化水平的途径。富唯智能的3D视觉引导机器人抓取技术为汽车制造企业提供了一种高效、智能的自动化解决方案。
    的头像 发表于 12-25 15:00 ?525次阅读
    解决方案 <b class='flag-5'>3D</b> <b class='flag-5'>视觉</b>机器人赋能汽车制造新征程

    一种降低VIO/VSLAM系统漂移的新方法

    本文提出了一种方法,通过使用点到平面匹配将VIO/VSLAM系统生成的稀疏3D点云与数字孪生体进行对齐,从而实现精确且全球致的
    的头像 发表于 12-13 11:18 ?791次阅读
    <b class='flag-5'>一种</b>降低VIO/VSLAM系统漂移的新<b class='flag-5'>方法</b>

    3D 视觉定位技术:汽车零部件制造的智能变革引擎

    在汽车零部件制造领域,传统工艺正面临着前所未有的挑战。市场对于零部件精度与生产效率近乎苛刻的要求,促使企业寻求突破之道。而 3D 视觉定位技术,为汽车零部件制造开启了精准定位与智能化生
    的头像 发表于 12-10 17:28 ?1040次阅读
    <b class='flag-5'>3D</b> <b class='flag-5'>视觉</b><b class='flag-5'>定位</b>技术:汽车零部件制造的智能变革引擎

    文理解2.5D3D封装技术

    随着半导体行业的快速发展,先进封装技术成为了提升芯片性能和功能密度的关键。近年来,作为2.5D3D封装技术之间的一种结合方案,3.5D封装技术逐渐走向前台。
    的头像 发表于 11-11 11:21 ?3762次阅读
    <b class='flag-5'>一</b>文理解2.5<b class='flag-5'>D</b>和<b class='flag-5'>3D</b>封装技术

    一种将NeRFs应用于视觉定位任务的新方法

    视觉定位旨在估计在已知环境中捕获的给定图像的旋转和位置,大致可以分为绝对姿态回归(APR),场景坐标回归(SCR)和分层方法(HM)。
    的头像 发表于 10-28 10:03 ?645次阅读
    <b class='flag-5'>一种</b>将NeRFs应<b class='flag-5'>用于</b><b class='flag-5'>视觉</b><b class='flag-5'>定位</b>任务的新<b class='flag-5'>方法</b>

    用于3D机器视觉的高度可扩展的TI DLP技术

    电子发烧友网站提供《适用于3D机器视觉的高度可扩展的TI DLP技术.pdf》资料免费下载
    发表于 08-23 09:57 ?0次下载
    适<b class='flag-5'>用于</b><b class='flag-5'>3D</b>机器<b class='flag-5'>视觉</b>的高度可扩展的TI DLP技术