0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

破解透明物体抓取难题,地瓜机器人 CASIA 推出几何和语义融合的单目抓取方案|ICRA 2025

地瓜机器人 ? 2025-03-05 19:30 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

概述

近日,全球机器人领域顶会ICRA 2025(IEEE机器人与自动化国际会议)公布论文录用结果,地瓜机器人主导研发的DOSOD开放词汇目标检测算法MODEST单目透明物体抓取算法成功入选。前者通过动态语义理解框架提升复杂场景识别准确率,后者结合几何建模与语义分析技术优化透明物体操作精度,两项技术成果均已在规模化商业场景中得到有效验证。此次投稿的两篇论文全部入选,不仅彰显了ICRA对机器人感知领域的高度重视,同时也印证了地瓜机器人团队在机器人视觉领域的领先优势。

DOSOD开放词汇目标检测算法,本期文章将围绕MODEST单目透明抓取算法进行重点介绍。

作为机器人执行各项任务中绕不开的操作对象,水杯、试管、窗户等透明物体在人类生活中无处不在。从精密制造、医疗实验室和家庭服务机器人等领域,透明物体的精确操作是提升自动化和智能化水平的关键。然而,透明物体复杂的折射和反射特性给机器人感知造成了很大困难。在大多数RGB图像中的透明物体往往缺乏清晰的纹理,而容易与背景混为一体。此外,商用深度相机也难以准确捕捉这些物体的深度信息,导致深度图缺失或噪声过多,从而限制了机器人在多个领域的广泛应用。

为了解决透明物体的抓取问题,地瓜机器人联合中科院自动化所(简称:CASIA)多模态人工智能系统全国重点实验室,推出了针对透明物体的单目深度估计和语义分割的多任务框架(简称:MODEST)。该框架借助创新性的语义和几何融合模块,结合独特的特征迭代更新策略,显著提升了深度估计和语义分割的效果,尤其在抓取成功率和系统泛化性方面取得了突破性进展。

MODEST算法框架作为通用抓取模型的前置模块,即插即用,灵活高效,且无需依赖额外传感器,仅靠单张RGB图像,便可实现透明物体的抓取,效果上甚至要优于其它双目和多视图的方法,可以广泛应用于智能工厂、实验室自动化、智慧家居等场景,降低设备成本并大幅提升机器人对透明物体的操作能力。

基本原理

当前透明物体的抓取核心在于深度信息的获取,目前无论是深度传感器还是多视角重建的方法都无法获取透明物体准确完整的深度信息。为了解决透明物体感知难题,传统方法大多依赖特殊传感设备或多视角图像,增加了时间和经济成本,并常常受限于应用场景。MODEST单目框架首次突破了传统传感器处理透明物体时的限制,降低了设备成本和使用复杂度,提供了更加高效、经济和便捷的透明物体感知方案。

wKgZO2fIImaAUTNdAAIb7m0kV_s285.png

单目透明物体感知框架与其他方法之间的对比

MODEST主要聚焦于透明物体的深度估计,通过设计的语义和几何结合的多任务框架,获取物体准确的深度信息,之后结合基于点云的抓取网络实现透明物体的抓取。相当于在通用抓取网络前面增加一个针对透明物体的增强模块。

MODEST模型的整体架构如图所示,输入为单目RGB图像,输出为透明物体的分割结果和场景深度预测。网络主要由编码、重组、语义几何融合迭代解码四个模块组成。输入图像首先经过基于ViT的编码模块进行处理,随后重组为对应分割和深度两个分支的多尺度特征。在融合模块中对两组特征进行混合和增强,最后通过多次迭代逐步更新特征,并获得最终预测结果。

wKgZO2fIIqaAV0SNAAEczfrgSe4127.png

基于语义几何融合和迭代策略的透明物体单目多任务框架

对于透明物体来说,语义分割任务可以为深度估计提供语义和上下文信息,而同样深度估计可以为分割提供边界、表面等几何信息。为了充分挖掘两个任务间的互补信息MODEST算法框架构建了基于注意力机制的语义几何融合模块,旨在同时提升两个任务的性能。

wKgZPGfIIuCAcWADAAG1aAjP7gQ052.png

语义几何融合模块结构

当人类观察透明物体等不显著物体时,我们会倾向于先注意物体的整体轮廓,然后是局部细节。受人眼启发,MODEST框架提出了一种由粗到细的特征更新策略,进一步提升预测精度。

实验结果

为了测试MODEST全新算法框架的检测效果,我们选取了透明物体领域两个影响力广泛的公开仿真数据集Syn-TODD和真实数据集ClearPose,在其上与目前最先进的透明物体双目方法SimNet、多视图方法MVTran以及多任务方法InvPT和TaskPrompter进行对比实验。两个大规模数据集都拥有超过100k的良好标注图像数据,并且包含了严重遮挡等极端场景

公开数据集上的定性和定量对比实验

wKgZO2fII_yAGwb3AAGND1TNR0Q332.png

仿真数据集Syn-TODD上的定性对比结果

wKgZO2fIJCyANH5cAAGhND9LzzE443.png

真实数据集ClearPose上的定性对比结果

通过在两个数据集上的定性对比结果可以看出,由于透明物体会错误地折射背景,并且在RGB图像中缺乏纹理,因此SimNet、MVTrans等方法无法获得令人满意的预测,从而导致深度图和分割掩膜的大面积缺失。然而,通过有效的融合和迭代,在某些即使人眼都难以分析和判断的场景,我们的方法依然能够产生完整和清晰的预测结果。

wKgZO2fIJL2ALzgEAAFq2pfyAa4566.png

仿真数据集Syn-TODD上的定量对比结果

wKgZO2fIJSyAF77cAACLqiDq9qc375.png

真实数据集ClearPose上的定量对比结果

从表格中的定量对比可以看出,MODEST算法框架在各项指标上都要大幅超过其他所有方法。值得注意的是,尽管只使用单张RGB图像作为输入,MODEST在深度估计和语义分割方面都要明显优于其他双目甚至多视图方法。并且在Syn-TODD数据集上,与排名第二的方法相比,MODEST算法框架在RMSE和REL两项指标有着超过45%的提升,语义分割的精度也均超过了90%。

真实平台抓取实验

我们将算法迁移到真实机器人平台,开展了透明物体抓取实验。平台主要由UR机械臂和深度相机构成,在借助MODEST方法进行透明物体精确感知的基础之上,采用GraspNet进行抓取位姿的生成。在多个透明物体上的实验结果表明,MODEST方法在真实平台上具有良好的鲁棒性泛化性


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29845

    浏览量

    213787
  • 人工智能
    +关注

    关注

    1809

    文章

    49169

    浏览量

    250781
  • 检测算法
    +关注

    关注

    0

    文章

    122

    浏览量

    25527
  • 地瓜机器人
    +关注

    关注

    0

    文章

    26

    浏览量

    164
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    盘点#机器人开发平台

    地瓜机器人RDK X5开发套件地瓜机器人RDK X5开发套件产品介绍 旭日5芯片10TOPs算力-电子发烧友网机器人开发套件 Kria KR
    发表于 05-13 15:02

    大象机器人携手进迭时空推出 RISC-V 全栈开源六轴机械臂产品

    全球80多个国家和地区。 近日,大象机器人联合进迭时空推出全球首款RISC-V全栈开源六轴机器臂“myCobot 280 RISC-V”,为开发者打造全新的机器人开源创新平台。 “my
    发表于 04-25 17:59

    地瓜机器人RDK X5 规格书与地瓜机器人RDK X5原理图

    地瓜机器人是芯片公司地平线成立的全资控股子公司。专注于机器人市场的软硬件通用底座提供商。地瓜机器人以旭日智能计算芯片和 RDK
    的头像 发表于 04-21 19:01 ?1321次阅读
    <b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>RDK X5 规格书与<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>RDK X5原理图

    富唯智能最小复合机器人的强大抓取实力?

    在工业自动化领域,复合机器人的身影愈发常见。但你是否好奇,最小的复合机器人抓取多少多重?富唯智能以创新技术,给出了令人惊叹的答案,彻底颠覆我们对小身形机器人的认知。?
    的头像 发表于 04-16 16:31 ?326次阅读
    富唯智能最小复合<b class='flag-5'>机器人</b>的强大<b class='flag-5'>抓取</b>实力?

    复合机器人抓取精度的影响因素及提升策略

    复合机器人结合了移动机器人(如AGV)和机械臂的功能,广泛应用于物流、制造等领域。抓取精度是其核心性能指标之一,直接影响作业效率和产品质量。本文将探讨复合机器人
    的头像 发表于 04-12 11:15 ?384次阅读

    地瓜机器人,和全球机器人开发者交朋友

    前言自2024年9月20日在国内官宣以来,地瓜机器人(D-Robotics)正在以行业领军者的角色,开放姿态拥抱全球机遇,致力于和全球机器人开发者交朋友。短短半年间,从亚洲的东京、首尔、新加坡
    的头像 发表于 03-24 15:27 ?923次阅读
    <b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>,和全球<b class='flag-5'>机器人</b>开发者交朋友

    《电子发烧友电子设计周报》聚焦硬科技领域核心价值 第2期:2025.03.3--2025.03.7

    ,用户可以自定义学习任务,并结合涂鸦提供的运动子系统行为树框架,快速部署预训练模型。 地瓜机器人 CASIA 推出几何
    发表于 03-07 18:03

    探索具身智能边界,地瓜机器人邀你共战ICRA 2025 Sim2Real挑战赛

    探索具身智能边界,地瓜机器人邀你共战ICRA 2025 Sim2Real挑战赛
    的头像 发表于 01-13 20:18 ?693次阅读
    探索具身智能边界,<b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>邀你共战<b class='flag-5'>ICRA</b> <b class='flag-5'>2025</b> Sim2Real挑战赛

    【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

    具身智能机器人的基础模块,这个是本书的第二部分内容,主要分为四个部分:机器人计算系统,自主机器人的感知系统,自主机器人的定位系统,自主机器人
    发表于 01-04 19:22

    NVIDIA在ICRA展示最新机器人研究

    在 日前举行的 IEEE 国际机器人和自动化大会(ICRA)上,几何织物(geometric fabrics)成为一个热门的讨论话题。几何织物是 NVIDIA
    的头像 发表于 10-10 09:55 ?815次阅读

    地瓜机器人发布一系列通用机器人套件

    在“机器人+”浪潮的推动下,地瓜机器人近日隆重推出了一系列面向未来的软硬件产品组合,旨在赋能新一代通用机器人的发展。此次发布的亮点包括旭日5
    的头像 发表于 09-25 15:56 ?866次阅读

    地瓜机器人与广和通深度合作,共驱智能机器人商用落地

    9月20日,2024地瓜机器人开发者日暨新品发布在深圳顺利举办。广和通作为地瓜机器人官方授权硬件IDH合作伙伴,受邀出席大会并展示了一系列基于地瓜
    的头像 发表于 09-23 16:27 ?776次阅读
    <b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>与广和通深度合作,共驱智能<b class='flag-5'>机器人</b>商用落地

    地瓜机器人与广和通深度合作,共驱智能机器人商用落地

    9月20日,2024地瓜机器人开发者日暨新品发布在深圳顺利举办。广和通作为地瓜机器人官方授权硬件IDH合作伙伴,受邀出席大会并展示了一系列基于地瓜
    的头像 发表于 09-23 16:27 ?910次阅读
    <b class='flag-5'>地瓜</b><b class='flag-5'>机器人</b>与广和通深度合作,共驱智能<b class='flag-5'>机器人</b>商用落地

    地瓜机器人携手广和通共推智能机器人新纪元

    2024年9月20日,深圳迎来了科技界的一场盛会——地瓜机器人开发者日暨新品发布会圆满举行。此次活动不仅见证了地瓜机器人在智能计算领域的又一里程碑,还深化了其与广和通作为官方授权硬件I
    的头像 发表于 09-23 13:03 ?1204次阅读

    水星Mercury X1轮式人形机器人结合openc算法&STag标记码视觉系统实现精确抓取

    本案例展示了如何利用视觉系统提升机械臂的抓取精度,成功实现了人形机器人的双臂抓取不在局限于抓取。 引言 如今市面上已经有了许多不同类型的
    的头像 发表于 08-12 11:02 ?1909次阅读
    水星Mercury X1轮式人形<b class='flag-5'>机器人</b>结合openc算法&STag标记码视觉系统实现精确<b class='flag-5'>抓取</b>!