0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AR和VR中的计算机视觉

颖脉Imgtec ? 2025-02-08 14:29 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:AI公园作者:Nico Klingler编译:ronghuaiyang

导读

增强现实(AR)和虚拟现实(VR)正在彻底改变我们与外部世界的互动方式。即便是在引人入胜的沉浸式叙事和交互体验背后,这一切魔法都是通过尖端技术的精妙协调创造出来的。

增强现实(AR)与虚拟现实(VR):计算机视觉引领混合现实体验

增强现实(AR)和虚拟现实(VR)正在彻底改变我们与外部世界的互动方式。即便是在引人入胜的沉浸式叙事和交互体验背后,这一切魔法都是通过尖端技术的精妙协调创造出来的。

计算机视觉是其中的主要推动力,它默默地但强有力地引导着虚拟世界与现实世界之间的顺畅过渡。在本文中,我们将带你深入了解计算机视觉在混合现实中的应用:

AR/VR基础知识及关键技术

应知的挑战

重要的实际应用

最佳开源项目

AR和VR领域的顶级AI视觉趋势

计算机视觉在AR和VR中的基础

理解、分析并自动从数字图像和视频中提取数据是人工智能(AI)子领域计算机视觉的重点。增强现实(AR)和虚拟现实(VR)这两种沉浸式技术正在深刻改变我们与环境的互动方式。而这些技术在很大程度上依赖于计算机视觉。

计算机视觉(CV)是能够转变行业并增强日常体验的基础构建块。这项技术通过在数字世界与物理世界之间架起桥梁,创造了无缝、沉浸式的AR和VR体验。

在增强现实(AR)中,计算机视觉被用于:

物体检测用于识别视觉数据中的物体

物体跟踪用于理解物体的移动、计数人群和物体

同时定位与地图构建(SLAM)使机器人能够在地图上定位自身

在虚拟现实(VR)中,计算机视觉被用于:

手部姿态估计和手势跟踪

视线跟踪和注视识别

空间映射和点云技术

16fe995c-e5e6-11ef-9434-92fbcf53809c.gif

用于视线跟踪的计算机视觉系统


高级追踪与空间映射

为了实现流畅且沉浸式的AR/VR体验,精确的追踪与空间映射至关重要。这些技术使系统能够识别三维空间中物体的形状、位置和朝向。这些信息被用来创建各种增强现实和虚拟现实应用。具体例子包括:

精确物体放置。虚拟物体可以准确地放置并固定在现实世界中,实现真实的互动和遮挡效果。

自然导航。用户可以在虚拟环境中自由移动或操纵物体,因为系统会追踪他们的动作和手势。

增强现实叠加。信息和图形可以无缝地叠加到现实世界中,与实体对象和表面对齐。


沉浸式物体识别与互动

创建完全沉浸式的增强现实和虚拟现实体验需要对物体检测和互动有基础的理解。这些技术让用户能够轻松地与虚拟物体互动,就像它们真实存在一样,从而提供了一种新的参与度和真实感。

接下来,我们将探讨一些最受欢迎的AR/VR技术,这些技术推动了沉浸式物体互动和识别的极限。

沉浸式物体识别与互动

Occlusion-Aware Rendering(遮挡感知渲染)

为了让增强现实体验显得可信,虚拟物体必须能够准确地与现实世界的物体互动并产生遮挡效果。因此,我们需要精确的深度估计和场景理解,以确定哪些物体位于其他物体前面,并相应地调整显示。

这可以通过使用深度感应摄像头进行立体视觉,以及基于学习的方法来实现。

17553f28-e5e6-11ef-9434-92fbcf53809c.jpg

计算机视觉技术可以增强和优化虚拟现实环境中的深度视觉图像,以实现更加沉浸式的用户体验

实时物体操控

让用户能够像对待真实物体那样拾取、移动和与虚拟物体互动是沉浸式AR/VR体验的关键。这需要准确的物体识别、姿态估计、实时物理模拟,以及诸如碰撞检测与响应、抓取与操控技巧以及触觉反馈等关键技术。

表面检测与追踪

准确地检测和追踪现实世界的表面使虚拟元素能够有效地附着并与之互动,从而在AR中创造出自然而直观的互动。

多模态物体识别与互动

结合来自多个传感器(相机、LiDAR、IMU)的信息可以带来更强大和准确的物体识别与互动,特别是在具有挑战性的环境中。例如,LiDAR数据可以提供准确的深度信息,而相机则提供了丰富的纹理和颜色细节。

物体属性与行为识别

识别物体的属性和行为(例如硬度、重量、易碎性)可以进一步增强互动的真实感。这可以通过分析物体形状、材质以及过去与物体的互动通过机器学习技术来实现。


实时手势识别

实时手势识别是AR/VR中直观和自然互动的核心。通过解读手部和身体的动作,用户可以控制虚拟物体、导航环境并在这些沉浸式世界中表达自己。接下来,我们将深入探讨塑造这一激动人心领域的技术和应用:

手部姿态估计

手势识别的基础在于准确理解手部的姿态和配置。这是通过各种技术实现的:

混合方法。将标记法和无标记法相结合,通常使用标记进行初始校准和粗略追踪。无标记方法提供了手指运动更精细的细节。

基于标记的追踪。无需使用计算机视觉,而是将物理的小标记附着在手套或手指上以测量和追踪它们的移动。虽然简单可靠,但这可能较为笨重且限制了自然的手势。

无标记追踪。利用计算机视觉算法直接从相机图像分析手部姿势。深度学习模型通过在大量手部图像数据集上的训练实现了令人印象深刻的准确性,但需要相当大的计算资源。

手势识别与分类

一旦手部姿态被估计出来,就需要根据它们的意义来识别和分类手势。这包括:

手势库。预定义的一组常见手势及其关联的手部姿态用于简单的识别任务。

机器学习模型。通过在大型数据集上训练的深度学习算法可以准确地识别复杂和动态的手势。其他方法追踪关键点来理解动作。

情境感知识别。考虑周围环境和用户意图以提高手势识别的准确性,尤其是在可能有多重解释的情况下。


同步定位与地图构建(SLAM)

AR/VR中的一个重要组成部分是SLAM(Simultaneous Localization and Mapping,同步定位与地图构建)。这使得机器人或智能设备能够在环境中追踪自己的位置并同时创建地图。SLAM技术对于在复杂环境中导航以及在繁忙情况下维持空间意识至关重要。

视觉SLAM。利用摄像头捕捉视觉数据并提取特征,如边缘和角点。算法随后使用这些特征来估算设备的位置(位置和朝向),并相应地更新地图。

LiDAR SLAM。采用LiDAR传感器来测量与物体的距离并生成环境的三维点云。这使得更准确和更具弹性的地图构建成为可能,特别是在低纹理或光线不足的情况下。

融合型SLAM。结合来自多个传感器(摄像头、LiDAR、IMU)的数据,以实现更强大和更准确的追踪和地图构建,尤其是在单个传感器可能难以应对的具有挑战性的条件下。


利用计算机视觉增强用户界面

除了帮助AR和VR用户理解他们周围的环境外,计算机视觉还在改变这些沉浸式体验中用户与数字组件互动的方式。开发者可以利用从视觉数据中获得的洞察来设计更直观、自然且具有情境感知能力的用户界面(UI)。

以下是一些最重要的技术:

视线跟踪

自动化的视线跟踪超越了眼睛注视检测,理解用户看向何处以及注视时间。这些信息可用于:

聚焦注意力。VR系统可以根据用户注视的区域引导渲染资源,提高视觉保真度并减少计算负载。

自适应内容。通过根据用户注视的地方调整内容、细节水平或叙述,从而创建更个性化和更具吸引力的体验。

16fe995c-e5e6-11ef-9434-92fbcf53809c.gif

使用视线检测的虚拟现实

基于注视的互动

基于眼睛跟踪,基于注视的互动消除了对物理控制器或传统UI元素的需求。用户可以通过注视虚拟物体或菜单并执行预定义的动作(如停留时间选择、注视手势或虹膜跟踪)直接与之互动。这创造了一个更加沉浸式且无需手部操作的互动体验。

动态UI覆盖

AR中的静态UI覆盖可能会打断对现实世界的自然视野。计算机视觉使动态覆盖成为可能,这些覆盖能够:

适应环境。覆盖层可以根据周围物体和场景上下文调整其大小、位置和外观,从而减少视觉杂乱并保持用户的注意力集中。

执行遮挡感知渲染。当虚拟元素被现实世界中的物体遮挡时,可以选择性地隐藏或透明渲染,确保物理世界和数字世界的无缝融合。

面部表情识别

通过面部表情理解用户情绪可以以多种方式增强AR/VR界面:

适应性互动。虚拟化身或系统可以对用户的情绪做出同理心的反应,提供个性化的反馈或相应地调整体验。

残疾人士的无障碍功能。面部情感识别可用于开发针对言语或运动障碍个体的替代沟通方法。


计算机视觉在AR和VR中的挑战

尽管计算机视觉为AR/VR开辟了一个充满激动人心可能性的世界,但仍面临重大挑战:

计算限制。特别是对于包含高分辨率图像和多个传感器的复杂场景,实时处理视觉数据需要大量的计算资源。电池寿命和设备过热可能成为移动AR/VR应用的限制因素。

光照和环境变化。在不同的光照条件、阴影和遮挡下,算法模型表现可能会显著下降。在光线昏暗或杂乱的环境中,准确的物体识别和追踪变得具有挑战性。

遮挡处理。准确处理被遮挡的物体并确保当现实世界中的物体部分遮挡虚拟元素时实现无缝过渡仍然是一个技术难题。

数据和隐私问题。训练强大的计算机视觉模型需要大量的标注数据。这引发了关于数据隐私和数据集潜在偏见的担忧。

推动前进的创新

尽管面临这些挑战,研究人员和开发者仍在不断推动计算机视觉在真实世界中的AR/VR边界:

边缘计算。将计算密集型任务从设备卸载到云端或边缘网络减轻了AR/VR设备的处理负担,进而提高了性能和电池寿命。

轻量化深度学习模型。开发更小且更高效的深度学习架构,在不牺牲准确性的情况下优化资源受限设备上的性能。

传感器融合。结合来自多个传感器(摄像头、LiDAR、IMU)的数据提供了更丰富的环境信息,从而实现更强大和准确的追踪、地图构建和物体识别。

合成数据生成。生成具有可控光照变化、背景和遮挡的真实感合成数据可以增强真实世界数据集,并提高算法的鲁棒性。

隐私保护技术。安全飞地和差异隐私方法可以在收集、处理和存储期间保护用户数据,解决了计算机视觉应用中的隐私问题。


跨行业的AR/VR应用

视频游戏

在AR游戏中,现实世界通过数字叠加得到增强,允许玩家与环境互动。这项技术引入了基于地理位置的挑战,将游戏带入街道和公共空间。另一方面,VR游戏将玩家带入完全虚拟的世界,提供一种沉浸感,使用户感觉自己置身于游戏环境中。

运动控制器、触觉反馈和逼真的模拟增强了游戏体验,使其更加吸引人和真实。

教育与培训

增强现实(AR)利用计算机视觉精确地映射并将数字信息叠加到现实世界的教育内容上,使学生能够与增强的内容互动。在虚拟现实(VR)中,复杂的计算机视觉系统通过追踪用户的动作、手势和互动来创建沉浸式的合成环境。这些技术使用复杂的CV模型进行实时物体识别、空间映射以及数字元素的精确对齐。

例如,虚拟环境可以让建筑学学生探索和操作三维建筑模型,提供真实的比例感和比例感。学生可以虚拟地穿行于建筑物中,可视化不同的设计元素,并体验空间是如何组合在一起的。

零售与产品可视化

在零售应用中,AR/VR技术的实施远远超出了虚拟试穿体验,对于转变整体购物旅程起到了至关重要的作用。这些技术提供了沉浸式和交互式的特点,如增强的产品展示和虚拟展厅。顾客可以探索详细的产品信息,比较选项,并体验商店的虚拟游览。

此外,AR应用提供了有关产品的实时信息、促销活动和个人化推荐,创造了一个动态且吸引人的购物环境。这不仅提升了顾客体验,还为零售商提供了有关消费者偏好和行为的宝贵见解。

制造与设计

在制造领域,AR叠加提供了实时指导和信息,适用于装配、维护和设计验证等任务。工人可以在其物理环境中访问关键数据和指令,从而提高效率和准确性。这些技术通过让工人能够虚拟地可视化复杂的过程和机械,促进了增强型培训程序的实施。

此外,AR/VR应用有助于设计验证,使工程师能够在物理生产之前在模拟环境中评估和改进原型。这种集成提高了整体生产力,减少了错误,确保了更顺畅和有效的制造工作流程。

医疗保健

在医疗保健领域,AR/VR解决方案的整合在远程手术支持中发挥着核心作用,为外科医生提供沉浸式和精确的可视化,从而增强他们在远程执行手术的能力。此外,AR/VR在康复锻炼中也起到重要作用,通过提供交互性和个性化的模拟来帮助患者恢复。

医疗培训也从中受益,这些技术使医疗保健专业人士能够接受现实且沉浸式的模拟训练。精确的追踪和物体识别能力为这些应用的准确性和有效性做出了贡献。这些进步体现在患者护理、手术程序和医学教育等多个方面。

与人工智能的合作与集成

计算机视觉与人工智能(AI)之间的协同作用正在以前所未有的速度推动AR/VR的发展。通过结合各自的优势,这些技术正在解锁沉浸式体验中的新层次感知、理解和互动。

机器学习处于这种合作的核心,赋予计算机视觉算法以下能力:

从大规模数据集中学习。经过大量标注视觉数据训练的模型能够以越来越高的准确性识别物体、追踪动作和解释手势。

适应多样化的环境。通过从不同的光照条件、背景和物体变化中学习,算法变得更加健壮,并能很好地泛化到未知情景中。

推理和做决策。AI驱动的计算机视觉能够识别物体,并推理它们之间的关系、互动及其在AR/VR环境中的含义。

协作创新的例子:

实时场景理解。AI可以实时分析视觉数据,理解AR/VR场景中的空间布局、物体和活动。这使得虚拟元素和内容能够根据上下文动态适应。

个性化的AR体验。AI算法可以通过学习用户偏好来个性化AR体验,定制内容、互动和信息传递以满足个人需求和兴趣。

情感智能的VR化身。AI可以通过分析用户的面部表情和语音模式来创建能够同情地响应并动态调整行为以适应用户情绪的虚拟化身。

AR应用中的预测性维护。通过分析工业设备的视觉数据,AI驱动的计算机视觉可以预测潜在故障,并通过AR辅助的维修过程指导技术人员。


最佳的AR/VR开源项目

开源社区在推进AR/VR的计算机视觉方面发挥了核心作用。通过提供免费可用的平台、库和数据集等资源,开源社区赋予开发者和研究者创建突破性应用的能力。

以下是社区为AR/VR工具做出的一些值得注意的贡献:

OpenCV。这是一个灵活的库,适用于实时计算机视觉应用。OpenCV经常被用于图像处理、物体追踪和AR/VR应用。

ARKit。苹果用于在iOS设备上构建AR体验的框架提供了访问相机、LiDAR和运动追踪等功能的能力。

ARCore。谷歌用于在Android设备上构建AR体验的框架提供了类似ARKit的功能。

斯坦福大学的SUN3D。这是一个包含带有相应3D场景注释的大规模图像数据集,对于训练物体识别和场景理解算法非常有价值。

Matterport3D。这是一个全面收集的室内环境3D扫描数据集,对于使计算机能够开发和测试AR/VR中的空间映射和导航算法非常有用。

ReplicaNet。这是一个由合成生成的图像和3D模型组成的数据集,提供了一个受控环境,用于在不同条件下训练和评估计算机视觉算法。

计算机视觉在AR和VR中的趋势

计算机视觉在AR/VR领域的未来充满了激动人心的可能性:

  • 超现实体验

渲染技术、物体识别和场景理解的进步将创造出几乎无法区分的物理世界与数字世界的融合。

  • 情感计算

VR/AR系统将通过面部表情、语音分析和生理数据识别并响应用户的情绪,从而创造出更加个性化和引人入胜的体验。

  • 混合现实(MR)。

AR与VR之间的界限将继续模糊,创造出具有日益复杂互动的现实和虚拟环境。

  • 无处不在的AR

随着AR设备变得更小巧并更紧密地融入日常穿戴设备中,计算机视觉将使人们能够与数字世界互动。

总而言之,计算机视觉在AR/VR中的作用是构建逼真且引人入胜体验的基础。凭借从手势控制和物体识别到实时互动和空间映射的能力,计算机视觉正在改变我们与环境的互动方式。通过解决持久存在的问题、促进开源协作和拥抱持续创新,计算机视觉将继续拓展虚拟世界的边界。这将改变现实生活中的计算机交互方式,并颠覆众多行业。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Ar
    Ar
    +关注

    关注

    25

    文章

    5159

    浏览量

    172990
  • 计算机视觉
    +关注

    关注

    9

    文章

    1710

    浏览量

    46872
  • vr
    vr
    +关注

    关注

    34

    文章

    9679

    浏览量

    153037
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    什么是计算机视觉计算机视觉的三种方法

    计算机视觉是指通过为计算机赋予人类视觉这一技术目标,从而赋能装配线检查到驾驶辅助和机器人等应用。计算机缺乏像人类一样凭直觉产生
    的头像 发表于 11-16 16:38 ?5661次阅读
    什么是<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>?<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的三种方法

    机器视觉计算机视觉的关系简述

    初涉机器视觉领域,总是容易将其与计算机视觉这一概念混淆。实际上两者确实存在一定的相同之处,但也不能因此而将这两者视为同一概念,因为这两者还存在着显著的差别。而与此同时,两者也还有着密不可分的关系
    发表于 05-13 14:57

    计算机视觉及其在焊接的应用

    简要阐述了计算机视觉的基本原理、系统结构和计算机视觉的基本处理方法,并着重讲解了在焊接自动化领域的应用情况。关键词:计算机
    发表于 07-18 10:19 ?9次下载

    基于OpenCV的计算机视觉技术实现

    基于OpenCV的计算机视觉技术实现OpencV是用来实现计算机视觉相关技术的开放源码工作库,是计算机
    发表于 11-23 21:06 ?0次下载
    基于OpenCV的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>技术实现

    计算机视觉讲义

    计算机视觉讲义:机器视觉是研究用计算机来模拟生物外显或宏观视觉功能的科学和技术.机器视觉系统的首
    发表于 03-19 08:08 ?0次下载

    计算机视觉应用之OpenCV基础教程

    Library,OpenCV)。OpenCV优化了许多功能函数,并在实时的计算机视觉程序得到应用。但是,由于嵌入式优化策略得天独厚的优势,仍然值得大家尝试利用逻辑硬件来加速OpenCV的性能。 目前,OpenCV被广泛用于开
    发表于 11-18 04:45 ?9544次阅读
    <b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>应用之OpenCV基础教程

    计算机视觉与机器视觉区别

     “计算机视觉”,是指用计算机实现人的视觉功能,对客观世界的三维场景的感知、识别和理解。计算机视觉
    的头像 发表于 12-08 09:27 ?1.3w次阅读

    计算机视觉的发展历史_计算机视觉的应用方向

    计算机视觉40多年的发展,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了4个主要历程。即: 马尔
    的头像 发表于 07-30 17:21 ?8081次阅读

    计算机视觉常用算法_计算机视觉有哪些分类

    本文主要介绍了计算机视觉常用算法及计算机视觉的分类。
    的头像 发表于 07-30 17:34 ?1.4w次阅读

    计算机视觉的重要研究方向

    主要介绍计算机视觉的几个重要的研究方向。主要包括图像分类、目标检测、语义分割、实例分割、全景分割等。通过对这几个计算机视觉任务的对比,我们
    的头像 发表于 11-19 14:32 ?1.2w次阅读

    计算机视觉入门指南

    出现,且它们可以集成到移动应用。 今天,由于其广泛应用和巨大潜力,计算机视觉成为最热的人工智能和机器学习子领域之一。其目标是:复制人类视觉的强大能力。 但是,到底什么是
    的头像 发表于 11-27 09:52 ?3223次阅读

    计算机视觉的工作流程与主要应用

    计算机视觉的主要目的是让计算机能像人类一样甚至比人类更好地看见和识别世界。计算机视觉通常使用C++、Python和MATLAB等编程语言,是
    的头像 发表于 01-08 14:06 ?5978次阅读

    计算机视觉的基础概念和现实应用

    本文将介绍计算机视觉的基础概念和现实应用,对任何听说过计算机视觉但不确定它是什么以及如何应用的人,本文是了解计算机
    的头像 发表于 11-08 10:10 ?2009次阅读

    计算机视觉识别是如何工作的?

    计算机视觉识别是一种人工智能技术,旨在使计算机系统从数字图像、视频等视觉信息识别和提取有意义信息的能力。
    的头像 发表于 02-09 13:41 ?5105次阅读

    计算机视觉的主要研究方向

    计算机视觉(Computer Vision, CV)作为人工智能领域的一个重要分支,致力于使计算机能够像人眼一样理解和解释图像和视频的信息。随着深度学习、大数据等技术的快速发展,
    的头像 发表于 06-06 17:17 ?1940次阅读