0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于人类视觉理解机理

智能感知与物联网技术研究所 ? 来源:通信信号处理研究所 ? 作者:通信信号处理研究 ? 2020-07-04 09:32 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,上海交通大学卢策吾团队在《自然 - 机器智能》子刊上发表了关于高维度视觉序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

与此同时,该团队将论文代码与近两年在视频理解领域的先进成果开源为视频理解工具箱 AlphaVideo。

AlphaVideo 在物体跟踪任务(MOT)和行为理解(AVA 单模型)上都达到最高准确率,相比 SlowFast (AVA 单模型)有 12.6% 的性能提升。

动作理解任务的时空信息特征图。左:输入序列;右:空间特征更关注物体形状,时间特征更关注物体运动趋势。

AlphaVideo 中的行为理解(Alphaction)

时空概念提取展示

人类视觉理解机理

在人类的视觉认知过程中,时间和空间概念是解耦的。神经科学领域的研究发现在人类的记忆形成过程中,时间信息与空间上下文信息通过两个相对独立的信息通路到达海马体,进而形成完整的记忆。

新技能:自主学习时空概念

通过模仿人类的认知机制,卢策吾团队提出了应用于高维度信息的半耦合结构模型(SCS)。

SCS 自主发掘(awareness)时间 - 空间概念,并让他们耦合协作以理解序列信息。这种能力代表着机器学习模型自主掌握了时空的概念,这是一种更高层的智能。更进一步,时空信息概念的分离也让「概念编辑」成为可能。

半耦合结构模型(SCS)

半耦合结构首先解耦时空信息(模仿人脑中的两条信息通路),并在分别处理时间和空间信息之后将二者耦合(模仿海马体):

该研究通过堆叠这种半耦合的元结构来构建深度模型,其中时空信息始终以先解耦再融合的模式向后流动。

为了让 h_s 和 h_t 各司其职,研究者将 h_s 和 h_t 设计为不对称的结构,同时,使用两个特殊的监督目标 r_s、r_t 来进一步约束二者关注各自的工作。

该研究进一步提出了一种训练注意力机制。这种注意力机制控制模型在优化过程中学习哪种信息。例如在视频信息中,模型可以优先将注意力集中在空间信息上,待空间信息有效且稳定时,再逐步将模型训练的注意力转换到时间信息上。

SCS 的表现如何?

该研究展示了 SCS 在多项任务中与传统 LSTM 的性能对比结果:

SCS 在视频动作分类、自动驾驶、天气预报等 4 个任务上的性能均超越传统的序列模型。

概念编辑

有了时空分离的能力,SCS 就可以初步做到「概念编辑」。比如,通过编辑空间概念且保留时间概念,我们可以让一个原本用于预测狗运动轨迹的模型来预测猫的轨迹。这样就能以较小的代价实现模型的泛化,同时也拓宽了模型的使用场景,降低了部署难度。

概念编辑 demo

研究者让计算机看 Flappy Bird 的视频,然后看一张静态的 Mario 图片(外观形象)。在这个过程中,模型并没有接触到任何 Mario 在管道中穿梭的运动信息。但通过「概念编辑」,在测试时 SCS 可以准确地预测 Mario 的运动轨迹。

视频理解工具箱 AlphaVideo

在视频理解工具箱 AlphaVideo 中,除了上述 SCS 时空概念分解,研究者还提供了单阶段端对端训练的多目标跟踪模型 TubeTK 和视频动作检测模型 AlphAction。使用一行代码,即可调用预训好的各类模型。

AlphAction

AlphAction 是面向行为理解的开源系统,基于 MVIG 提出的交互理解与异步训练策略 在 AVA 数据集上达到最优准确率,速度达到 10 帧每秒。其中包含的 15 个开源常见行为基本模型的 mAP 达到约 70%,接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 组提出的基于 Bounding-Tube 的单阶段训练模型(CVPR2020-oral),是首个单阶段端对端训练的多目标跟踪模型。它在 MOT-16 数据集上达到了 66.9 MOTA 的精度,是目前 online 模型仅在 MOT 训练数据下达到的最高精度

TubeTK 可视化结果

Bounding-Tube 示意图。使用 bounding-tube 可以轻松跟踪到 bounding-box 无法检测到的被遮挡目标(图中黄色框)。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解耦
    +关注

    关注

    0

    文章

    43

    浏览量

    12110
  • 自动驾驶
    +关注

    关注

    790

    文章

    14396

    浏览量

    171460
  • 机器智能
    +关注

    关注

    0

    文章

    55

    浏览量

    8817
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器视觉系统工业相机的成像原理及如何选型

    机器视觉系统是一种模拟人类视觉功能,通过光学装置和非接触式传感器获取图像数据,并进行分析和处理,以实现对目标物体的识别、测量、检测和定位等功能的智能化系统。其目的是让机器能够理解和解释
    的头像 发表于 08-07 14:14 ?189次阅读
    机器<b class='flag-5'>视觉</b>系统工业相机的成像原理及如何选型

    基于MindSpeed MM玩转Qwen2.5VL多模态理解模型

    多模态理解模型是让AI像人类一样,通过整合多维度信息(如视觉、语言、听觉等),理解数据背后的语义、情感、逻辑或场景,从而完成推理、决策等任务。
    的头像 发表于 04-18 09:30 ?1802次阅读
    基于MindSpeed MM玩转Qwen2.5VL多模态<b class='flag-5'>理解</b>模型

    详解半导体集成电路的失效机理

    半导体集成电路失效机理中除了与封装有关的失效机理以外,还有与应用有关的失效机理
    的头像 发表于 03-25 15:41 ?906次阅读
    详解半导体集成电路的失效<b class='flag-5'>机理</b>

    ?VLM(视觉语言模型)?详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型,能够理解并生成与视觉内容相关的自然语言。以下
    的头像 发表于 03-17 15:32 ?5057次阅读
    ?VLM(<b class='flag-5'>视觉</b>语言模型)?详细解析

    DLP160CP DMD是否可以应用于机器视觉应用?

    关于DLP160CPDMD芯片有一个疑问, 请问该芯片是否可以应用在机器3D视觉(结构光)场景应用呢?我在TI TLP机器视觉,“3D扫描视觉机器
    发表于 02-20 07:39

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 ?1962次阅读
    一文详解<b class='flag-5'>视觉</b>语言模型

    超越人类视觉!昱感微“多维像素”多模态超级摄像头方案产品赋能超凡感知力

    如今人工智能发展之日新月异,令人不由感叹也许科幻电影里仿生人的应用不再是遥不可及,那么未来AI会超越人类甚至取代人类吗?也许现在AI的大脑还无法做到,但眼睛已经做到,机器视觉的感知力已全面超越
    的头像 发表于 12-12 17:17 ?951次阅读
    超越<b class='flag-5'>人类</b><b class='flag-5'>视觉</b>!昱感微“多维像素”多模态超级摄像头方案产品赋能超凡感知力

    铁磁性的概念、产生机理、应用

    本文简单介绍铁磁性的概念、产生机理、应用等内容。 铁磁性是一种最引人入胜且被广泛研究的磁现象,指某些材料(如铁、钴、镍及其合金)表现出强大且永久磁性的机制。这种特性使铁磁性材料在从家用磁铁、电动机到
    的头像 发表于 12-06 16:36 ?3471次阅读

    请问怎么理解DAC1280的比特流?

    关于DAC1280这个芯片的1s density modulation怎么理解。我的理解:1S不断的往TDATA引脚输入高低电平,根据1S内传输的比特流中1占得比重来输出一个对应的电流。这样的话根据采样定理,按照一个周期10个
    发表于 12-05 06:04

    心智理论测试:人工智能击败人类

    测试结果并不一定意味着人工智能可以“理解”人。 心智理论是指可以理解他人心理状态的能力,正是它驱使着人类社会运转。它帮助你决定在紧张的情况下该说什么、猜测其他车辆的驾驶员将要做什么,以及与电影中
    的头像 发表于 11-08 10:54 ?748次阅读

    TAS5086-5142V6EVM PGND和GND_SD实现保护的机理是什么?

    PGND和GND_SD实现保护的机理是什么?求解惑~~
    发表于 11-04 06:08

    【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线

    一、什么是计算机视觉?计算机视觉,其实就是教机器怎么像我们人一样,用摄像头看看周围的世界,然后理解它。比如说,它能认出这是个苹果,或者那边有辆车。除此之外,还能把拍到的照片或者视频转换成有用的信息
    的头像 发表于 10-31 17:00 ?1333次阅读
    【小白入门必看】一文读懂深度学习计算机<b class='flag-5'>视觉</b>技术及学习路线

    解锁机器人视觉与人工智能的潜力,从“盲人机器”改造成有视觉能力的机器人(上)

    正如人类依赖眼睛和大脑来解读世界,机器人也需要自己的视觉系统来有效运作。没有视觉,机器人就如同蒙上双眼的人类,仅能执行预编程的命令,容易碰撞障碍物,并犯下代价高昂的错误。这正是机器人
    的头像 发表于 10-12 09:56 ?848次阅读
    解锁机器人<b class='flag-5'>视觉</b>与人工智能的潜力,从“盲人机器”改造成有<b class='flag-5'>视觉</b>能力的机器人(上)

    视觉检测是什么意思?机器视觉检测的适用行业及场景有哪些?

    检测的定义与原理 机器视觉检测,是利用光学成像、数字信号处理和计算机技术,模拟人类视觉的功能,对目标物体进行自动检测和分析的技术。它包括图像采集、预处理、特征提取、分类识别等多个环节,通过这些步骤,机器能够完
    的头像 发表于 08-30 11:20 ?982次阅读

    如何理解LC表和选择关于TPS563202的LC

    电子发烧友网站提供《如何理解LC表和选择关于TPS563202的LC.pdf》资料免费下载
    发表于 08-26 10:02 ?0次下载
    如何<b class='flag-5'>理解</b>LC表和选择<b class='flag-5'>关于</b>TPS563202的LC