0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI系统存在巨大缺陷 看图识物比不上人类幼儿

罗欣 ? 来源:Quanta Magazine ? 作者:佚名 ? 2018-10-11 14:25 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人类,1分;AI,0分。

上个月,来自约克大学和多伦多大学的两名研究人员合作发表了一篇论文:The Elephant in the Room,在学界引起巨大反响。通过实验,他们发现现有人工智能系统还存在巨大缺陷,它们在“看图识物”这类视觉任务上的表现甚至还比不上人类幼儿。

看罢这篇论文,加里·马库斯表达了对研究人员的赞许:“这是一篇聪明而重要的论文,它提醒我们所谓的‘深度学习’还没有那么‘深刻’。”他是纽约大学的认知心理学教授,也是优步(Uber)人工智能实验室的负责人。

这项成果出现在计算机视觉领域,论文设计的任务很常规:训练一个机器学习系统,让它学会检测和分类图像中的对象。随着自动驾驶汽车离真正落地越来越近,学界对机器的视觉处理技术一直寄予厚望。为了保障安全,计算机必须能从一幅街景图中准确分辨哪个是鸟,哪个是自行车,即便达不到超人水平,它们至少也应该和被替代的人眼一样好用。

但是,这个任务并不简单,它突出了人类视觉的复杂性——以及构建模仿系统的高难度。在这项研究中,研究人员首先展示了一个能检测、识别客厅场景下物品的计算机视觉系统,它的性能很不错,能发现客厅里有一把椅子、一个人和书架上的书。之后,他们在同一幅图中加入了一个异常物体——一只大象,这时系统却“指鹿为马”了,它开始把椅子称为沙发,把大象称为椅子,还忽视了之前能“看”到的其他物品。

对此,论文作者之一Amir Rosenfeld认为:“这些奇怪现象的出现,表明了目前的物体检测系统是多么脆弱。”他们没能在论文中解释为什么会出现这种脆弱,但提出了一个破有见地的猜想:

这和人类具备,而AI没有的一项能力有关——人类在看图识物时能理解图像中是否存在令人困惑的东西,从而让自己去看第二眼。

房间里的大象

人类视觉和机器视觉很不一样。

当我们睁开双眼时,眼球开始收集大量视觉信息,并把它们输送给大脑快速处理,这时我们知道天是蓝的,草是绿的,万物在不断生长。

相比之下,机器在生成“视觉”上更费力。它们看待事物的方式类似用盲文阅读,其中图像的像素就是“文字”,通过在像素上运行各类算法,机器最终能生成关于目标物体的越来越复杂的表达形式。运行这一复杂过程的系统是神经网络,它由许多“层”构成。

输入一幅图像后,神经网络会逐层提取图像中的细节,比如各个像素的颜色和亮度,层数越深,它提取到的特征就越抽象。在过程结束时,它会对根据这些特征对其正在观察的内容输出最佳预测。

这个过程意味着相比人类,神经网络能把握更多人眼难辨的细节。事实上,现在基于神经网络的系统已经在许多视觉处理任务上超越人类,比如依据品种对狗进行分类。这些成功应用提高了人们对技术的期待,研究人员也开始着手研究,看计算机视觉系统是否能帮助汽车快速通过拥挤的街道。

但是,这项技术的成功也激励了一批人去探索它的脆弱性,比如近几年非常流行的“对抗样本”。通过在原图上做一些肉眼几乎看不到的扰动,新图像就能欺骗人工智能系统,让它把“虎斑猫”分类成“鳄梨酱”,把3D打印的“乌龟”分类为“步枪”。这些研究不是杞人忧天,试想一下,如果有人恶意在道路标志上添加了这种扰动,致使自动驾驶汽车误读、漏读路标,那车上乘客的生命安全该如何保障?

论文中的研究具有相同的精神。研究人员向机器展示了一个普通的客厅生活场景:一名男子正坐在破旧椅子边缘,前倾身体,聚精会神地玩着游戏。如下图所示,在“思考”片刻后,神经网络正确检测到了一系列物体:椅子、手提包、杯子、笔记本电脑、人、书籍、电视机、瓶子、时钟

但是,当他们在场景中引入了一些不协调的东西——一只大象后,神经网络就被新加入的像素迷惑了。如下图所示,在几次试验中,神经网络开始把大象识别为椅子,把椅子识别为沙发,它也忽略了靠近大象一侧的一排书。即便是离大象较远的物体,系统也存在错漏情况。

这个发现之所以令学界震惊,是因为实验展示的是现在最基础、最通行的物体检测技术,虽然客厅内突然出现一头大象并不现实,但公路上出现一只火鸡确实可能的。现实道路上会发生很多意料之外的事,根据论文结果,我们有理由怀疑,自动驾驶汽车会因为路边突然出现的一只火鸡,而无法检测到车前的行人。

正如罗恩菲尔德说的:“如果房间里真的有一头大象,那你肯定会注意到它,但这个系统却甚至没能检测到它的存在。”

万事皆有因果

当人类看到意想不到的东西时,我们会先愣一下,然后才恍然大悟。这是一个具有真实认知意义的常见现象——它恰好揭示了为什么神经网络无法处理“怪异”场景。

现如今,最先进的物体检测神经网络还是以“前馈”的方式工作,这意味着信息流经神经网络时是单向的,从输入细粒度像素开始,到检测曲线、检测形状、检测场景,再到最后输出最佳预测。为了确保预测的准确性,它必须在整个过程中不断收集“有用”信息,但这种单向性也意味着如果早期信息存在某种错误,那这些错误就会污染预测结果。

论文作者之一Tsotsos表示:“从神经网络顶部开始,我们确实可以探索和结果相关的一切内容,但我们也有可能让每个位置的每个特征都对每一个可能的输出作出干扰。”

举一个大家都理解的例子。假设图中有一个圆和一个正方形,它们颜色各异,一个是红的,一个是蓝的。现在要求你在短时间内观察图片,并迅速答出正方形是什么颜色的。如果注意力够集中,我们可能一瞥就能给出答案;如果有些头昏脑胀,我们可能看了一眼后还会有点迷惑,然后自然而然地会去重新看一遍。而且当我们看第二遍时,注意力是高度集中在观察正方形颜色上的。

简而言之,人类的视觉系统如果没有获得想要的答案,它会回头看看自己在哪里犯了错。而这个过程可以用1990年《Behavioral and Brain Sciences》一篇论文中提到的概念——选择性调整模型(ST)来解释。如上图所示,那篇论文假设视觉处理架构在结构上是金字塔形的,该网络内的节点接收前馈和反馈连接。当刺激输入视觉系统时,首先它会以前馈的方式激活与其连接的金字塔内的所有节点;之后,输出的结果再以反馈的方式重新回到之前的节点中,激活倒置子金字塔。

这个模型的优势在于人类能依靠前馈和反馈,选择感兴趣的时空区域,选择与当前任务相关的事物并选择最佳视点,同时,我们也能通过修剪不相关的内容来限制任务相关的搜索空间,只考虑之前有过提示信息的位置,用位置/特征信息抑制感受野中的干扰,更简单、高效的获取最佳结果。

而大多数神经网络缺乏这种反馈能力,这也是科研人员一直无法有所突破的研究难点。现在使用前馈网络的一个优点是容易训练——只需让输入通过一个6层神经网络,但是,如果我们希望未来机器也能“先愣一下,然后才恍然大悟”,它们就必须理解什么时候该回头看看,什么时候该简单前馈。

人脑可以在这些过程之间无缝切换,但神经网络还需要一个新的理论框架才能做同样的事情。

就在本月,谷歌上线了一个对抗样本挑战Unrestricted Adversarial Examples Challenge,他们向社区征集参赛鸟/自行车分类器,要求参赛的“对抗者”可以在输入有扰动的图像后,依然准确分类鸟和自行车;而“攻击者”的目标是生成一张包含鸟的图像,让“对抗者”分类器把它分类成自行车。这离构建选择性调整模型还有不小距离,但这是通向解决问题的第一步——也是不可或缺的一步。

本文来源:Quanta Magazine

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4814

    浏览量

    104069
  • AI
    AI
    +关注

    关注

    88

    文章

    35476

    浏览量

    281289
  • 机器学习
    +关注

    关注

    66

    文章

    8510

    浏览量

    134862
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    “可控产出”。 系统创新 这部分介绍了云端神经形态计算架构、超导与非超导低温类脑芯片、自旋波类脑芯片。这些技术让芯片运行模式更接近人类大脑,为低功耗、高智能AI奠定基础。 ▲基于磁子 / 自旋波的类脑
    发表于 07-28 13:54

    电子元器件知识大全:看图元件

    ,比如元器件的正确选用等,笔者在此就不逐一列举了,下面笔者就来说一些非常实用的电子知识,希望大家都能向高手之路再迈上一步。注:下文内容最好结合图一和后续图片进行阅读。 看图元件"
    发表于 06-09 16:55

    Nordic nRF54 系列芯片:开启 AI联网新时代?

    在科技飞速发展的今天,芯片技术的创新始终是推动行业进步的关键力量。Nordic 公司的 nRF54 系列芯片,正以其卓越的性能和独特的设计,为 AI 机器学习和联网应用带来前所未有的变革
    发表于 04-01 00:18

    名单公布!【书籍评测活动NO.57】芯片通课:一本书读懂芯片技术

    联系,视为放弃本次试用评测资格! Part.1 无处不在的芯片 自人类进入信息时代,从 PC 到互联网,再到如今的 AI 大潮兴起,无论应用形态如何变化,它们都是由小小的芯片支撑运行起来的。可以说,芯片
    发表于 02-17 15:43

    AI赋能边缘网关:开启智能时代的新蓝海

    的引入彻底改变了这一局面。通过在边缘网关集成AI芯片和算法模型,使其具备了实时数据分析、智能决策和自主控制能力。在工业质检场景中,搭载AI算法的边缘网关能够实时识别产品缺陷,将检测效率提升300%以上
    发表于 02-15 11:41

    有效抑制SiC外延片掉落缺陷生成的方法

    引言 碳化硅(SiC)作为第三代半导体材料,因其出色的物理和化学特性,在功率电子、高频通信及高温环境等领域展现出巨大的应用潜力。然而,在SiC外延生长过程中,掉落缺陷(如颗粒脱落、乳凸等)一直是
    的头像 发表于 02-10 09:35 ?401次阅读
    有效抑制SiC外延片掉落<b class='flag-5'>物</b><b class='flag-5'>缺陷</b>生成的方法

    名单公布!【书籍评测活动NO.55】AI Agent应用与项目实战

    不需要人类持续干预的AI系统,它可以根据当前的环境和背景信息,去自主分析各种遇到的问题并做出合理的决策,比如几年前打败人类棋手李昌镐的AlphaGo,它就是一个典型的
    发表于 01-13 11:04

    CAD快速看图

    CAD快速看图
    发表于 01-07 13:44 ?4次下载

    马斯克预言:AI将全面超越人类智力

    近日,科技巨头马斯克作出了一个关于人工智能(AI)的大胆预测。他断言,AI的发展速度将超乎人类的想象,并将在不久的将来全面超越人类的智力。 马斯克在X平台上明确表示,
    的头像 发表于 12-28 14:23 ?795次阅读

    基于缺陷生成路径的AI质检新范式

    在全球化的制造业格局中,产品质量问题一直是悬在企业头顶的一把达摩克利斯之剑。特别是近年来,随着消费者对产品质量的要求越来越高,任何微小的缺陷都可能引发大规模的产品召回,造成巨大的经济损失和社会影响
    的头像 发表于 11-15 01:05 ?938次阅读
    基于<b class='flag-5'>缺陷</b>生成路径的<b class='flag-5'>AI</b>质检新范式

    莫拉维克悖论与多模态AI:迈向机器人认知的新时代

    莫拉维克悖论揭示了人工智能系统在处理高级推理与基本感知运动技能上的巨大差异。对于AI而言,复杂的逻辑任务似乎比人类习以为常的感知运动技能更容易实现。这一悖论凸显了当前
    的头像 发表于 10-26 15:00 ?1290次阅读

    60G婴幼儿呼吸心跳检测专用雷达模块 感应距离0.8-1.5米

    每年因呼吸道疾病死亡的新生儿高达200万。主要原因是婴幼儿的呼吸系统和免疫系统尚未没有发育完全,抵抗力能力差,极容易感染呼吸道疾病。除此以外,婴幼儿在睡眠时稍不注意,便容易发生俯卧、坠
    的头像 发表于 09-28 08:09 ?882次阅读
    60G婴<b class='flag-5'>幼儿</b>呼吸心跳检测专用雷达模块 感应距离0.8-1.5米

    幼儿园分区广播系统

    一、 项目背景 某幼儿园,有一栋教学楼,每层长约50米,每层有3间教室。楼前有一个200多平的小操场。具体需求如下: 1、定时播放 根据学校作息时间表编制广播播放时间表,定时定点自动播放音乐铃声
    的头像 发表于 09-04 09:41 ?612次阅读
    <b class='flag-5'>幼儿</b>园分区广播<b class='flag-5'>系统</b>

    使用TI Edge AI Studio和AM62A进行基于视觉AI缺陷检测

    电子发烧友网站提供《使用TI Edge AI Studio和AM62A进行基于视觉AI缺陷检测.pdf》资料免费下载
    发表于 09-03 10:38 ?0次下载
    使用TI Edge <b class='flag-5'>AI</b> Studio和AM62A进行基于视觉<b class='flag-5'>AI</b>的<b class='flag-5'>缺陷</b>检测

    基于鸿蒙Next模拟扫图的一个过程

    一、功能介绍(基础) 基于鸿蒙Next模拟扫图的一个过程,扫描到图片,提示出相关的图片内容,是一个什么东西。 二、使用场景(大类) 支付、社交、信息获取、在线调查、教育学习等等。 三、实现步骤
    发表于 08-21 15:04