0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

视觉对话能力让AI迈上新台阶

OaXG_jingzhengl ? 来源:YXQ ? 2019-07-02 16:39 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

正如《2001太空漫游》《流浪地球》等科幻大片中无障碍的人机对话系统所描绘的那样,拥有智能视觉对话能力的AI随着技术的不断突破,正在向我们走来。

每个人都有这样的回忆,小时候语文老师教我们看图说话,许多小朋友脑洞大开,说出来的答案让人啼笑皆非。实际上,看图说话的能力在年幼时期需要训练,而对于大一点孩子来说就不成问题了。如今,机器人也能做到看图说话了。

近日,来自中国AI在这项能力上已经打破了世界纪录。在第二届全球AI视觉对话竞赛(Visual Dialogue Challenge)中,阿里AI击败了微软、首尔大学等十支参赛队伍,一举获得冠军。

阿里AI在视觉对话竞赛中得冠

会“看图说话”的AI有多聪明?

这场视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议CVPR发起,是目前视觉对话领域最权威的竞赛之一。

该竞赛要求参赛的AI在看完近万张图片后,回答出人类对于任一图片任一内容的提问。这要求AI不仅能够描述出图片中内容的概况,还要经得起人类对图片各种细节的追问。比如,在一张撑着雨伞的人物图片中,说出伞是什么颜色的,有多少人在图中,附近有什么物品和建筑物等等信息。

视觉对话中AI可以从容应对人类提问(左为AI、右为人类)

竞赛结果显示,阿里AI以74.57%的准确率获得冠军,将上一届比赛的纪录提高了16.82%,并且超过微软AI的64.78%的准确率。而在相同的数据集中,人类的准确率仅为64.27%,AI甚至胜过了人类。

传统的视觉AI主要针对目标的检测和识别,但对复杂场景中目标之间的逻辑关系理解、推理能力较弱,无法回答表达图片对象直接关系的复杂问题,也难以将图片信息转化为人类理解的语言输出。

这意味着,要实现视觉对话能力,传统的视觉AI在学会“看图”之后,还要有一种语言模型来支撑它“说话”。阿里AI的突破就在于提出了“递归探索对话模型”。

视觉对话AI与用户交流图像内容

这一模型通过标注信息学习出模仿人类认知复杂场景的思维方式,能识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,综合集成了图像识别、关系推理与自然语言理解三大能力,能理解人类提出的问题及真实意图,给出自然准确的回复。

视觉对话能力让AI迈上新台阶

AI能“看图说话”,这样的应用其实距离我们并不遥远,微软之前推出了一款年龄测试工具How-old.net ,曾经刷爆微博和朋友圈,所应用的就是这一技术的应用。

目前微软还开放了能“看图说话”的AI系统,用户进入官网上传图片,稍等一会,就能看到系统对于图片的描述。其准确率虽然不低但依旧有待提升,以一张曾经广为流传的黑人问号表情图片为例,AI很快给出了客观的回答:“我觉得这是篮球队员尼克·杨露出牙齿微笑。”

AI视觉对话识别图片信息

以“看图说话”为代表的视觉对话是近年来快速崛起的AI研究方向,目的在于教会机器用自然语言与人类讨论视觉内容,这能够使机器拥有了对真实视觉世界的理解与推断能力,也意味着AI的认知能力将迈上新的台阶。

可以预见,这项技术未来将被应用在人机交互诸多场景:

在火灾、地震后在废墟中寻找幸存者的救援机器人,能够代替人类之眼,深入危险的现场,及时、高效地综合指挥指令和场景信息作出行动。

视觉对话技术有望人类提高地震救援效率

视障人士可以通过提问AI,理解图像中的内容,了解自身所处的周围环境,为其生活起居带来更多的便利。

无人驾驶车辆也可以在行驶中通过视觉对话,更加准确理解人类意图征询人类的意见,让乘客的乘坐体验更好。

正如《2001太空漫游》《流浪地球》等科幻大片中无障碍的人机对话系统所描绘的那样,拥有智能视觉对话能力的AI随着技术的不断突破,正在向我们走来。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器视觉
    +关注

    关注

    163

    文章

    4620

    浏览量

    123363
  • AI
    AI
    +关注

    关注

    88

    文章

    35787

    浏览量

    282597

原文标题:机器人看图说话能力比肩人类!中国AI超越微软,打破世界纪录

文章出处:【微信号:jingzhenglizixun,微信公众号:机器人博览】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    软通动力助力软件智能化领域标准化建设新台阶

    近日,由人工智能关键技术和应用评测重点实验室牵头编写的《软件智能化成熟度模型 通用能力要求》(AIIA/T 0223-2025 )正式发布。作为核心参编单位,软通动力深度参与标准制定,助力软件智能化领域标准化建设
    的头像 发表于 07-21 11:49 ?535次阅读

    最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)

    端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK6大模型语音视觉
    发表于 07-04 11:14

    神眸引领AI智能视觉新范式,科技更有温度

    AI能力矩阵,更是通过情感化交互与场景化服务,用户真正感受到科技带来的温暖陪伴。神眸以“云、网、边、端、芯”全链路自研架构为基石,从芯片级性能突破到云端智能服
    的头像 发表于 05-23 13:24 ?525次阅读
    神眸引领<b class='flag-5'>AI</b>智能<b class='flag-5'>视觉</b>新范式,<b class='flag-5'>让</b>科技更有温度

    首创开源架构,天玑AI开发套件端侧AI模型接入得心应手

    模型、通义千问、混元等多种先进端侧大模型,还包含视觉、语言、多模态等多种多样的大模型,开发者可以通过Gen-AI Model Hub一键调用模型能力
    发表于 04-13 19:52

    燧原科技正式纳入飞桨例行版本发布体系

    燧原科技与飞桨经过长时间的适配合作和持续集成(CI)建设,对飞桨合?的每?行代码都在燧原硬件上进?了验证。如今,燧原正式纳入飞桨例行版本发布体系。未来,燧原将基于这?合作模式,共同?持飞桨重大版本发布,推动AI技术创新和开源?态发展
    的头像 发表于 04-11 11:31 ?561次阅读
    燧原科技正式纳入飞桨例行版本发布体系

    单次、多次对话与RTC对话AI交互模式,如何各显神通?

    在这个充满无限可能的AI时代,这些奇妙场景正逐步走进我们的生活。你可曾想象过,有一天家里的智能设备会化身相声演员,和你幽默对答?或者,你的玩具能像知心好友一样,陪你畅聊心事?单次对话、多次对话
    的头像 发表于 04-02 18:18 ?756次阅读
    单次、多次<b class='flag-5'>对话</b>与RTC<b class='flag-5'>对话</b><b class='flag-5'>AI</b>交互模式,如何各显神通?

    圣邦微电子SGM58201 24位高精度Σ-Δ ADC 最高22Bits ENOB有效分辨率

    如果您正在寻找一款具备高精度、低温漂和高集成度的 ADC,SGM58201 是一个理想的选择。它不仅能提升测量系统的精度和稳定性,也为高端测量应用提供了可靠方案,助力为工业、医疗、能源等领域的高端测量系统在技术不断
    的头像 发表于 03-11 11:41 ?1714次阅读
    圣邦微电子SGM58201  24位高精度Σ-Δ ADC 最高22Bits ENOB有效分辨率

    AI Agent 应用与项目实战》----- 学习如何开发视频应用

    学习、自然语言处理(NLP)、计算机视觉(CV)等先进技术提供的强大的数据处理和分析能力。 在视频应用开发中,AI Agent可以用于视频内容分析、推荐、编辑等。 下面跟随作者的指导,使用语聚
    发表于 03-05 19:52

    DEKRA德凯与联合电子合作新台阶

    近日,DEKRA德凯为联合汽车电子有限公司(以下简称:UAES联合电子)提供的ISO8800-人工智能与功能安全培训课程圆满结束,并在结业仪式为通过考核的学员代表们颁发了DEKRA德凯签发的中国首批ISO8800-人工智能与功能安全培训证书。
    的头像 发表于 02-28 15:32 ?594次阅读

    天津检验中心智创团队:致力于构建全球领先的智能网联汽车测试能力

    在刚刚过去的2024年,天津检验中心新“智”突破创效团队坚持党建引领,全面贯彻集团新质创效年工作任务,圆满完成各项工作任务,实现部门战斗力、创新力和凝聚力的整体提升,经济效益新台阶,科技创新实现
    的头像 发表于 02-12 11:43 ?1154次阅读

    鼎捷雅典娜接入DeepSeek大模型,加速 AI 应用创新布局

    鼎捷数智(股票代码:300378)近日宣布,DeepSeek大模型已全面集成至鼎捷IndepthAI智能体平台及鼎捷全线智能应用,标志着鼎捷以“智能+”战略为引领,AI布局再上新台阶。通过接入
    的头像 发表于 02-10 15:18 ?819次阅读
    鼎捷雅典娜接入DeepSeek大模型,加速 <b class='flag-5'>AI</b> 应用创新布局

    HarmonyOS NEXT 应用开发练习:AI智能对话

    显示发送的时间戳,以便用户了解消息的发送时间。 这个DEMO展示了如何使用ArkTS和扩展后的ChatUI框架(或类似功能的库)在HarmonyOS NEXT创建一个功能丰富的AI智能对话框。我们可以根据需要进一步定制和扩展这
    发表于 01-03 11:29

    AI对话魔法 Prompt Engineering 探索指南

    Engineering 就是设计和优化与AI对话的“提示词”或“指令”,AI能准确理解并提供有用的回应。 Prompt Engineering 主要包括以下几个方面: 1.明确目标
    的头像 发表于 11-07 10:11 ?1531次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>对话</b>魔法 Prompt Engineering 探索指南

    中科曙光推动液冷技术产业加速落地

    当前,我国算力基础设施建设如火如荼,算力规模不断新台阶。算力设施的高功耗,对冷却设备和技术提出了更高要求。传统液冷数据中心面临着三个痛点难题:缺乏尖端实验和研发环境、产品化能力不足
    的头像 发表于 09-20 15:48 ?1158次阅读

    对话蓝牙技术联盟首席执行官Neville Meijers

    蓝牙技术联盟(Bluetooth SIG)于近日宣布Neville Meijers担任新任首席执行官。Neville Meijers将为蓝牙技术联盟带来长期积累的变革领导力和坚持不懈的创新精神,他曾以此帮助电信和无线企业新台阶
    的头像 发表于 09-04 09:27 ?738次阅读