0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用 AI 帮助视障者“听懂”世界

yrlT_lianggezhi ? 来源:工程师李察 ? 2019-01-26 11:32 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自动驾驶无人机,到监控安防,视觉 AI 技术的突破为人们生活带来了巨大改变,在许多领域迎来爆发式发展,仅在国内就涌现商汤、云从、旷视和依图等四大视觉 AI 独角兽。但若真要论能为使用者带来多大改变,恐怕很少有比得上这一项,那就是用视觉 AI 来打造盲人的眼睛。

无障碍人工智能成显学,各大科技巨头亦相继致力投入

AI for Accessibility、无障碍人工智能近来已在国际间成为一项显学。如何将发展迅速的人工智能技术,用来改善全世界约 10 亿残疾人士的生活,也是各大科技巨头致力投入的方向之一。

以视障者来说,近日 Instagram 就新增一项辅助功能,用 AI 自动辨识照片内容并以语音告知用户。脸书 Messenger 也有无障碍机器人(Accessibility Bot),协助盲人辨识脸书朋友,甚至是朋友的脸部表情。华为 Mate 20 Pro 也有一个应用程序 Facing Emotions,可以将七种最普遍的情绪转化为相应的声音,可以大幅提升盲人与其他人的实时互动交流。

影像视觉 AI 并不是新的概念,其背后技术主要包含机器学习深度学习,再加上 3D 脸部辨识等。尤其是深度学习算法运用在训练 AI来协助盲人辨识物体,可以发挥非常大的用处。

比方说,如果我们想要设计一个 AI 协助盲人分辨不同面额的纸钞。做法就是将一张 10 元纸钞,通过各种不同角度,包含正面、反面、整张、边角、其中每一小片图案,都展示给 AI 看,让它学习什么是一张 10 元纸钞。通过大量反覆学习后,视障者只要能让手机镜头看到 10 元纸钞的一小角,AI 就能将它分辨出来。

“这些小事,会让你很确实地感觉到自己的独立性。希望随着人工智能的进展,可以让我们更容易感受环境,协助我们完成更多日常事务”,微软视觉辅助应用程序 Seeing AI 的项目主管、同时自身也是视障者的 Saqib Shaikh,近日接受专访时这样对 DT 君说。

图|微软技术负责人(Tech Lead)Saqib Shaikh (来源:微软)

Saqib Shaikh 在 7 岁时失去视力,此前不久,他才刚刚得到人生中的第一台电脑

所幸这并不是他与计算机科学之间的句点。

而后他就读视障学生小学,一位老师看出了他的潜力,鼓励他开始学习打字。此后他一路进入大学,主修计算机科学,以班上顶尖的成绩毕业,并取得人工智能硕士学位。而后,他又加入微软的人工智能团队,并在大约 3 年前通过微软内部的黑客松竞赛,以Seeing AI这个项目脱颖而出,获得资源将之打造为实际产品,现在已可在美国地区免费下载。

Seeing AI 用视觉 AI 帮助视障者“听懂”世界

Seeing AI 这个是一款结合图像辨识、语音说明及人性化使用介面的应用程序,可以用手机上的摄像头识别所有图像,包含通过扫描条形码来识别产品、辨识身旁其他人的年龄,性别和面部表情,还可以描述它在图片中看到的内容,并阅读出菜单和文件。

同时,这款应用程序也可以结合智能眼镜,更好地协助用户了解所处的周遭环境。

图|Seeing AI 是一款结合图像辨识、语音说明及人性化使用介面的应用程序(来源:微软)

Saqib Shaikh 指出,近年深度学习技术的成熟,是 Seeing AI 可以真正发挥用处的主要关键。通过深度学习训练,向系统展示大量照片,并教导它们照片中的内容,AI 可以真正有效辨识出现实生活环境中的各种物体与人物。

但是,要落实到让 AI 有效协助视障者在生活中能真正用上,还必须归功于近年硬件技术的发展,在软、硬件配合之下,让视觉 AI 技术实用价值大大提升。尤其是边缘运算风潮兴起,视觉信息可以在装置终端就能完成运算,才能对使用者提供实时反馈,让盲人能够即时对互动对象做出适合的反应。

实时反馈绝对是关键。Saqib Shaikh 说,想像一个情境,当你在一个会议上进行简报。因为这是一个正式场合,因此所有人,包含旁边的同事、上级主管,都只是安静听你说话,不会任意发出声音。所以在你说话的同时,若无法用眼睛去观察听众,你对于他们的反应是毫无头绪的,你甚至不知道应不应该继续说下去,还是暂停下来询问听众的想法。

这时候,如果有一个 AI 可以帮你辨识听众的反应,实时反馈你他们是不是看起来满意、尤其是还能辨认出特定人士,比方说直属主管的表情和动作如何,这样一个人工智能,将能够大大地让盲人突破限制,改善他们在日常工作中表现。

非监督学习是视觉 AI 下一步突破关键

今日我们所谈的视觉 AI ,其实多半仍局限于静态图像、单一图像,但 Saqib Shaikh 想像中的 Seeing AI 2.0,将可以解读一系列的图像、可以掌握使用者的偏好。

“就像当我与妻子一起在街上走路时,她会告诉我有什么我没看过的新东西、有什么有趣的事物。比方说,她会告诉我我们很喜欢的一间咖啡店关门了。”Saqib Shaikh 说,“一个真正的人可以了解什么是你会感兴趣、什么是你会觉得重要的事物。”

而 AI 若要能够做到这一点,就不能只是一次辨识单一图像,而是还要能综合理解背后的情境,甚至是接续出现的新的信息。Saqib Shaikh 分析,这意味着后续 Seeing AI 必须运用更多非监督学习的技术来训练 AI,进一步拓展 AI 对多变场景复杂信息的处理能力。

其实,Saqib Shaikh 早在求学期间意识到,为了让身为盲人的自己表现更好,他必须做很多额外的努力来改变他所处的生活环境,包括不只是自己看书、而是要雇请其他人为他朗读教科书的内容等,才能让自己与其他正常人站在更接近一点的比较基准上。

当时就有个朋友建议过他,与其只用嘴巴说要改变生活环境,不如实际做点什么真正的改变。这让他早就思考过,从某种角度来讲,残疾者本人其实就是最好的创新者。因为,他们比任何人都了解残疾者最迫切的需求是什么?愿意做什么尝试?可以如何改变?

然而,在 Saqib Shaikh 进入微软工作的近乎前 10 年,他并未在工作上试图突出任何作为一个盲人的特殊能力。相反的,他让自己就像一名正常的工程师一样,绝大多数时间都投入内部的主流专案,如 Cortana 等。

“我想,起初我是想证明自己可以成为一个主流的工程师”,Saqib Shaikh 说,而转捩点是出现在他于微软工作的第10年。“工作满 10 年后,我觉得我已经达到了目标,证明了自己的能力,所以我可以开始运用自己的专业去帮助其他人。“

现在,他终于决定投入自己真正想做的事情,也就是用 AI 来改善残疾人士的生活环境。就像他所说的,“我可以选择用这一种与我自己最相关的方式,从个人经验来理解许多盲人的问题,并且用自己的专业来提供协助。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35748

    浏览量

    282391
  • 人工智能
    +关注

    关注

    1810

    文章

    49220

    浏览量

    251479
  • 无人机
    +关注

    关注

    231

    文章

    10900

    浏览量

    188093

原文标题:用 AI 帮助视障者“听懂”世界,专访微软传奇盲人工程师 Saqib Shaikh

文章出处:【微信号:lianggezhizi,微信公众号:两个质子】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    米尔RK3576核心板,让360环技术开发更简单

    。然而,真正落地一套360环系统并不容易。开发人员常常会遇到:· 摄像头接口不足,无法满足基本需求;· 缺乏AI处理能力,无法实时识别画面内对象;·推流技术复杂,无法快速实现远程监控或多端显示;· 硬件
    发表于 08-06 18:13

    360环技术推荐的硬件平台:支持多摄像头与三屏异显的理想选择

    硬件平台选型360环的落地并不简单。它不仅需要多个高清摄像头的数据输入,还需要稳定的图像处理能力、强大的AI推理能力,以及足够多的视频输出接口支持显示需求。很多开发在选型时会遇到一些挑战,比如:l
    发表于 07-30 17:32

    高达2070TFLOPS算力|腾科技基于NVIDIA Jetson Thor系列模组,重磅推出全栈AI边缘智算大脑解决方案

    探索物理AI的无限可能。无论是硬件厂商、软件开发,还是各行业的应用企业,让我们携手共进,利用腾科技先进的全栈AI边缘智算大脑解决方案,推动机器人技术在更多领域的创新应用,共同打造物
    的头像 发表于 07-28 16:48 ?891次阅读
    高达2070TFLOPS算力|腾<b class='flag-5'>视</b>科技基于NVIDIA Jetson Thor系列模组,重磅推出全栈<b class='flag-5'>AI</b>边缘智算大脑解决方案

    高达2070TFLOPS算力腾科技基于NVIDIA Jetson Thor系列模组,重磅推出全栈AI边缘智算大脑解决方案

    探索物理AI的无限可能。无论是硬件厂商、软件开发,还是各行业的应用企业,让我们携手共进,利用腾科技先进的全栈AI边缘智算大脑解决方案,推动机器人技术在更多领域的创新应用,共同打造物
    的头像 发表于 07-28 16:45 ?260次阅读
    高达2070TFLOPS算力腾<b class='flag-5'>视</b>科技基于NVIDIA Jetson Thor系列模组,重磅推出全栈<b class='flag-5'>AI</b>边缘智算大脑解决方案

    智能入选世界经济论坛“全球创新

    2025年7月,世界经济论坛(World Economic Forum)正式宣布魔智能(Motovis)入选"全球创新"(Global Innovators)。此次入选标志着
    的头像 发表于 07-17 16:11 ?347次阅读

    肇观电子两款无人机视觉避模组量产交付

    在无人机的世界里,视觉不仅定义了飞行的边界,更是智能决策的核心。肇观电子以其突破性的AI视觉芯片,赋予无人机前所未有的感知与认知能力。 基于肇观自研芯片的两款无人机视觉避模组:无人机轻量智能避
    的头像 发表于 05-06 15:11 ?822次阅读

    英伟达GTC2025亮点 NVIDIA推出Cosmos世界基础模型和物理AI数据工具的重大更新

    新模型可实现物理 AI 的预测、可控世界生成和推理。 两款全新Blueprint为机器人和自动驾驶汽车后训练提供海量物理 AI 合成数据生成技术。 1X、Agility Robotics
    的头像 发表于 03-20 19:01 ?953次阅读

    《零基础开发AI Agent——手把手教你扣子做智能体》

    《零基础开发AI Agent——手把手教你扣子做智能体》是一本为普通人量身打造的AI开发指南。它不仅深入浅出地讲解了Agent的概念和发展,还通过详细的工具介绍和实战案例,帮助读者快
    发表于 03-18 12:03

    RDK加持的导盲眼镜:人士的“眼睛外挂”

    指路,让朋友走哪都心里有数。智能瞳行不仅让人士自由穿梭于大街小巷,还让他们更好地感受世界的变化和精彩——昆明理工大学津桥学院:智能瞳
    的头像 发表于 03-14 19:43 ?766次阅读
    RDK加持的导盲眼镜:<b class='flag-5'>视</b><b class='flag-5'>障</b>人士的“眼睛外挂”

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    ”“大模型圈的大黑马”“硅谷震惊了”“来自中国的学霸级AI”…… 从智能手机到自动驾驶,从数据中心到物联网,FPGA 正悄然改变着我们的生活。未来,FPGA 又将如何塑造世界?DeepSeek 带你一起
    发表于 03-03 11:21

    AI赋能边缘网关:开启智能时代的新蓝海

    在数字化转型的浪潮中,AI与边缘计算的结合正掀起一场深刻的产业变革。边缘网关作为连接物理世界与数字世界的桥梁,在AI技术的加持下,正从简单的数据采集传输节点,进化为具备智能决策能力的边
    发表于 02-15 11:41

    AI赋能锐测控平台

    自2016年成立以来,简仪科技致力于打造基于开源技术的锐测控平台(SeeSharp Platform),建设测控开源生态圈。得益于OpenAI、ChatGPT、DeepSeek、通义千问等AI技术
    的头像 发表于 02-10 09:23 ?617次阅读
    <b class='flag-5'>AI</b>赋能锐<b class='flag-5'>视</b>测控平台

    云端AI开发工具怎么

    云端AI开发工具通常包括代码编辑器、模型训练平台、自动化测试工具、代码管理工具等。这些工具不仅降低了AI开发的门槛,还极大地提高了开发效率和模型性能。下面,AI部落小编为您介绍云端
    的头像 发表于 12-05 13:31 ?639次阅读

    AI项目管理平台怎么

    AI项目管理平台是一种集成了项目管理工具、AI开发环境和数据分析能力的综合性平台。接下来,AI部落小编为您梳理AI项目管理平台怎么
    的头像 发表于 11-13 09:38 ?745次阅读

    组团“出海”亮相迪拜,卓智通AI产品闪耀ITS World Congress 2024

    在智能交通世界大会的“Technologies and practice for Vehicle-Road-Cloud integration”主题论坛上,卓智通董事长兼CEO吴柯维受中国公路学会邀请登台演讲,全程英语向不同
    的头像 发表于 09-24 09:47 ?584次阅读
    组团“出海”亮相迪拜,卓<b class='flag-5'>视</b>智通<b class='flag-5'>AI</b>产品闪耀ITS World Congress 2024