0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

天猫精灵大升级 搭配“火眼”变得能听会看

454398 ? 来源:网络整理 ? 2018-03-28 09:52 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

智能音箱从能听到会看,多模态交互将成为趋势。

8 个月时间,在天猫精灵 X1 智能音箱从发售到销量 200 万后,阿里巴巴人工智能实验室举行了 2018 年的第一场发布会(3 月 22 日),而这一次发布的核心产品,有点出乎大家意料。

用一个 49 元的手机支架,和几乎人人都有的智能手机,天猫精灵进行了一次变身,不但变得比以前更加聪明,还拥有了全新的“多模态感知系统”。作为 2017 年的行业黑马,本次发布会上让人激动的这件新品不再是硬件,而是重量级的系统升级——AliGenie 2.0,我们不妨先来看看这段官方视频演示:

AI 变奏曲:智能音箱从能听到会看

毫无疑问,当天发布会上的主角正是阿里巴巴人工智能实验室的 AliGenie 2.0,它加入了最新的 AI 视觉系统,并尝试去融入更多情感操作。阿里巴巴人工智能实验室负责人浅雪称之为“天猫精灵火眼”。和去年 7 月推出的 AliGenie 1.0 最大的不同在于,2.0 版本从原本能听能说,变成了如今的能看能听能说。

能看是系统升级的重点,“从触觉到听觉,再到视觉,最后是情感反馈,多模态交互是 AliGenie 2.0 的核心”,对于此次系统升级,浅雪认为它最大的不同是人机交互的变化,尤其是因此产生的与众不同的用户体验。

阿里巴巴人工智能实验室负责人 浅雪

搭载“火眼”的天猫精灵,在原本的天猫精灵 X1 上增加了一个手机支架,通过把手机连接到天猫精灵 App,手机屏幕出现了一只可以交互的“天猫”,通过手触摸,它可以简单和人互动。

这只“宠物猫”拥有 AI 识图能力。依靠手机前置摄像头,天猫精灵有了能“看懂”周围事物的“眼睛”,它可以识别 2D 和 3D 信息。具体来说,有三个重要能力加入。

第一,当你手拿儿童故事书,或者识字卡靠近,询问天猫精灵“这是什么”时,它可以“看到”并立即为你朗读卡片和故事书的内容。

其次,通过连接阿里健康的数据信息,天猫精灵有了“判断”药品的能力,可以迅速识别 40000 种中国家庭常用药。当你手拿药品盒子在手机摄像头前询问时,这只“猫”会手拿药盒,告诉你它的名称,功效甚至有效周期。

第三,同时也是最让人惊讶的能力,天猫精灵具备了基础的 3D 图像识别的能力。当手持蔬菜、水果等物品靠近摄像头询问时,它可以很快告诉你这是什么物品。

和前两种的 2D 图像识别不同,3D 识别物体要做到的是不论你用何种角度拿着物品靠近摄像头,它都能判断出物体是什么,按照产品总监释空的解释,这(难度)要比 2D 识别大得多。

因为 3D 识别不仅在考验系统对周围环境光线的适应、同时也要对你手持物体角度进行准确把握,还要有足够的数据信息可以搜寻出物体。比如在你拿着一个已经发霉变色的西兰花时,要想被识别出来,就必须知道这还是西兰花,这对于机器来说并不容易。所以目前,天猫精灵能识别出的蔬菜水果不多,只有几十种,但这种能力却对于将来识别更多物品(包括商品),甚至于人脸都具有重要意义。

此外,发布会很重要的一部分在于天猫精灵的边界扩展,看到前面几个功能也许有人能猜到,阅读故事书,教人读书写字,这是面向儿童的能力。而帮你识别药品,告诉你药品功效,再告诉你还有多久会过期,这是更贴近老人的能力。

因此天猫精灵不但联合了国内 12 家少年儿童出版社,对市面上 117 套儿童读物以及绘本进行了有声读物化,还将通过马云公益基金会将天猫精灵带到更多偏远地区,为当地学校教育以及儿童陪伴问题提供新的解决思路。

尽管发布会还另外带来了阿里巴巴人工智能实验室的路由器、投影仪以及迷你版天猫精灵,但最核心的主角无疑就是全新升级的 AliGenie 2.0 系统。这不由得令人好奇,当国内外厂商纷纷升级了带屏幕的智能音箱时,为何阿里巴巴选择了这样一个“非常规”的升级方式?不是通过卖新的产品,而是用 App 和用户自己的手机,这样一个更加“软着陆”的方式来使用新产品(也是新系统)呢?

殊途同归的多模态交互

一个现状是,带有屏幕的智能音箱价格与人们期望存在差距。市面上带屏幕的智能音箱,少则近千元,多则数千元。可以说在目前阶段,当用户考虑用数千元买一个带屏幕的智能音箱时,他们会犹豫,并会和一些其它成熟产品(如 iPad 等)比较其是否值得?

这也是摆在包括浅雪在内的团队成员面前同样的问题,因此需要考虑的就是:如何用极低的成本,尽量做到现阶段能实现的最优体验?团队内部对此曾出现过分歧,用释空的说法,最终他们认为,由于目前阶段带屏幕的智能音箱产品不具有足够的议价,因此就做出了用手机来完成这些的方案。

这让人想起了谷歌在 VR 推进早期曾大力推行的产品“CardBoard”。

纸板做的廉价 VR 眼镜——Google CardBoard

在 VR 产业刚刚起步阶段,市面上 VR 产品不但价格贵,体验也并不优秀,于是谷歌采取了用廉价纸盒做 VR 眼镜的策略,满足了大家在好奇期的想法,并成功向大众普及了 VR 这一概念,这种方式不得不说是有其必要性的。

“我们最关注的事情是如何让每个用户用最低的成本入门就能完全体验。”浅雪说,这种观点最终指向的目标是给每个人做有用有价值的人工智能,所以尝试出这样的方案在意料之中。

但在大方向上,智能音箱不应该仅仅只有语音交互,应该是语音、视觉、情感多模态交互的观点,这却是 AliGenie 系统,乃至整个智能音箱领域目前达成的一个基础共识。

的确,智能音箱优点很多,但尝试过的用户都会认为它不够完美,声音交互的特性让它在很多场景中不够灵活,而要解决这个问题,利用屏幕也许是一个途径,今年开年来,伴随 CES 2018 展会,我们见到了国内外众多带有屏幕的智能音箱,谷歌甚至组建了一个“Smart Display”联盟,想要让这一趋势迅速蔓延开来。

从左到右,LG、联想、JBL 的 Smart Diaplay 产品

在浅雪看来,阿里人工智能系统 AliGenie 2.0 系统升级,它的“能力比一块屏幕更重要”。目前阶段下,通过一个 App 和手机就能体验到的事情,既能让用户拥有更好的心理预期,又能在吸取经验进一步打磨未来产品,这样的尝试能让更多用户理解,有了屏幕交互的智能音箱不同于 iPad,语音控制和屏幕触控也不是互相替代,而是互补关系。

一旦有了这种体验,大家就会发掘出自己真正需要的到底是怎样的智能音箱。如发布会现场演示的功能一样,教育儿童,可以通过看到卡片和图书来给孩子讲故事;帮助老人,可以通过看到药品盒子就说出功能功效和截止日期。这种轻度体验能在生活中慢慢培养人们对于智能音箱的新的认知。

如果说 2017 年是国内智能音箱竞赛元年,那么站在赛道上的阿里巴巴无疑通过双 11 的 100 万台销量成为了行业黑马。而随着 AliGenie 2.0 的推出,2018 年人工智能产品将更具扩展性,多模态,让人更自如的交互无疑将成为接下来各大厂商关注的重点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108400
  • vr
    vr
    +关注

    关注

    34

    文章

    9679

    浏览量

    153074
  • 智能音箱
    +关注

    关注

    31

    文章

    1787

    浏览量

    79907
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI耳机变身翻译官+会议总结大师?涂鸦AI音频开发方案,让耳机升级到下一个level

    交流及日常生活等多类场景,妥妥的人类新型“智能听觉中枢”!为了助力开发者/品牌商快速开发能听会说的AI音频类设备,涂鸦重磅发布AI音频转录总结方案,覆盖耳机、录音设
    的头像 发表于 07-10 18:47 ?527次阅读
    AI耳机变身翻译官+会议总结大师?涂鸦AI音频开发方案,让耳机<b class='flag-5'>升级</b>到下一个level

    未来工厂的“火眼金睛”:熔池相机如何赋能智能制造升级

    未来工厂装上“火眼金睛”,引领焊接智能化升级新方向。 实时监控,焊接过程可视化 创想智控熔池相机具备高动态范围成像能力,即使在强烈弧光和飞溅干扰下,也能清晰捕捉熔池、焊缝、焊丝等关键图像,实现对焊接过程的可
    的头像 发表于 07-07 16:40 ?185次阅读
    未来工厂的“<b class='flag-5'>火眼</b>金睛”:熔池相机如何赋能智能制造<b class='flag-5'>升级</b>?

    2025科大讯飞智能交互产品升级发布会定档

    从命令行到图形界面,从触屏操作到语音助手,技术浪潮重新定义人机交互的边界。当大模型的智慧涌现,机器从“能听会说”真正走向“能理解会思考”,那么未来交互的新范式将是什么?
    的头像 发表于 06-11 17:12 ?656次阅读

    输电线路的“智慧之眼”——观冰精灵守护电网安全

    观冰精灵,又称覆冰精灵或导线精灵,是一种专门用于监测和识别输电线路覆冰情况的智能识别监测装置。它通过工业摄像机采集线路覆冰前后的图像,利用先进的算法比较图像边界轮廓,精准预测输电线路覆冰的厚度,让运维人员及时了解线路覆冰状态。
    的头像 发表于 06-09 11:41 ?238次阅读
    输电线路的“智慧之眼”——观冰<b class='flag-5'>精灵</b>守护电网安全

    猫精灵与夸克团队携手设计AI眼镜

    近日,阿里巴巴集团内部的智能互联事业群迎来了新的管理变革,由总裁吴嘉正式接管这一关键业务板块。作为阿里巴巴面向广大消费者的重要硬件业务之一,“猫精灵”将继续保持其独立运营的特色与优势。 在当前快速
    的头像 发表于 01-20 10:28 ?2102次阅读

    阿里AI To C业务调整:猫精灵与夸克融合,探索AI眼镜

    近日,阿里集团内部进行了一次业务调整,智能互联事业群正式由智能信息事业群总裁吴嘉接管。智能互联事业群是阿里在2022年成立的一级业务部门,其核心品牌为猫精灵,是阿里内部为数不多的面向消费者的硬件
    的头像 发表于 01-17 10:16 ?792次阅读

    力合微PLC合作生态2024年度大会在深圳成功召开

    、应用、落地,探索和交流2025年以及未来的规划和发展。居然智家、猫精灵、腾讯云、小米、A.O.史密斯、创维、TCL、西顿、浪潮、中海智能、金云智联、一维、数字动力、
    的头像 发表于 12-17 15:22 ?841次阅读
    力合微PLC合作生态2024年度大会在深圳成功召开

    符合BLE 5.0,可Mesh组网,对接猫精灵的蓝牙系列模组

    可对接猫精灵等智能音箱,适用于多种智能家居应用场景。 安信可蓝牙模块主要分为PB系列、TB系列、TG系列: 01产品简介 PB-01/PB-02 ●关键词:采用蓝牙5.0协议、支持通过智能手机组建mesh网络 ●应用场景:主要应用于智能灯控、智能穿戴、智能家居等物联网
    的头像 发表于 11-21 09:13 ?1070次阅读
    符合BLE 5.0,可Mesh组网,对接<b class='flag-5'>天</b><b class='flag-5'>猫精灵</b>的蓝牙系列模组

    tpa6135a2声音小了能听到噪声,为什么?

    tpa6135a2声音小了能听到噪声像是反馈自激的声音问下ti工程师 它是哪种放大PCB需要注意些什么的吗
    发表于 11-07 07:07

    TLV320aic3104怎么设置使耳机能听到人讲话的声音?

    我公司有项目正在使用TLV320AIC3104 这颗TI codec IC,已拿到这颗IC的开发套件,但是现在用TLV320aic3104评估板有些问题请教。从电脑里面输出声音,耳机能正常收听。但是还不知道怎么设置使耳机能听到人讲话的声音。
    发表于 11-07 06:44

    标配即满配!深视智能精灵系列高速相机新品上市!

    高速相机领域新品-精灵系列精灵系列是深视智能高速相机家族面向高端科研与工业领域的匠心之作。精灵系列高速相机以小巧体积、强大性能、丰富内存选项,满足不同用户复杂场景应用需求,为高端科研和工业领域带来
    的头像 发表于 10-29 08:08 ?1088次阅读
    标配即满配!深视智能<b class='flag-5'>精灵</b>系列高速相机新品上市!

    智慧安全用电产品-用电精灵

    用电精灵是什么? 用电精灵主要功能是针对用电回路的漏电、温度、电压、电流、电能等检测,漏电、超温、过欠压、过流保护。安装位置:出线回路;不需要控制分合闸。适用于单相、双火线、三相三线、三相四线中性点
    的头像 发表于 10-16 14:37 ?847次阅读
    智慧安全用电产品-用电<b class='flag-5'>精灵</b>

    导线精灵是什么

    导线精灵,也被称为观冰精灵或覆冰精灵,是一种专为输电线路设计的覆冰智能识别监测装置,能够精准捕捉并识别线路上的覆冰状态。 一、主要功能 覆冰监测 :通过工业摄像机采集线路覆冰前后的图像,利用算法比较
    的头像 发表于 10-16 09:45 ?798次阅读
    导线<b class='flag-5'>精灵</b>是什么

    导线精灵是什么

    导线精灵,也被称为观冰精灵或覆冰精灵,是一种专为输电线路设计的覆冰智能识别监测装置。以下是对导线精灵的详细介绍:一、主要功能覆冰监测:通过工业摄像机采集线路覆冰前后的图像,利用算法比较
    的头像 发表于 10-16 09:24 ?812次阅读
    导线<b class='flag-5'>精灵</b>是什么

    符合BLE 5.0,智能手机Mesh组网,可对接猫精灵的蓝牙模组PB系列

    可对接猫精灵等智能音箱,适用于多种智能家居应用场景。 安信可蓝牙模块主要分为PB系列、TB系列、TG系列,今天先给大家带来高性价比的PB系列。 01产品简介 PB-01/PB-02 ●关键词:采用蓝牙5.0协议、支持通过智能手机组建mesh网络 ●应用场景:主要应用于智
    的头像 发表于 09-24 14:26 ?900次阅读
    符合BLE 5.0,智能手机Mesh组网,可对接<b class='flag-5'>天</b><b class='flag-5'>猫精灵</b>的蓝牙模组PB系列