0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探析智能语音交互应用和技术

MEMS ? 来源:未知 ? 作者:胡薇 ? 2018-11-23 09:54 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

上个月,一年一度的中国声学领域技术交流盛会 “声学楼13周年年会暨中国音响行业白皮书发布会”在深圳市南山区金百合大酒店隆重召开。本次大会以“砥砺奋进,行稳致远”为主题,邀请了中科院声学所、万魔声学、科大讯飞、小米科技、猫王收音机、楼氏电子等院所和企业的60余位行业大咖,与来自全国各地的知名专家学者、行业著名企业家、资深工程技术人员、年轻一线工程师等1500余人分享了31场深度技术垂直的议题报告。

座无虚席的大会现场其中,在10月27日下午的特邀专题报告里,北京声加科技CEO邱锋海受邀以《声加万物、聆听未来:智能语音交互应用和技术》为题,分享了目前正在爆发的智能语音交互市场中的各项明星产品和其技术链条。并在演讲中详细分析了声学前端技术所面临的挑战与机遇:如在百花齐放的新生市场里,智能音箱的“去插电化”、减少MEMS麦克风组成的阵列、更灵活的唤醒词训练及生成和智能耳机的尺寸更小、各类型传感器数据融合以及更低功耗的唤醒等。

声加科技CEO邱锋海主题分享《声加万物、聆听未来:智能语音交互应用和技术》

邱锋海表示,10万年前,语言的出现大大加速了人类社会进化和发展的进程。时至今日,听和说依然是人类最基本、最常用和最灵活的交流方式,同时也是最好的人机交互方式。在经历了计算机命令式交互到图形界面触摸交互,再到信息时代/高级信息时代的自然交互、和情感交互……毫无疑问,语音交互将会成为泛在的人机交互方式。

事实上,语音识别技术的研究可追溯到上世纪50年代,从单一模式匹配到70年代的模式和特征分析,再到90年的统计方法(HMM+GMM),直到2010年后,深度神经网络(DNN)取得了巨大的成功,基于DNN技术的应用也呈爆炸式增长。同时,语音识别、自然语言理解、语音合成性能等技术大幅提升,互联网、移动互联网的高速发展也为算法引擎提供了大量的数据“粮食”。在海量的数据红利下,云端计算软硬件系统的算力增长使其能够快速处理海量数据,再加上边缘计算的能力增强、功耗降低等因素,语音交互的“基础设施”已逐渐成熟。因此,智能语音交互应用的兴起也就顺理成章。

然而,尽管语音识别在这几年里得到迅速发展,但是目前业界声称的“语音识别准确度达到了90%以上”(Google在2017年6月声称已达到95%的准确率)其实是实验室数据。“非纯净条件下”的现实生活里,这个准确率则降至50-70%,甚至更低。

智能语音产品从人到机器完成一次语音交互,需要经过四个主要的技术环节:语音前端处理、语音识别(ASR)、自然语言理解(NLP)以及语音合成(TTS),即从声音的拾取到转换成文字,到理解其含义并作出反馈,再到将反馈说出。其中语音前端处理属于客户端,后三者则为云端。经过多年的技术积累,语音识别和语音合成已经获得突破,基本可以满足商用。而语音前端处理和自然语言理解依然是语音交互的核心瓶颈。

语音交互的技术链条

作为人机交互的最底层环节,语音前端处理包括回声消除、声源定向、语音降噪、语音打断、语音唤醒的MEMS麦克风阵列,再通过MEMS麦克风阵列实现复杂噪声环境下的拾音。目前仍然处于商业初级应用阶段,距离比较理想的体验还有相当大的距离。比如以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,用户一定要对着智能手机讲话才能获得符合近场语音识别要求的声音信号,环境稍微嘈杂一点语音识别引擎就失灵了; 而以智能音箱为代表的远场语音识别场景下,依然存在误唤醒,方言、童音识别不准以及声源移动中的识别率低下等问题。

邱锋海认为,目前智能音箱、智能耳机等产品的技术攻关主要还是在回声消除、立体回声消除、去混响、自适应波束形成(抗干扰)、前端信号处理+KWS等;而语音前端信号处理的算法同样面临许多挑战,如单通道DNN语音增强、自噪声抑制、多通道DNN语音增强等。同时,他也在演讲最后留下了几个开放性的问题:关于智能音箱的更少的麦克风组成的阵列(2个麦克风仿生人耳),更低的计算功耗,更长的不插电待机时间,更灵活的唤醒词训练、生成等,蓝牙音箱的智能化(需要本地命令识别),人机交互是以智能音箱为核心的星型网络结构还是各设备的分布式交互;关于智能耳机的尺寸更小,引入其他传感器后各类型传感器数据融合,更低功耗的唤醒、体验更好的语音交互功能等。

据悉,目前在智能语音交互市场中,国内玩家主要分为传统语音技术厂商、互联网厂商,和新兴的创业公司。其中大部分集中在语音识别(ASR)、自然语言理解(NLP)以及语音合成(TTS)等云端业务,这也是归结于语音前端处理技术的人才稀缺与实战项目较少、缺乏经验累积等。与这些玩家相比,声加科技更多着力于解决全场景下的语音前端处理,其强大的研发实力依托于中科院声学所雄厚的人才和科研资源,研发人员均来自于中科院声学所、清华大学、南京大学和中国科学技术大学等国内一流科研院所,核心团队成员亦大多师出于中科院声学所,平均在业界拥有超过十五年工作经验。团队此前已为国内多个巨头企业的智能音箱、智能耳机等明星产品提供远场麦阵模组设计方案、智能耳机麦阵算法、智能耳机模组等技术支持。

适用于多场景的多元化智能设备

“声学楼”作为国内最为专业和盛大的电声技术研讨会之一,本次大会不仅再一次掀起了中国音频技术交流的高潮,还在开幕当天上午由中国电子音响行业协会秘书长陈立新发布了《2018中国电子音响行业发展情况》(白皮书),并邀请中科院声学所李晓东教授、魅族声学总监陈爱民、哈曼汽车电子全球研发中心扬声器系统工程总监杨春洪、四川湖山电子高级工程师张康等业内专家分别对智能音箱行业、耳机行业、汽车车载音响行业、专业音响行业的白皮书进行介绍。值得一提的是,参与《中国智能音箱行业发展情况》主笔的李晓东教授不仅是邱锋海和声加科技数位成员在声学所深造的导师,也是鼓励其创业的前辈。

中科院声学所李晓东教授、博导主题介绍《中国智能音箱行业发展情况》(2018版)编写情况

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    39

    文章

    1788

    浏览量

    114427
  • 智能语音
    +关注

    关注

    11

    文章

    808

    浏览量

    49633

原文标题:声加万物、聆听未来:智能语音交互应用和技术

文章出处:【微信号:MEMSensor,微信公众号:MEMS】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智能语音交互升级,九芯语音识别芯片来助力

    在科技飞速发展的当下,智能语音交互已经深度融入我们的生活,从智能家居的便捷操控,到车载电子的安全驾驶辅助,再到智能玩具的趣味互动,
    的头像 发表于 08-11 14:08 ?142次阅读
    <b class='flag-5'>智能</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>升级,九芯<b class='flag-5'>语音</b>识别芯片来助力

    WTK6900HC-24SS语音识别芯片:重塑眼部/颈部按摩仪的智能语音交互体验

    智能语音技术席卷消费电子领域的浪潮中,广州唯创电子推出的WTK6900HC-24SS语音识别芯片正为眼部/颈部按摩仪注入革命性的交互变革。
    的头像 发表于 07-14 09:07 ?153次阅读
    WTK6900HC-24SS<b class='flag-5'>语音</b>识别芯片:重塑眼部/颈部按摩仪的<b class='flag-5'>智能</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>体验

    普强智能语音技术重新定义车载交互边界

    普强凭借自主研发的智能语音技术,为某国内头部车企提供的语音前处理、唤醒词、ASR、TTS等技术模块,构建覆盖泰语、俄语、韩语、日语等多语种的
    的头像 发表于 07-11 14:00 ?553次阅读

    智能语音交互别再瞎选语音芯片了!NRK3502 才是你的最优解!

    在科技飞速发展的当下,智能产品如潮水般涌入我们的生活,从智能家居到智能医疗,从智能玩具到工业控制,语音
    的头像 发表于 07-10 07:03 ?149次阅读
    <b class='flag-5'>智能</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>别再瞎选<b class='flag-5'>语音</b>芯片了!NRK3502 才是你的最优解!

    蓝牙语音遥控器:智能家居的智慧控制核心

    和低功耗特性,成为理想选择。 蓝牙语音遥控器不仅是智能家居控制的枢纽,更是技术进步的缩影。其便捷的操作、智能语音
    发表于 06-01 20:24

    芯资讯|广州唯创电子WTV系列语音芯片:以技术创新赋能智能语音交互

    在万物互联的智能化时代,语音交互技术已成为人机交互的重要桥梁。广州唯创电子深耕语音芯片领域多年,
    的头像 发表于 05-21 08:45 ?266次阅读
    芯资讯|广州唯创电子WTV系列<b class='flag-5'>语音</b>芯片:以<b class='flag-5'>技术</b>创新赋能<b class='flag-5'>智能</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>

    智能座舱:车载语音交互测试内容

    随着汽车智能化的飞速发展,车载语音交互系统已从早期的辅助功能逐渐演变为智能座舱的核心交互方式之一。驾驶者通过
    的头像 发表于 04-24 15:29 ?1229次阅读
    <b class='flag-5'>智能</b>座舱:车载<b class='flag-5'>语音</b><b class='flag-5'>交互</b>测试内容

    智能收银语音交互新标杆—WT3000T8语音合成芯片TTS技术应用解析

    一、行业应用背景在零售业态智能化转型的浪潮中,收银设备正经历从功能型向服务型转变的关键阶段。WT3000T8语音合成芯片应运而生,专为满足新零售场景下智能收银终端的语音
    的头像 发表于 04-24 08:45 ?351次阅读
    <b class='flag-5'>智能</b>收银<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新标杆—WT3000T8<b class='flag-5'>语音</b>合成芯片TTS<b class='flag-5'>技术</b>应用解析

    智能语音交互方案在客服领域的应用

    着客服行业的面貌,为企业和用户带来了全新的体验。 语音识别模型优化私部署 方案:精准高效,定制专属服务 语音识别技术作为智能语音
    的头像 发表于 04-11 14:35 ?357次阅读

    WT3000T8-32N语音合成TTS芯片:小体积、强性能,重塑智能语音交互体验

    在万物互联的智能化浪潮中,语音交互已成为人机交互的核心入口。广州唯创电子推出的WT3000T8-32N语音合成芯片,凭借其4×4mm超小封装
    的头像 发表于 03-21 09:20 ?519次阅读
    WT3000T8-32N<b class='flag-5'>语音</b>合成TTS芯片:小体积、强性能,重塑<b class='flag-5'>智能</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>体验

    基于WTVxxx语音芯片的智能清洁机器人语音交互系统设计方案介绍

    ?一、产品概述与设计需求随着智能家居设备的普及,擦窗机器人和扫地机器人逐渐成为家庭清洁的重要工具。为提升用户体验,语音交互功能成为产品差异化的关键需求。广州唯创电子WTVxxx系列语音
    的头像 发表于 03-06 08:27 ?425次阅读
    基于WTVxxx<b class='flag-5'>语音</b>芯片的<b class='flag-5'>智能</b>清洁机器人<b class='flag-5'>语音</b><b class='flag-5'>交互</b>系统设计方案介绍

    智能语音交互新标杆】WTK6900HC语音识别芯片:重新定义离线语音控制体验

    在万物智联时代,离线语音控制技术正以革命性姿态重塑智能设备交互方式。WTK6900HC语音识别芯片凭借其突破性的
    的头像 发表于 03-05 09:26 ?483次阅读
    【<b class='flag-5'>智能</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>新标杆】WTK6900HC<b class='flag-5'>语音</b>识别芯片:重新定义离线<b class='flag-5'>语音</b>控制体验

    解锁个性化语音交互新时代:九芯智能语音云平台,让创意声音触手可及!

    九芯智能语音云平台提供全面高效安全的智能语音服务,支持自定义语音内容,简化烧录流程,依托AI技术
    的头像 发表于 01-02 16:51 ?987次阅读
    解锁个性化<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新时代:九芯<b class='flag-5'>智能</b><b class='flag-5'>语音</b>云平台,让创意声音触手可及!

    基于语音识别的智能会议系统具备哪些交互功能

    标贝科技专注智能语音交互领域多年,在语音识别和语音合成领域有着多项大型企业合作案例,标贝与多个智能
    的头像 发表于 12-20 10:35 ?656次阅读

    基于智能语音交互智能呼叫中心工作机制

    作为实现智能呼叫中心的关键技术之一的智能语音交互技术,它通过集成自然语言处理(NLP)、
    的头像 发表于 12-03 16:44 ?788次阅读
    基于<b class='flag-5'>智能</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>的<b class='flag-5'>智能</b>呼叫中心工作机制