0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度智能语音交互的产业化成果丰硕,推进语音技术应用落地

牵手一起梦 ? 来源:电科技 ? 作者:辛雯 ? 2020-09-16 15:20 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

9月15日,AI领域的行业盛会“百度世界2020”大会于线上隆重召开,一大波硬核技术袭来:百度创始人、董事长兼CEO李彦宏与总台央视主持人康辉“虚拟人”亮相、颠覆搜索形态的“度晓晓”、没有驾驶员的“全自动驾驶”、各行各业赋能案例……既有硬核技术,又有“接地气”的落地应用。

在当天的百度大脑分论坛上,百度语音首席架构师贾磊重点讲解了百度端到端语音交互技术。他表示,百度语音交互技术持续迭代升级,已发展成为基于深度学习技术的端到端的语音识别和语音合成技术。在语音识别层面,百度推出端到端信号声学一体化建模的技术,语音合成方面,最新的Meitron和单人千面合成个性化技术亮相。同时交出了百度语音技术最新成绩单:日均调用量超过155亿次,广泛应用在移动端、智能家居、和语音IoT等场景,智能语音产业化成果丰硕。

会上,贾磊分别从语音识别和语音合成两个技术维度详解了百度语音技术的发展迭代和最新成果。在语音识别方面,百度语音识别技术持续创新,从2012年首推深度学习技术,到2019年在业内首先把注意力模型应用于在线语音识别,推出流式多级的截断注意力模型 SMLTA;再到如今全面进化为端到端的信号声学一体化建模技术,在助力百度自身业务发展的同时,更好地赋能多场景、多产业应用。

百度智能语音交互的产业化成果丰硕,推进语音技术应用落地

作为百度语音识别技术的最新成果,端到端的信号声学一体化建模技术很好地解决了传统数字信号处理和语音识别级联系统的各种问题,抛弃了各自学科的学科假设,通过端到端的建模,大幅提升了远场语音识别率。

据贾磊介绍,端到端的信号声学一体化建模技术由模型波束技术和模型AEC技术组成。前者进化为多分区融合的模型波束建模技术,在国际上由百度首次提出,较单分区技术进一步提升识别性能15%以上;后者是升级为基于双LOSS实值掩蔽的模型AEC技术,可以解决设备有非线性情况下的回波消除问题,使得设备即使在播放音乐的时候,也能够进行成功的打断和高精准的语音识别。

此外,贾磊还在会上介绍了百度今年推出的端侧全双工语音交互技术。据他介绍,百度端侧全双工语音交互技术将复杂的建模过程转化为3个端到端的深度学习过程,即信号声学一体化建模、声学语言一体化建模以及语义置信一体化建模。通过端到端的建模,该技术能够将整个复杂的端侧交互转变成若干个深度学习计算,使得依靠一颗AI芯片就能完成端侧的全双工语音交互,从而大幅度提升车载手机等语音交互性能,显著改善用户体验。

而在语音合成方面,百度自2013年启动语音合成研发,历经参数合成、拼接合成、深度学习语音合成和端到端的语音合成,到如今全新升级为包含个性化、多风格多角色、单人千面的语音合成系统,百度语音合成技术始终处于升级迭代中。

会上,贾磊依次介绍了百度语音合成技术的最新成果——个性化TTS,多风格、多角色,单人千面。个性化TTS是个性化定制的Meitron语音合成系统的最新演进,是基于子带分解和GAN_loss的端侧神经网络声码器,也是业内首个在手机端多人通用的端侧的基于神经计算的声码器。个性化TTS相较于传统的基于信号处理和参数的声码器,ABX提升可以达到65:35,其已应用于地图导航,目前每日的导航播报超过1亿次。

多风格、多角色的语音合成,则是针对娱乐内容产业(例如小说)中存在的多个角色交替、多种情感需求并存的播报需求而研发的新技术。此前,用单一音色播报缺乏表现力,播报语音和文字本身的角色情感不一致,用户长时间听感到单调疲倦。百度通过深度学习技术对小说文本进行分析,判断出角色、身份、情感,再借助多风格、多角色语音合成技术去合成小说中的声音,从而实现声音自然流畅、情感表现力丰富、用户体验优美的效果。

针对一个发音人需要用不同风格播报文本的应用场景,百度推出单人千面语音合成技术。该技术能够把说话人的语音、文本、风格、内容、音色都进行分离,在进行语音合成的时候自由组合,从而能够让一个发音人同时去播报新闻、小说、脱口秀、读书、诗歌等不同风格。

“百度智能语音交互的产业化成果丰硕,目前百度智能语音的日均调用量超过155亿次,广泛应用于移动端、智能家居、智能车载、智能服务以及语音IoT,极大地提高了中国社会的智能化程度。”贾磊表示。语音技术作为百度大脑的重要AI能力之一,不但应用于百度搜索、百度输入法、百度地图、小度音箱等百度系列产品,更通过百度大脑AI开放平台广泛赋能众多行业和场景的合作伙伴。未来,百度还将持续创新升级语音交互技术,推进语音技术应用落地,助力更多产业智能化转型升级。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 百度
    +关注

    关注

    9

    文章

    2342

    浏览量

    92585
  • 智能家居
    +关注

    关注

    1934

    文章

    9837

    浏览量

    191227
  • IOT
    IOT
    +关注

    关注

    188

    文章

    4321

    浏览量

    203026
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    普强智能语音技术重新定义车载交互边界

    普强凭借自主研发的智能语音技术,为某国内头部车企提供的语音前处理、唤醒词、ASR、TTS等技术模块,构建覆盖泰语、俄语、韩语、日语等多语种的
    的头像 发表于 07-11 14:00 ?556次阅读

    65%央企大模型落地首选百度智能

    今天,很荣幸地分享一个好消息,百度智能云已牵手65%的央企,共同推进大模型产业落地。得益于全栈的AI能力,
    的头像 发表于 06-11 15:44 ?513次阅读

    蓝牙语音遥控器:智能家居的智慧控制核心

    和低功耗特性,成为理想选择。 蓝牙语音遥控器不仅是智能家居控制的枢纽,更是技术进步的缩影。其便捷的操作、智能语音
    发表于 06-01 20:24

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    接口则让语音机器人可以连接到互联网,实时获取最新的信息,增强其智能性和交互能力。 在实际应用场景中,以智能客服语音机器人为例。SSD2351
    发表于 05-28 11:36

    芯资讯|广州唯创电子WTV系列语音芯片:以技术创新赋能智能语音交互

    在万物互联的智能化时代,语音交互技术已成为人机交互的重要桥梁。广州唯创电子深耕语音芯片领域多年,
    的头像 发表于 05-21 08:45 ?271次阅读
    芯资讯|广州唯创电子WTV系列<b class='flag-5'>语音</b>芯片:以<b class='flag-5'>技术</b>创新赋能<b class='flag-5'>智能</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>

    智能收银语音交互新标杆—WT3000T8语音合成芯片TTS技术应用解析

    一、行业应用背景在零售业态智能化转型的浪潮中,收银设备正经历从功能型向服务型转变的关键阶段。WT3000T8语音合成芯片应运而生,专为满足新零售场景下智能收银终端的语音
    的头像 发表于 04-24 08:45 ?352次阅读
    <b class='flag-5'>智能</b>收银<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新标杆—WT3000T8<b class='flag-5'>语音</b>合成芯片TTS<b class='flag-5'>技术</b>应用解析

    智能语音交互方案在客服领域的应用

    着客服行业的面貌,为企业和用户带来了全新的体验。 语音识别模型优化私部署 方案:精准高效,定制专属服务 语音识别技术作为智能语音
    的头像 发表于 04-11 14:35 ?357次阅读

    格科GC7272荣获第八届“IC创新奖”成果产业化

    近日,中国集成电路创新联盟正式公布第八届“IC创新奖”获奖名单。格科GalaxyCore自主研发的触控显示驱动集成芯片(TDDI)GC7272凭借超1亿颗出货规模及自主技术产业化成果,荣膺“成果产业化奖”。这一奖项不仅是对格科
    的头像 发表于 03-25 16:55 ?636次阅读

    基于WTVxxx语音芯片的智能清洁机器人语音交互系统设计方案介绍

    集成、低功耗、多控制模式及传感器扩展能力,为智能清洁机器人提供了高效的语音交互解决方案。核心需求分析:1、实时状态反馈:工作模式切换、电量提醒、故障报警等
    的头像 发表于 03-06 08:27 ?426次阅读
    基于WTVxxx<b class='flag-5'>语音</b>芯片的<b class='flag-5'>智能</b>清洁机器人<b class='flag-5'>语音</b><b class='flag-5'>交互</b>系统设计方案介绍

    解锁个性化语音交互新时代:九芯智能语音云平台,让创意声音触手可及!

    九芯智能语音云平台提供全面高效安全的智能语音服务,支持自定义语音内容,简化烧录流程,依托AI技术
    的头像 发表于 01-02 16:51 ?992次阅读
    解锁个性化<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新时代:九芯<b class='flag-5'>智能</b><b class='flag-5'>语音</b>云平台,让创意声音触手可及!

    基于语音识别的智能会议系统具备哪些交互功能

    标贝科技专注智能语音交互领域多年,在语音识别和语音合成领域有着多项大型企业合作案例,标贝与多个智能
    的头像 发表于 12-20 10:35 ?660次阅读

    标贝智能语音识别在智能会议场景中的落地案例

    标贝科技专注智能语音交互领域多年,在语音识别和语音合成领域有着多项大型企业合作案例,标贝与多个智能
    的头像 发表于 12-20 10:31 ?816次阅读
    标贝<b class='flag-5'>智能</b><b class='flag-5'>语音</b>识别在<b class='flag-5'>智能</b>会议场景中的<b class='flag-5'>落地</b>案例

    基于智能语音交互智能呼叫中心工作机制

    作为实现智能呼叫中心的关键技术之一的智能语音交互技术,它通过集成自然语言处理(NLP)、
    的头像 发表于 12-03 16:44 ?790次阅读
    基于<b class='flag-5'>智能</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>的<b class='flag-5'>智能</b>呼叫中心工作机制

    百度世界2024公开课完美结束

    近日,以“应用来了"为主题的百度世界2024在上海召开。当天下午,百度世界33节线下AI公开课在上海世博中心开讲,33位来自百度内部的高阶技术人员、外部行业专家及一线高校讲师,为开发者
    的头像 发表于 11-22 09:54 ?643次阅读

    百度将发布AI智能眼镜

    近日,有知情人士透露,百度旗下的人工智能品牌小计划在即将举行的百度世界大会上推出一款全新的AI智能眼镜。这款眼镜将内置先进的人工
    的头像 发表于 11-11 14:50 ?991次阅读