0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

汽车AI语音交互 正在让机器交互更接近真人交互

jf_f8pIz0xS ? 来源:智能相对论 ? 作者:胡杨 胡皓 ? 2020-07-25 12:03 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

现在,情况有了改善。当用户询问车机“明天出门需要带伞么?”,车机就会播报明天的天气情况,如果需要再查询其他时间或者城市的天气,那么用户不用重新唤醒,也不需要说出完整表达,只需要说“那大后天呢?”、“那杭州呢?”。在用户和车机在自然连续对话的过程中,语义理解服务会记住会话的历史,并结合历史处理用户的请求,通过这种方式,用户的多次连续交互就可以形成一个会话流,与用户的交互也更加自然。

自然连续对话,是车载语音交互从“人工智障”迈向“人工智能”的重要一步。不过斑马网络最近推出的斑马智行VENUS系统,打破了对用户说话规则的要求,用户可以按照自身的说话习惯来进行交流,交互过程更加人性化。这会不会是一个跨越?

从科幻到现实,语音交互一直在进化

提到智能语音交互,普罗大众对于技术刷屏的记忆停留在2018年的Google开发者大会“Google I/O”开幕式上。当Google Assistant以惊人的流利会话,打电话和店家沟通,预约理发店、餐厅,并用一句俏皮的“嗯哼”作为回应时,观众给予了热烈的掌声。这是技术愿景美好、激励人心的一面。

有趣的是,同年2月的美国第五十二届超级碗的天价广告上,亚马逊卖力黑了自家的智能音箱和智能助手——Alexa。唤醒失误、识别不准、响应困难等等用户槽点,被广告创意表现得淋漓尽致。这是技术的现实。

但不论是基于场景的未来畅想,还是对当下缺陷的大胆自嘲,两个科技巨头都将业务重心的一角,押注在了语音交互赛道上。

亚马逊首席技术官Werner Vogels断言:未来,人和数字世界对的交互,一定是以“人”为核心,而不是机器驱动;我们终将构建出更人性化的交互,让人机互动更加融合。

在“以人为核心”、“更加融合”的人机交互中,语音交互(简称VUI)是核心。VUI允许更自由、高效的人机交互,其本质上比任何其他形式的用户界面都更“人性化”。斯坦福大学教授,Wired for Speech的合著者,克利福德·纳斯写道:“语音是人类交流的基本手段……。所有文化主要通过语音来说服,告知和建立关系。”

VUI允许用户使用语音作为媒介与机器进行交互。从《2011太空漫游》中的HAL到《星球大战》中的C-3PO,人们在科幻电影里畅想着能够与机器自由沟通。事实上,早在1952年,贝尔实验室的工程师就开发出了Audrey(奥黛丽):它可以识别数字0-9的发音。尽管奥黛丽能够以超过90%的精度识别语音输入,但其体积大,成本高昂,未曾步入大规模商业化的发展通道。

自此,人类开启了长达半个多世纪的语音交互探索。1962年,IBM推出了第一台真正意义上的是语音识别机器。工程师William Dersch开发出的Shoebox可以收听操作员说出的数字和命令。例如“5+3+8+6+4-9,总和”,机器将打印出正确答案:17。

1970年,隐马尔可夫模型(HMM)为语音识别的发展插上了算法的翅膀,让语音识别从文字匹配进化到了可预测的高度。20世纪80年代,Covox,Dragon Systems,Speechworks相继成立,推动了语音识别的商用化进程。

90年代,语音识别技术迎来了大规模商用和普及。1995年,Dragon发布了单词听写级的语音识别软件。这是人类历史上首个面向广大消费者的语音识别产品。仅一年之后,Charles Schawab(嘉信理财)和Nuance(纽昂斯)联合推出了一套“语音股票经纪人”系统,可同时响应360个客户的股票询价电话。1997年,如今隶属Nuance旗下的声龙系统(Dragon system)推出了“NaturallySpeaking”软件,这是历史上第一个可用的“连续语音”听写软件。它标志着单词级不停顿语音交互的开始。

最近的20年,Google,Apple,Amazon先后推出了大众耳熟能详的智能语音助手,并通过智能手机、智能音箱等产品,来到普罗大众身边。据Juniper Research统计,截至2019年2月,全球使用中的语音助手达32.5亿;预计到2023年,该数字将达到80亿。

语音交互技术上的高山一:自然连续对话

随着软硬件的快速迭代,如今的ASR(语音识别)技术已近成熟,未来智能语音交互的核心竞争力在于在复杂场景下准确理解用户的意图,并为其提供差异化服务。更加智能的自然连续对话能力,将让语音交互系统更具人类的亲和力特质和逻辑思维能力,能带给用户更具情景化、更有温度的用车体验和服务潜力。

“智能相对论”认为,自然连续对话是一个系统的工程,涉及到从车机端的声学前端处理、语音唤醒、语音识别、语义理解、对话管理、自然语言生成、语音合成等核心交互技术。斑马智行VENUS的AI语音得益于阿里达摩院的重磅加持以及科大讯飞、思必驰等合作伙伴的大力支持,极大提升了语音能力。斑马基于AliOS系统,可以更好地将语音核心技术能力与系统能力相结合,更大程度地发挥出语音核心技术的优势,将多种引擎的协作发挥到极致,达到“1+1》2”的效果。

语音交互技术上的高山二:个性化,即声音克隆

如果说自然连续对话为更自由的交互和差异化服务提供可能,那语音定制化则将个性化、情感化的语音交互率先落地。

2017年9月,一家名为Lyrebird的加拿大初创公司在推特上发布了一段10秒的录音。录音是内容AI模仿美国总统特朗普的话语。在此之前,Google旗下的DeepMind曾经公布了一个用AI合成人声的研究成果:WaveNet,达到以假乱真的地步。Adobe也发布过一款名为Project VoCo的原型软件,在倾听20分钟音频样本之后可以进行模仿。而Lyrebird将音频采样的输入时间缩短到了60秒。

如今,国内智能网联行业也首次迎来了语音定制——“声音克隆”产品。斑马智行VENUS系统“声音克隆”操作流程非常简单。用户只需在斑马智行APP录制20句话即可合成私人语音包,一键发送至车机便可全局使用,无论是导航引导、天气查询,还是预订餐厅,和你对话的都是你最想听的声音。

声音是车载AI语音交互功能的“灵魂”,基于“声音克隆”技术,斑马智行VENUS系统将为用户提供“千人千声”的定制化服务,用户可以“克隆”亲人和爱人的声音,让陪伴更长久,让驾驶更舒心。

据介绍,斑马智行VENUS系统“声音克隆”操作流程非常简单。用户只需在斑马智行APP录制20句话即可合成私人语音包,一键发送至车机便可全局使用,无论是导航引导、天气查询,还是预订餐厅,和你对话的都是你最想听的声音。斑马网络AI语音相关负责人表示,斑马智行VENUS系统能在录制“倾听”中“掌握”每个人说话时的字母、音位、单词和语句的发音特点,通过深度学习技术推理并模仿声音中的语音音色、语调,“说”出全新的语句。

攀登技术高山,如何让机器交互能够更接近真人交互依然在等待更好答案

语音是人类最舒适,最直观的交流方式之一。如今的智能语音交互产品,变得越来越像人一样聪明且富有感情。它可以准确理解信息输入、高效处理并提供理想的信息输出。“智能相对论”认为,在人工智能和5G迅速发展的背景下,语音平台有机会成为物联网时代下新的“操作系统”,连接全新的产业生态,包括各类服务、应用、硬件等。

在各类应用场景中,除了智能家居,汽车产品对于语音交互的需求显而易见。不论是点击、滑动等触摸交互方式,在车载环境下都存在安全隐患且并不高效,语音交互是天然适应车载环境的交互方式。不过想要设计、开发、应用一套成熟的车载语音交互系统,要翻越重重高峰:行车噪音干扰如何处理、方言口音如何适配、自然的表达如何更好支持、系统的误触发如何控制在可用范围。

而随着用户对汽车智能化要求的越来越高,更自然的交互成为语音交互的发展方向。如何让机器交互能够更接近真人交互?多模态融合理解、自然全双工对话、自然语义理解成为了新的需要攀登的高峰。

斑马智行的系统底层——AliOS,在传统触控、按键交互模式的基础上,将语音交互能力、视觉交互能力以及场景信息在系统层进行融合互通,更大程度得发挥了各个交互能力的优势,使得多模态融合理解、融合交互以及更自然的全双工对话、拥有更多信号输入的自然语义理解成为可能。同时在各种交互能力融合后对上层应用进行开放,使得最终呈现给用户的交互更自然。

语音交互带来的产业机遇方兴未艾。如果说,未来的主流交互方式存在多样的可能性,那更高率、更自然、更接近于人本能的方向一定是人机交互的未来。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机交互
    +关注

    关注

    12

    文章

    1260

    浏览量

    56893
  • AI
    AI
    +关注

    关注

    88

    文章

    35758

    浏览量

    282426
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    七牛云发布灵矽 AI:600ms超低延迟,重塑智能硬件语音交互新范式

    8 月 15 日,七牛云正式发布灵矽 AI —为新一代智能硬件而生的语音交互新范式,智能硬件不仅会“说话”,更能听懂情绪、自然交流。这不仅是语音
    的头像 发表于 08-15 15:33 ?197次阅读
    七牛云发布灵矽 <b class='flag-5'>AI</b>:600ms超低延迟,重塑智能硬件<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新范式

    人机交互:连接人类与数字世界的桥梁

    )等技术的发展,人机交互已经从传统的键盘鼠标操作,演进为语音识别、手势控制、脑机接口等自然、智能的交互方式。 ? 人机
    的头像 发表于 08-11 15:21 ?120次阅读

    普强智能语音技术重新定义车载交互边界

    普强凭借自主研发的智能语音技术,为某国内头部车企提供的语音前处理、唤醒词、ASR、TTS等技术模块,构建覆盖泰语、俄语、韩语、日语等多语种的语音交互解决方案,助力其海外车型实现无障碍人
    的头像 发表于 07-11 14:00 ?555次阅读

    思必驰天穹3.0交互自由随心

    作为全屋智能语音交互系统,天穹3.0基于思必驰中枢大模型构建,融合了全链路语音交互技术,采用“云端 + SDK”架构,云端有多个大模型协同运行,能够高效解决全屋智控场景中的诸多问题,为
    的头像 发表于 07-01 14:44 ?434次阅读

    OBOO鸥柏丨AI数字人触摸屏查询触控人脸识别语音交互一体机上市

    OBOO鸥柏丨AI数字人触摸屏查询触控人脸识别语音交互一体机上市分析OBOO鸥柏品牌推出的AI数字人触摸屏查询触控人脸识别语音
    的头像 发表于 05-21 20:22 ?394次阅读
    OBOO鸥柏丨<b class='flag-5'>AI</b>数字人触摸屏查询触控人脸识别<b class='flag-5'>语音</b><b class='flag-5'>交互</b>一体机上市

    智能座舱:车载语音交互测试内容

    随着汽车智能化的飞速发展,车载语音交互系统已从早期的辅助功能逐渐演变为智能座舱的核心交互方式之一。驾驶者通过语音指令即可轻松完成导航设置、音
    的头像 发表于 04-24 15:29 ?1232次阅读
    智能座舱:车载<b class='flag-5'>语音</b><b class='flag-5'>交互</b>测试内容

    90元打造小智AI腕表,语音交互超有趣!

    最近小智AI非常火,这周给大家分享一个来自开源平台的小智AI腕表项目。 项目作者@dotnfc,复刻成本90元左右,开源协议:MIT License 项目简介 本项目分享了小智AI聊天机器
    发表于 04-16 14:26

    智能语音交互方案在客服领域的应用

    在当今数字化浪潮中,客服领域正经历着前所未有的变革,智能语音交互方案凭借其高效、便捷的特性,成为推动这一变革的核心力量。其中,语音识别模型优化私部署方案与语音合成声音定制方案作为两大核
    的头像 发表于 04-11 14:35 ?357次阅读

    芯资讯|WT2605C蓝牙语音芯片:AI对话大模型赋能的智能交互新引擎

    引言:AI技术驱动智能交互新趋势在万物互联的智能时代,用户对产品的交互体验提出了更高要求——从“被动响应”向“主动对话”升级。如何将AI大模型的强大语义理解与
    的头像 发表于 04-09 08:35 ?589次阅读
    芯资讯|WT2605C蓝牙<b class='flag-5'>语音</b>芯片:<b class='flag-5'>AI</b>对话大模型赋能的智能<b class='flag-5'>交互</b>新引擎

    零知开源——ESP32语音交互系统(AI小智)开发教程

    一、功能介绍小智AI聊天机器人是一个基于嵌入式硬件与人工智能技术深度融合的智能交互系统。该项目以ESP32开发板为核心,结合语音唤醒、自然语言处理、音频解码播放及图形化
    发表于 03-29 16:30

    零知开源——ESP32语音交互系统(AI小智)开发教程

    小智AI聊天机器人是一个基于嵌入式硬件与人工智能技术深度融合的智能交互系统。该项目以ESP32开发板为核心,结合语音唤醒、自然语言处理、音频解码播放及图形化
    的头像 发表于 03-29 15:33 ?7862次阅读
    零知开源——ESP32<b class='flag-5'>语音</b><b class='flag-5'>交互</b>系统(<b class='flag-5'>AI</b>小智)开发教程

    ?多模态交互技术解析

    多模态交互 多模态交互( Multimodal Interaction )是指通过多种感官通道(如视觉、听觉、触觉等)或多种交互方式(如语音、手势、触控、眼动等)与计算机系统进行自然、
    的头像 发表于 03-17 15:12 ?2324次阅读

    基于WTVxxx语音芯片的智能清洁机器人语音交互系统设计方案介绍

    ?一、产品概述与设计需求随着智能家居设备的普及,擦窗机器人和扫地机器人逐渐成为家庭清洁的重要工具。为提升用户体验,语音交互功能成为产品差异化的关键需求。广州唯创电子WTVxxx系列
    的头像 发表于 03-06 08:27 ?425次阅读
    基于WTVxxx<b class='flag-5'>语音</b>芯片的智能清洁<b class='flag-5'>机器人语音</b><b class='flag-5'>交互</b>系统设计方案介绍

    解锁个性化语音交互新时代:九芯智能语音云平台,创意声音触手可及!

    九芯智能语音云平台提供全面高效安全的智能语音服务,支持自定义语音内容,简化烧录流程,依托AI技术,助力各行业智能化升级,引领语音
    的头像 发表于 01-02 16:51 ?988次阅读
    解锁个性化<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新时代:九芯智能<b class='flag-5'>语音</b>云平台,<b class='flag-5'>让</b>创意声音触手可及!

    基于智能语音交互的智能呼叫中心工作机制

    作为实现智能呼叫中心的关键技术之一的智能语音交互技术,它通过集成自然语言处理(NLP)、语音识别(ASR)和语音合成(TTS)等先进技术,实现了与客户的智能
    的头像 发表于 12-03 16:44 ?789次阅读
    基于智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>的智能呼叫中心工作机制