0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

揭秘语音交互:个性化AI打造“数字化的你”

章鹰观察 ? 来源:高通 ? 作者:侯纪磊博士 ? 2018-07-18 15:42 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从更精美的照片、更高的安全性到更自然的用户界面(UI),人工智能AI)正以无缝的方式更多地丰富我们的生活。高能效和个性化是Qualcomm AI Research的核心研究领域,因为它们对于下一代无处不在的智能用户体验而言不可或缺。终端侧AI正在支持虚拟助理的发展,而个性化正成为今天的虚拟助理和未来真正个人助理之间的主要差异。

AI驱动语音交互革命

语音是我们一直期盼的变革性交互方式,它可以提供用户与终端间的自然交互,而无需任何手部操作。先进的语音交互具有始终开启、对话式、个性化和私密的特征,可支持我们进行高效且自然的对话。从智能手机智能音箱到扩展现实(XR)设备和汽车,语音交互正在众多产品种类中日益发展和普及。

要实现端到端的语音交互体验,其中需要多个组件的支持(见图1)。语音交互的流程是这样的:首先麦克风采集语音信号,然后是语音预处理、语音激活、语音识别和自然语言理解,最终是终端通过语音合成的方式响应用户。由此可见,端到端的语音交互是个多步骤的复杂流程。

图1:语音交互的功能组件。

为什么今天语音交互变得如此普及?一个重要因素是,机器学习已经点燃了语音交互的革命。机器语音识别的准确率正不断逼近95%,达到与人类准确率相当的水平。当机器准确率不能达到人类的水平,整个语音交互过程就没法做到对话式的自然高效交流,因此用户体验会有显著下降。机器学习技术可应用于几乎所有的语音交互组件之上,从而提升各方面及整体的交互体验。

终端侧的语音交互至关重要

因计算、内存和功率的限制,主要语音交互组件(如自动语音识别和自然语言处理)传统上都由云端AI所支持。但是,终端侧处理具有众多独特的优势,包括更快的响应速度、更高的可靠性和更好的隐私保护。尤其是在私密性方面,今天的消费者渴望把数据掌握在自己手中,并且有权选择是否将数据发到云端进行处理或存储。因此,更多在终端上进行处理并为云端功能提供补充,这是目前行业的重要趋势之一。而其中的主要挑战在于,需要在移动终端的功耗和散热限制下运行并实现复杂的语音交互功能。

图2:语音交互的主要组件正向终端侧迁移。

Qualcomm正积极应对这项挑战,并把低功耗的终端侧AI应用于语音交互组件之上。以下是几个例子:

1、语音降噪将带噪语音处理成清晰语音并输出,这在嘈杂环境中尤其重要。Qualcomm AI Research正在开发一个降噪深度学习模型,该模型与传统方法相比有显著的性能提升,并具有较高效率可在助听器这样非常受限的处理能力、功耗和散热条件下运行。

2、 自动语音识别将语音转录为文本。测试表明,深度学习技术可在移动终端上实现顶级的语音识别准确率。Qualcomm AI Research已经完成了一个深度学习声学模型的训练并使其适应每个用户的口音和环境,从而提高个性化程度。

今天,终端侧的语音交互已经成为现实。Qualcomm AI Research已经可以在终端侧实现整体的端到端语音交互处理,并在2018年的CES大会上演示了智能家居中的端到端语音交互体验。在适应口音和环境后,这项演示对特定领域的指令集已经可以实现超过95%的意图理解准确率。

个性化成就真正的虚拟助理

真正的虚拟助理是在终端里面有一个“数字化的我”。因此,它需要分析个人信息并不断学习用户偏好,从而成为真正了解用户的数字助理。情境式智能是实现个性化的必备条件,而实现情景式智能需要融合多种终端侧传感器的数据(如麦克风、摄像头和陀螺仪)及其他终端侧和终端外数据(见图3)。

图3:情境式智能融合多种传感器和个人信息。

增强个性化的一大好处在于,它能够推动个人助理进一步发展并兼具响应性和主动性。真正的个人助理不仅能够在用户提问时提供个性化的答案,还能基于情境分析进行自主决策和无提示对话。

为进一步提升虚拟助理的个性化程度,Qualcomm AI Research正对终端侧的“AI agent”展开研究,它有望从所有传感器数据中不断学习个人信息,最终实现直观行动。AI agent的关键功能包括情境式融合及学习,这最终将支持个性化响应并丰富我们的生活。初步研究结果已展现出终端侧个性化的远大前景。个性化不仅将提升虚拟个人助理的用户体验,而且将丰富我们生活的方方面面。这项技术将变革众多行业,不断推动行业创新。

(本文内容来自Qualcomm高级总监兼AI研究项目负责人侯纪磊博士的署名博客)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2567

    文章

    53282

    浏览量

    770117
  • AI
    AI
    +关注

    关注

    88

    文章

    35758

    浏览量

    282460
  • 机器学习
    +关注

    关注

    66

    文章

    8513

    浏览量

    135107
  • 语音交互
    +关注

    关注

    3

    文章

    311

    浏览量

    28682
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用API提升电商用户体验:个性化推荐系统

    ? 在当今竞争激烈的电商环境中,个性化推荐系统已成为提升用户粘性和转化率的核心工具。通过API(Application Programming Interface)集成,电商平台能够高效接入先进
    的头像 发表于 07-14 14:45 ?132次阅读
    利用API提升电商用户体验:<b class='flag-5'>个性化</b>推荐系统

    2025年电商API发展趋势:智能个性化

    ? 引言 随着数字经济的深化,电商API(应用程序接口)已成为连接平台、商家与用户的核心枢纽。2025年,在人工智能与大数据驱动下,电商API将加速向 智能决策 与 个性化服务 演进,重构用户
    的头像 发表于 07-11 14:26 ?220次阅读
    2025年电商API发展趋势:智能<b class='flag-5'>化</b>与<b class='flag-5'>个性化</b>

    声纹解锁个性化!启明云端硅思物语AI平台让设备“认准的声音”

    启明云端依托旗下硅思物语AI平台,通过声纹采集技术,在ESP32-S3潮玩手办伴侣上构建的个性化智能助手的真实落地应用场景。声纹采集:的声音就是“生物密码”什么是声纹?声纹如同指
    的头像 发表于 06-17 18:02 ?624次阅读
    声纹解锁<b class='flag-5'>个性化</b>!启明云端硅思物语<b class='flag-5'>AI</b>平台让设备“认准<b class='flag-5'>你</b>的声音”

    EM储能网关 ZWS智慧储能云应用(13) — 企业个性化配置

    储能公有云平台,企业用户如何自主个性化配置?ZWS智慧储能云通过灵活的多级配置功能,实现个性化系统配置,帮助强化储能企业独特性。简介储能企业在使用智慧储能云平台时,常面临企业个性化和品牌展示
    的头像 发表于 05-23 11:39 ?259次阅读
    EM储能网关 ZWS智慧储能云应用(13) — 企业<b class='flag-5'>个性化</b>配置

    AI赋能,健康无界:WT2605C语音芯片智能血压计的个性化设计方案

    :数据如何解读?异常如何干预?风险如何预防?WT2605C芯片方案的诞生,通过“AI对话+云端互联+个性化服务”三重技术突破,重新定义了血压计的价值边界——它不仅是一
    的头像 发表于 04-16 08:57 ?335次阅读
    <b class='flag-5'>AI</b>赋能,健康无界:WT2605C<b class='flag-5'>语音</b>芯片智能血压计的<b class='flag-5'>个性化</b>设计方案

    华为云 Flexus 数字人创新技术,赋能中小企业打造个性化营销体验

    等等,不仅提高了服务效率,还为用户提供了更加个性化的体验。但中小企业受数字人制作成本和技术门槛的限制,在数字化的竞争中并不占优势。 直到华为云 Flexus 数字人的出现,才为中小企业
    的头像 发表于 03-10 10:38 ?1706次阅读
    华为云 Flexus <b class='flag-5'>数字</b>人创新技术,赋能中小企业<b class='flag-5'>打造</b><b class='flag-5'>个性化</b>营销体验

    三星发布Vision AI打造个性化AI屏幕体验

    近日,在2025年国际消费电子展(CES 2025)“First Look”活动上,三星震撼发布了其最新的科技成果——三星Vision AI。这一创新技术旨在通过个性化AI屏幕体验,为用户带来
    的头像 发表于 01-14 14:58 ?886次阅读

    解锁个性化语音交互新时代:九芯智能语音云平台,让创意声音触手可及!

    九芯智能语音云平台提供全面高效安全的智能语音服务,支持自定义语音内容,简化烧录流程,依托AI技术,助力各行业智能升级,引领
    的头像 发表于 01-02 16:51 ?991次阅读
    解锁<b class='flag-5'>个性化</b><b class='flag-5'>语音</b><b class='flag-5'>交互</b>新时代:九芯智能<b class='flag-5'>语音</b>云平台,让创意声音触手可及!

    语音芯片赋能可穿戴设备:开启个性化音频新体验

    语音芯片与可穿戴设备合作,带来定制音效、智能降噪、个性化推荐、语音交互及跨设备共享等,引领个性化
    的头像 发表于 12-14 15:44 ?1002次阅读

    4G模组PWM调光入门:打造个性化呼吸灯

    一直有朋友问我怎么打造个性化呼吸灯,本文我将以合宙低功耗4G模组经典型号——Air780E为例,展示PWM输出呼吸灯的实现方法,帮助大家深入理解如何在项目中应用PWM技术。
    的头像 发表于 11-17 09:56 ?740次阅读
    4G模组PWM调光入门:<b class='flag-5'>打造</b><b class='flag-5'>个性化</b>呼吸灯

    智慧路灯照明管理系统,呈现个性化城市照明效果

    【智慧城市】智慧路灯照明管理系统,呈现个性化城市照明效果
    的头像 发表于 10-28 14:39 ?892次阅读
    智慧路灯照明管理系统,呈现<b class='flag-5'>个性化</b>城市照明效果

    AI破解个性化客服难题

    一文汇集多个行业借助 AI 实现的个性化客服实践
    的头像 发表于 10-25 09:06 ?2527次阅读
    以<b class='flag-5'>AI</b>破解<b class='flag-5'>个性化</b>客服难题

    高速数字化仪的技术原理和应用场景

    高速数字化仪是一种用于采集高速模拟信号,并将其转换为数字信号进行处理和储存的设备。以下是对其技术原理和应用场景的详细介绍:一、技术原理 采样:高速数字化仪的采样率是指每秒钟采样多少次,采样率越高
    发表于 10-21 14:34

    高校转型数字化的原因有哪些

    作为知识传播和创新的重要场所,必须紧跟科技发展的步伐,通过数字化转型来适应这一趋势,确保自身在激烈的竞争中保持领先地位。 提升教学质量与效率: 数字化技术为教学提供了更加丰富、灵活和个性化的手段。通过在线课程、
    的头像 发表于 09-26 10:39 ?618次阅读

    Meta发布Imagine Yourself AI模型,重塑个性化图像生成未来

    Meta公司近日在人工智能领域迈出了重要一步,隆重推出了其创新之作——“Imagine Yourself”AI模型,这一突破性技术为个性化图像生成领域带来了前所未有的变革。在社交媒体与虚拟现实技术
    的头像 发表于 08-26 10:59 ?1064次阅读