0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

重庆大学:研究用于语音识别和交互的机器学习辅助可穿戴传感系统

传感器专家网 ? 2025-03-14 14:59 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

背景介绍

人体会产生丰富的生物信号,这些信号可以被人体检测、数字化、分析并与外界设备交互。其中,人类的语音尤其具有丰富的时域、频域和幅度信息传输能力。这种丰富的信息承载能力使声音成为生物通信、人机交互(HMI)和物联网IoT)应用(包括智能家居、远程控制、身份识别和语音系统)的重要组成部分。然而,基于空气振动的语音通信容易受到背景噪声(如路边、商场、车站等嘈杂环境)和声学介质(如火灾、医院、水下等特殊场景)的干扰和阻碍。此外,发声过程依赖于器官的协调系统,任何因肌萎缩侧索硬化症(ALS)、中风、帕金森病或喉癌等疾病引起的损伤都会严重影响语音清晰度和识别效率。为了应对这些挑战,研究人员开发了先进的降噪算法和多麦克风系统来增强语音处理能力。然而,这些解决方案的有效性受到声音信号质量和多特征参数复杂性的限制。例如,单麦克风系统无法捕捉空间特征,难以提供高信噪比的音频信号。虽然多麦克风系统和相关算法可以改善语音信号处理,但它们需要复杂的工程设计并占用更多空间。

最近,基于面部和嘴唇运动的视觉语音识别已成为一种在嘈杂环境中增强语音感知的方法。虽然这种方法可以在具有挑战性的声学条件下提高语音感知质量,但它需要额外的摄像头,这增加了系统的复杂性并降低了实用性。近年来,直接监测面部运动状态的可连接传感器作为无声语音识别的解决方案引起了人们的关注。虽然面部特征可以在一定程度上补充音频信号,但它们在捕捉音高、音色和声音强度等声学参数方面存在很大的局限性。相反,将传感器直接放置在发声器官区域是一种实现全面声音信息收集的有效方法。用于监测声音信号的传统可穿戴设备通常使用绑带或粘性贴片附着在身体上。然而,它们的刚性和扁平形状限制了实际应用。柔性材料和传感技术的发展为隐形皮肤可穿戴设备铺平了道路。目前,安装在发声器官中的柔性传感技术主要包括石墨烯、柔性表面肌电图电极、压阻和摩擦电。与传统的刚性麦克风相比,这些技术佩戴更舒适,可以无缝融入日常活动中。尽管这些传感器有诸多优势,但它们通常依赖于有线硬件,限制了它们在日常使用中的适应性。

为了克服这些挑战,集成信号处理和传输单元的柔性可穿戴设备对于充分利用各种机电特性的潜力至关重要。微机电系统 (MEMS) 制造技术的进步为改善可穿戴设备的集成带来了希望。一项值得注意的创新是将商用 MEMS 加速度计芯片整合到可穿戴设备中,从而能够连续监测机械声音信号,例如语音、吞咽、呼吸和心脏运动。然而,目前的传感器无法满足宽频带范围和平坦度的要求,限制了信号频谱的能量分布。此外,检测皮肤加速度只能提供肌肉运动模式数据,而忽略了发声器官的关键振动信息。由于缺乏生物特征信息,在监测小幅度肌肉运动时,机械声音信号相对较弱。这种限制对于皮肤组织较厚(例如甲状腺肿大)或喉部受伤的用户尤其不友好。因此,有必要开发一种新的便携式语音交互系统来解决这些问题并提高用户体验和HMI。

本文亮点

1. 本工作提出了一种可穿戴无线柔性贴肤声学传感器(SAAS),能够捕捉发声器官的振动和皮肤运动,从而实现恶劣声学环境下的语音识别和人机交互(HMI)。

2. 该系统采用压电微机械超声换能器(PMUT),具有高灵敏度(-198 dB)、宽带宽(10 Hz-20 kHz)和优异的平坦度(±0.5 dB)等特点。柔性封装提高了佩戴时的舒适性和适应性,同时与残差网络(ResNet)架构的集成显著提高了喉部语音特征的分类,准确率超过 96%。

3. 在多个 HMI 场景中展示了 SAAS 的数据收集和智能分类能力。语音识别系统能够通过深度学习模型以 99.8% 的准确率识别参与者所说的日常句子。

图文解析

wKgZPGfSu-SAWa47ABLWJVRB1_s612.png

图1. 用于恶劣声学环境下语音识别的无线、柔性、可附着式声学传感器。

a 实现HMI的语音识别系统示意图。b 可附着式声学传感系统爆炸图。c PMUT结构示意图。d 处理发声器官振动和肌肉运动信号的步骤流程图,包括信号处理、控制、无线通信和显示终端。e SAAS在语音识别与交互中的应用示意图。

wKgZPGfSu-WARauxAAuLGS6ykyc681.png

图2. 装置设计原理及特性描述。

a 基于SOI晶片的声学传感器三维结构剖面图。b PZT、AlN、ScAlN及对应三种形状的声学传感器相关参数的有限元仿真对比。c PMUT正面(I)和背面(II)的照片。d 制备的声学芯片的光学显微镜图像和微元件的特写细节。e 制备的声学芯片的Mo/ScAlN/Mo薄膜结构的SEM剖面图。f 空气中MEMS芯片的电阻抗幅值与相位的谐振频率响应。g 水中封装后的MEMS传感器在低频宽带范围内的灵敏度测试曲线。h 柔性器件在未变形(I)、扭曲(II)、弯曲(III)和拉伸(IV)下的图像显示。

wKgZPGfSu-WACEl5ABBU5EYCH4Y496.png

图3. 恶劣声学环境下的语音检测对比实验。

a 安静环境(I)、嘈杂环境(II)和戴口罩(III)下同一项对比测试的照片。b 当受试者在安静环境(I)、嘈杂环境(II)和戴口罩(III)下说“CQU”时,SAAS显示声音信号的时域波形和频谱信息。c 当受试者在安静环境(I)、嘈杂环境(II)和戴口罩(III)下说“CQU”时,商用参考麦克风显示声音信号的时域波形和频谱信息。d 受试者在9种喉部附着位置和动作下的照片。e 通过 SAAS 在 9 个喉咙附着位置和动作中说“完美”时获得的时域波形。

wKgZPGfSu-WAJ8vgAAlAGkSij_k494.png

图4. 基于SAAS的身份识别演示。

a–c音素、声调、同音词分类任务的混淆矩阵。d通过数据采集、深度学习和实时显示实现的身份识别系统示意图。e不同参与者说“hello world”时的声音信息。f身份识别的混淆矩阵。

wKgZPGfSu-aAIWdTAA7IXHVlAYs643.png

图5. 使用SAAS控制虚拟游戏和机器狗。

a实时无线HMI控制系统示意图。b吃豆人游戏中语音指令上下左右命令演示。c远程无线控制机器狗通过语音命令执行动作:“站起来”、“跳舞”、“侧翻”、“爬楼梯”。

wKgZPGfSu-aAbuxFAAnSMkFICqY403.png

图6. 基于SAAS的语音识别系统在人机交互中的应用。

a通过数据处理、分类和实时显示实现的交互系统示意图。b 使用卷积神经网络从参与者的日常对话中收集到的 10 个句子样本的波形和相应的频谱图。c 句子识别任务的混淆矩阵。d 60 个 epoch 迭代过程中训练和测试数据的归一化准确率。e 经过 60 次 T-SNE 算法迭代处理后的特征向量矩阵。f 经过 60 次 T-SNE 算法迭代处理后的特征向量矩阵。

来源:柔性传感及器件

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机交互
    +关注

    关注

    12

    文章

    1253

    浏览量

    56779
  • 语音识别
    +关注

    关注

    39

    文章

    1785

    浏览量

    114341
  • 机器学习
    +关注

    关注

    66

    文章

    8510

    浏览量

    134844
  • 可穿戴传感器

    关注

    2

    文章

    100

    浏览量

    12850
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AT6803是一款超低功耗的离线智能语音识别芯片

    AT6803作为当前语音交互领域的前沿产品,其技术突破正悄然改变智能家居、可穿戴设备等低功耗场景的应用格局。
    的头像 发表于 07-26 12:00 ?256次阅读

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    的四核1.4GHz处理器具备强劲的运算性能,能够高效处理语音机器人运行过程中的复杂任务。语音识别和合成需要大量的计算资源,该处理器可以快速对语音
    发表于 05-28 11:36

    详细介绍机场智能指路机器人的工作原理

    免与行人发生碰撞,为旅客提供安全、舒适的引导服务。 智能交互系统 语音识别与理解 :智能指路机器人利用先进的
    发表于 05-10 18:26

    北京理工大学研究眼机界面智能传感硬件——从可穿戴到仿生

    ? 眼机交互界面(Eye-machine interface, EMI)作为沉浸式人机交互的重要一环,已被应用于VR/AR、自动驾驶、脑机接口、生物医学等领域。但现有EMI传感硬件正在
    的头像 发表于 04-25 18:42 ?260次阅读
    北京理工<b class='flag-5'>大学</b>:<b class='flag-5'>研究</b>眼机界面智能<b class='flag-5'>传感</b>硬件——从<b class='flag-5'>可穿戴</b>到仿生

    max30100用于可穿戴健康的脉搏血氧仪和心率传感器IC手册

    电子发烧友网站提供《max30100用于可穿戴健康的脉搏血氧仪和心率传感器IC手册.pdf》资料免费下载
    发表于 03-24 09:49 ?3次下载

    基于WTVxxx语音芯片的智能清洁机器人语音交互系统设计方案介绍

    集成度、低功耗、多控制模式及传感器扩展能力,为智能清洁机器人提供了高效的语音交互解决方案。核心需求分析:1、实时状态反馈:工作模式切换、电量提醒、故障报警等
    的头像 发表于 03-06 08:27 ?394次阅读
    基于WTVxxx<b class='flag-5'>语音</b>芯片的智能清洁<b class='flag-5'>机器人语音</b><b class='flag-5'>交互</b><b class='flag-5'>系统</b>设计方案介绍

    清华大学:软体机器人柔性传感技术最新研究进展

    随着机器人技术的发展,配备柔性传感功能的软体机器人在医疗辅助康复、水下资源勘探、陆地灾难救援等领域发挥着重要作用,如何设计高性能柔性传感器,
    的头像 发表于 02-14 14:31 ?795次阅读
    清华<b class='flag-5'>大学</b>:软体<b class='flag-5'>机器</b>人柔性<b class='flag-5'>传感</b>技术最新<b class='flag-5'>研究</b>进展

    【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

    语音命令Q 识别,适用于智能家居控制、玩具、人机交互等多个领域。该模块以其高识别率、低功耗和易于集成的特点受到广大开发者的青睐。 主要技
    发表于 01-02 18:15

    基于语音识别的智能会议系统具备哪些交互功能

    标贝科技专注智能语音交互领域多年,在语音识别语音合成领域有着多项大型企业合作案例,标贝与多个智能会议
    的头像 发表于 12-20 10:35 ?631次阅读

    语音芯片赋能可穿戴设备:开启个性化音频新体验

    语音芯片与可穿戴设备合作,带来定制化音效、智能降噪、个性化推荐、语音交互及跨设备共享等,引领个性化音频时代,提升用户听觉体验。
    的头像 发表于 12-14 15:44 ?966次阅读

    蓝牙可穿戴方案,蓝牙手环,蓝牙戒指,方案

    可穿戴
    必尔易半导体
    发布于 :2024年12月13日 20:20:09

    语音识别与自然语言处理的关系

    了人机交互的革命,使得机器能够更加自然地与人类沟通。 语音识别技术概述 语音识别,也称为自动
    的头像 发表于 11-26 09:21 ?1556次阅读

    语音识别技术的应用与发展

    语音识别技术的发展可以追溯到20世纪50年代,但直到近年来,随着计算能力的提升和机器学习技术的进步,这项技术才真正成熟并广泛应用于各个领域。
    的头像 发表于 11-26 09:20 ?1671次阅读

    用于可穿戴设备的感应式触摸按钮

    电子发烧友网站提供《用于可穿戴设备的感应式触摸按钮.pdf》资料免费下载
    发表于 09-23 11:32 ?1次下载
    <b class='flag-5'>用于</b><b class='flag-5'>可穿戴</b>设备的感应式触摸按钮

    深圳大学:增效型水凝胶电解质,实现能量自主和可穿戴传感

    【深圳大学:增效型水凝胶电解质,实现能量自主和可穿戴传感】 传统的热电转换技术以热电发生器为特征,利用基于固态半导体的电子塞贝克效应来实现热流到电流的直接转换。然而,这些热电发生器通常具有刚性、毒性
    的头像 发表于 08-13 17:37 ?1556次阅读