0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华裔教授成功解码脑电波并合成语音

电子工程师 ? 来源:fqj ? 2019-04-29 15:24 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

许多患有神经疾病的患者因丧失语言能力,需要依赖特定的通讯设备进行沟通,这类设备利用脑机接口或者头部、眼睛的动作来控制光标选择字母,从而说出他们想说的话。但是,这个过程比人类的正常语速慢得多,往往是在蹦单词。

4 月 25 日,Nature 杂志发表了加州大学旧金山分校(University of California San Francisco)的一项最新成果,该校神经外科华裔教授 Edward Chang 及同事开发出一种可以将脑活动转化为语音的解码器。这套人类语音合成系统,通过解码与人类下颌、喉头、嘴唇和舌头动作相关的脑信号,并合成出受试者想要表达的语音。

视频 | 神经解码的语音合成演示

研究人员表示,脑机接口正迅速成为恢复功能丧失的临床可行手段,这项最新的研究成果解决了瘫痪和失语患者所面临的重大挑战,并可能是让他们恢复“说话”能力的重要一步。

在 Nature 杂志同时配发的评论文章中,埃默里大学和佐治亚理工学院的 Chethan Pandarinath 和 Yahia Ali 认为,这种使用控制嘴唇、舌头、喉部和下颌运动的神经信号合成语音的脑机接口设备,可以成为在失语者中恢复语音功能的奠基性工作。

解读大脑的意图

说话似乎是一件毫不费力的事,但实际上说话却是人类执行的最复杂的活动之一。它需要精确、动态地协调声道咬合结构中的肌肉、嘴唇、舌头、喉部和下颌。

当一个人因中风、肌萎缩侧索硬化(霍金即患此病)或其他神经系统疾病而丧失语言功能和沟通能力时,对他的影响和打击可能是毁灭性的。

如果有一种技术,能将神经活动转化为言语,那对于因神经损伤而无法沟通的人来说将具有变革性。理论上说,脑机接口技术可以通过直接从大脑“读取”人的意图,并使用该信息来控制外部设备或移动瘫痪的肢体,来帮助瘫痪的人完成说话或运动。

在科幻世界里,意念控制的实现可以顺手拈来、轻而易举。而在现实世界中,其背后的脑机接口技术已有近百年的历史。科学家们也一直希望在该领域实现科学研究与应用技术的突破,为许多当前仍无法解答的难题提供更好的探索工具,帮助人类进一步了解自己的大脑,进而预防、诊断、治疗脑部疾病及其他重大疾病,并将这一技术广泛应用于睡眠管理、智能生活和残疾人康复等领域。

图 | 使用特制语音合成器的史蒂芬·霍金

目前一些用于大脑控制打字的脑机接口技术,依赖于测量头部或眼睛的残余非语言运动,或者依赖于控制光标以逐个选择字母并拼出单词,已经可以帮助瘫痪的人通过设备每分钟输出多达 8 个单词。

这些技术已经给有严重沟通障碍的患者带来了巨大的生活改善,但与自然语音每分钟 150 个单词的平均速度比起来,现有技术的输出速度还是太慢了,距离通过脑机接口实现自然语音的流畅交流还有很大差距。

直接通过大脑活动信号来合成语音,是一种颇有前景的替代方案。拼写只是离散字母的连续串联,而语音则是一种高效的通信形式。与基于拼写的方法相比,直接语音合成具有几个主要优点。除了以自然语速传递无约束词汇的能力之外,直接语音合成还能捕获语音的韵律元素,例如音调、语调,这些是文本输出所不具备的。

此外,当前替代通信设备的实际限制是学习和使用它们所需的认知努力。因此,对于由肌萎缩性侧索硬化或脑干中风引起的瘫痪患者,通过直接记录来自大脑皮层的神经控制信号来合成语音,是实现自然语言高通信速率的唯一手段,也是最直观的方法。

2017 年, 本文作者 Edward Chang 以及他的研究生 Claire Tang 就曾在 Science杂志发表论文,阐述大脑皮层颞上回神经元在语言中的重要性。研究发现了人类大脑中用于辨别相对声调变化的神经元,这种神经元可以帮助人类在语言中明确表达感情、交流思想。

图 | Edward Chang 教授

但揭示大脑信号如何控制声道发音部位的运动仍具有挑战性。因为说话这一过程需要对声道咬合部位进行非常精确和快速的多维控制。而且,语音合成还存在一个与以往完全不同的挑战,就是解码声道运动和声音之间复杂的对应关系。自然语音产生涉及 100 多块小肌肉,从肌肉运动到声音的映射也不是一对一的。

合成能听懂的语音

在 Nature 的这项最新研究中,为了实现将脑信号转换为可理解的合成语音,并且是以流利说话者的速度输出,研究人员设计了一种神经解码器,明确地利用人类皮层活动中编码的运动学和声音表征来合成可听语音。

研究人员招募 5 名正在接受癫痫治疗的参与者,作为癫痫治疗的一部分,他们会通过电极监测大脑活动。研究人员在 5 名受试者大声说出几百个句子时,记录下他们的高密度脑电图(ECoG)信号,并跟踪控制语音和发生部位运动的大脑区域活动。

为了重建语音,研究人员设计了一种循环神经网络(RNN),首先将记录的皮质神经信号转化为声道咬合关节运动,然后将这些解码的运动转化为口语句子。

华裔教授成功解码脑电波并合成语音

图 | 用于语音合成的脑机接口

以前的语音合成研究采用了上图 a 的方法,即使用脑电图设备监测大脑语音相关区域的神经信号,并尝试使用循环神经网络将这些信号直接解码为合成语音。

而 Edward Chang 以及同事开发了一种不同的方法(上图 b),将解码分为两个步骤。

第一步,将神经信号转换成声道咬合部位的运动(红色),这其中涉及语音产生的解剖结构(嘴唇、舌头、喉和下颌)。而为了实现神经信号到声道咬合部位运动的转化,就需要大量声道运动与其神经活动相关联的数据。但研究人员又难以直接测量每个人的声道运动,因此他们建立了一个循环神经网络,根据以前收集的大量声道运动和语音记录数据库来建立关联。

第二步,将声道咬合部位的运动转换成合成语音

华裔教授成功解码脑电波并合成语音

图 | 神经解码语音合成过程

研究人员的这种两步解码方法,产生的语音失真率明显小于使用直接解码方法所获得的语音。在包含 101 个句子的试验中,听者可以轻松地识别并记录下合成的语音。

在另外的测试中,一名受试者首先按要求说出句子,然后再不出声地做出相同的发音动作。结果表明,无声言语的合成效果不如有声言语,但是研究人员认为仍有可能解码无声言语的特征。

所有当前用于语音解码的方法都需要使用发声语音训练解码器,基于这些方法的脑机接口技术也就不能让不会说话的人上手就用。对于已经丧失说话能力的患者来说,无法发声训练解码器是一个大问题。

但 Edward Chang 表示,虽然语音解码的准确性大大降低,但受试者在没有声音的情况下模仿发音仍然可以进行语音合成。至于那些不再产生语音相关运动的个体是否适用这套最新的语音合成脑机接口系统,还需要未来的进一步研究。

Chethan Pandarinath 和 Yahia Ali 认为,无论是在语音重建的准确性方面,还是在听众对所产生语句的辨识力方面,Edward Chang 及其同事的研究结果都为语音合成脑机接口的概念验证提供了令人信服的证据。

不过,要使该系统真正成为一个临床可行的语音合成脑机接口,还存在许多挑战,毕竟重构语音的可懂度(intelligibility)仍远低于自然语音。好在,通过收集更大的数据集并继续开发基础计算方法,或许可以进一步改善语音合成脑机接口技术。

由于不能直接在动物身上进行相关研究,这在一定程度上限制了人类语言产生的研究进展,但近十年来,随着深度学习和人工神经网络的出现,以及多学科协作的能力,从探索语言相关大脑区域的开创性临床研究,到语音合成脑机接口的概念证明,都取得了引人注目的快速发展。

随着语音合成脑机接口的概念证明,我们期待有关临床试验的早日开展,也期待那些语言障碍患者能够早日重获自由说话并与世界重新联系的能力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码
    +关注

    关注

    0

    文章

    186

    浏览量

    27994
  • 合成
    +关注

    关注

    0

    文章

    16

    浏览量

    13879
  • 脑电波
    +关注

    关注

    0

    文章

    60

    浏览量

    17370

原文标题:Nature今发表脑机接口领域重大突破:华裔教授成功解码脑电波,并合成语音

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从开发工程师视角看TTS语音合成芯片

    从开发工程师视角看TTS语音合成芯片 在语音交互领域,TTS 语音合成芯片作为关键角色,正不断革新着人机对话的体验。从开发工程师角度深入剖析
    的头像 发表于 08-13 14:52 ?147次阅读

    芯资讯|广州唯创电子MP3语音芯片IC的音频解码方式解析

    音频解码语音芯片的核心功能之一,决定了音质表现和应用场景的适配性。广州唯创电子作为国内领先的语音芯片厂商,其MP3语音芯片系列(如WT2003H)以灵活的
    的头像 发表于 05-28 08:48 ?270次阅读
    芯资讯|广州唯创电子MP3<b class='flag-5'>语音</b>芯片IC的音频<b class='flag-5'>解码</b>方式解析

    国产低噪声4/6/8通道24位模数转换器软硬件替换AD1299应用于脑电波

    国产低噪声4/6/8通道24位模数转换器软硬件替换AD1299应用于脑电波
    的头像 发表于 05-07 09:47 ?410次阅读
    国产低噪声4/6/8通道24位模数转换器软硬件替换AD1299应用于<b class='flag-5'>脑电波</b>

    用意念控制灯光亮度?这个树莓派项目有点意思...

    摘要该树莓派项目借助脑电波扫描仪操控硬件设备,通过监测脑电波来执行特定动作。CivitasUniverse推出的NeuroPhotonicR5FlowCyberdeck装置,采用了树莓派5
    的头像 发表于 04-30 18:42 ?228次阅读
    用意念控制灯光亮度?这个树莓派项目有点意思...

    WT3000TX语音合成芯片介绍V1

    解码功能,可支持用户进行语音合成语音播放,具有低成本、低功耗、高可靠性、通用性强等特点,现有WT3000T8-32NQFN32(体积小4*4MM)和WT3000
    发表于 04-17 08:43 ?0次下载

    【CW32模块使用】语音合成播报模块

    SYN6288E 中文语音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/价比更高的 SYN6288 芯片的基础上更改封装方式的,效果更自然的一款中高端语音合成芯片
    的头像 发表于 03-29 17:25 ?742次阅读
    【CW32模块使用】<b class='flag-5'>语音</b><b class='flag-5'>合成</b>播报模块

    Normal Awake脑电波形时域分析参考

    应用,系统解析清醒状态下脑电波的时域特征,并探讨其分析要点与鉴别陷阱。HUIYING清醒脑电波的核心成分与参数清醒状态下脑电活动以α波与β波为主导,其分布、频率及波幅
    的头像 发表于 03-21 21:09 ?1243次阅读
    Normal Awake<b class='flag-5'>脑电波</b>形时域分析参考

    可以在OpenVINO?工具套件的视觉处理单元上推断语音合成模型吗?

    无法确定是否可以在 VPU 上推断语音合成模型
    发表于 03-06 08:29

    TTS语音播报控制器能做什么?

    的效率和便捷性。 工作原理 文本语音:输入文字自动合成语音,支持任意中文、数字和英文字母。 语音播放:支持wav格式文件,可播放音乐或录音文件。 协议支持:支持AT指令和Modbus RTU/TCP协议,方便接入各种播报系统可接
    的头像 发表于 02-20 18:18 ?808次阅读

    flash MP3语音IC芯片厂介绍儿童电子琴智能语音方案

    N9300和MP3-FLASH-16P,?这些芯片提供了集成MP3、?WAV硬解码的能力,?支持串口通信协议,?以及通过简单的串口指令完成语音播放,?无需复杂的底层
    的头像 发表于 02-07 18:31 ?498次阅读
    flash MP3<b class='flag-5'>语音</b>IC芯片厂介绍儿童电子琴智能<b class='flag-5'>语音</b>方案

    ADS1299EEGFE-PDK按照手册里设置后,无法产生正常的脑电波波形是怎么回事?

    ADS1299EEGFE-PDK按照手册里设置后,无法产生正常的脑电波波形,如图: 我的软件配置: 手册里设置截图:
    发表于 12-04 07:55

    智能语音的驱动力:揭秘8脚语音芯片在智能设备中的非凡角色

    语音技术渗透生活,8脚语音芯片以微缩体积、低功耗、卓越性能成智能设备语音功能核心,集成识别、合成、压缩解码等功能,实现精准
    的头像 发表于 12-02 14:23 ?602次阅读

    ADS1299开发板怎么接线测脑电信号,用什么样的线采集脑电波,在哪个位置?

    ADS1299开发板怎么接线测脑电信号,用什么样的线采集脑电波,在哪个位置
    发表于 11-26 06:51

    能在DSP的存储器上存MP3或其他格式的音频文件,由DSP读后控制TLV320AIC23转换成语音

    我想用TLV320AIC23和DSP做一个音频系统。我想问一下能在DSP的存储器上存MP3或其他格式的音频文件,由DSP读后控制TLV320AIC23转换成语音?有没有好的方案推荐谢谢!
    发表于 11-01 06:45

    TPA3110D2+SYN6658不发音,测量功放没有输出怎么解决?

    电路图如下图,大神帮忙分析下,没搞过音频,比较陌生之前用了一款TPA2005D1没问题,声音小给换成TPA3110D2了就不行了,测量SYN6658合成语音后有信号输出信号是在1.5V左右波动,这个正常,进了TPA3110就没了
    发表于 09-09 07:34