0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

能够直接翻译两种语言间语音的模型

Tensorflowers ? 来源:TensorFlow ? 作者:TensorFlow ? 2021-10-26 15:57 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

语音转语音翻译 (S2ST) 是打破世界各地人与人之间语言障碍的关键。自动 S2ST 系统通常由语音识别、机器翻译和语音合成子系统级联组成。然而,此类级联系统可能会面临较长的延迟、信息(尤其是副语言和非语言信息)丢失,以及各子系统之间的错误叠加等问题。

2019 年,我们推出了 Translatotron,这是首款能够直接翻译两种语言间语音的模型。此款直接 S2ST 模型能够有效地进行端到端训练,并拥有一个独特功能——在生成的翻译语音中保留源说话者声音(非语言信息)。

Translatotron

https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

不过,尽管该模型能够生成听起来自然的高保真翻译语音,但与强大的基准级联 S2ST 系统(例如,由语音转文字直接翻译模型[1、2]和 Tacotron 2 TTS 模型组成的系统)相比,其表现仍然欠佳。

1

https://arxiv.org/abs/1703.08581

2

https://arxiv.org/abs/1811.02050

Tacotron 2

https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

在“Translatotron 2:稳健的语音转语音直接翻译 (Translatotron 2:Robust direct speech-to-speech translation)” 一文中,我们介绍了 Translatotron 的一个改进版本。该版本的表现得到显著提高,同时我们还应用了一种新的方法来将源说话者的声音转换到翻译的语音中。即使输入语音中存在多位说话者轮流说话的情况,经过修订的语音转换方法也能取得成功,同时还能减少滥用的可能性,并且更加符合我们的 AI 原则。使用三个不同语料库进行的实验一致表明,Translatotron 2 在翻译质量、语音自然度和语音稳健性方面的表现明显优于原始版本 Translatotron。

Translatotron 2:稳健的语音转语音直接翻译

https://arxiv.org/abs/2107.08661

AI 原则

https://ai.google/responsibilities/

Translatotron 2

Translatotron 2 由四个主要组件组成:语音编码器、目标音素 (Phoneme) 解码器、目标语音合成器,以及将它们连接起来的注意力模块。编码器、注意力模块和解码器的组合类似于典型的语音转文字直接翻译 (ST) 模型。合成器则使用编码器和注意力模块的输出作为条件。

Translatotron 2 的模型架构

(将西班牙语语音翻译为英语语音)

相较于 Translatotron ,Translatotron 2 的更高表现主要源于以下三点新变化:

1. 尽管在原始版本 Translatotron 中,目标音素解码器的输出仅用作辅助损失使用,但在 Translatotron 2 中,它是声谱图合成器的输入之一。这一强大条件使 Translatotron 2 更易于训练,且表现更好。

2. 与 Tacotron 2 TTS 模型类似,原始版本 Translatotron 中的声谱图合成器基于注意力,因此其也存在类似 Tacotron 2 所表现出的稳健性问题。相比之下,Translatotron 2 中使用的是基于持续时间的声谱图合成器(类似于 Non-Attentive Tacotron 使用的声谱图合成器),这能够大大提高合成语音的稳健性。

3. Translatotron 和 Translatotron 2,都使用基于注意力的连接到编码的源语音。然而,在 Translatotron 2 中,这种基于注意力的连接由音素解码器而非声谱图合成器驱动,这确保了声谱图合成器所获取的声学信息与其合成的翻译内容相一致,从而有助于在不同说话者轮流说话时保留每位说话者的声音。

更强大、更负责任的声音保留

原始版本 Translatotron 能够在生成的翻译语音中保留源说话者的声音,方法是将其解码器限定于由单独训练的说话者编码器生成的说话者嵌入向量之上。然而,如果使用目标说话者的录音片段作为说话者编码器的参考音频,或者目标说话者的嵌入向量直接可用,则这种方法还能以不同说话者的声音生成翻译后的语音。虽然这一功能非常强大,但有可能遭到滥用,如使用任意内容制作欺诈音频,这会给生产部署带来问题。

为解决这一问题,Translatotron 2 这样设计:只使用一个语音编码器,该编码器同时负责语言理解和语音录制。这样,训练后的模型便无法用于重现非源语音。这种方法也可以应用于原始版本 Translatotron。

为了在翻译过程中保留说话者的声音,研究人员通常倾向于使用两端都是同一位说话者声音的平行说话内容来训练 S2ST 模型。这样一个两边都有人类录音的数据集很难收集,因为它需要大量流利的双语使用者。为了避免这一难题,我们使用了 PnG NAT 的修改版本,这是一种能够跨语言语音转换来合成此类训练目标的 TTS 模型。我们的修改版 PnG NAT 模型采用了与旧版 TTS 工作方式相同(即使用的策略与原始版本 Translatotron 相同)的单独训练的说话者编码器,因此能够实现零样本语音传输。

旧版 TTS 工作方式

https://arxiv.org/abs/1806.04558

以下是使用 Translatotron 2 进行语音转语音直接翻译的示例,其中保留了源说话者的声音:

输入(西班牙语):

TTS 合成的参考音频(英语):

Translatotron 2 预测(英语):

Translatotron 预测(英语):

当输入语音包含多个说话者轮流说话时,为了使 S2ST 模型能够在翻译后的语音中保留每个说话者的声音,我们提出了一种简单的基于串联的数据增强技术,称为 ConcatAug。该方法会对成对的训练示例随机采样,并将源语音、目标语音和目标音素序列串联成新的训练示例,以增强训练数据。由此得到的样本在源语音和目标语音中都包含两位说话者的声音,这使模型能够根据不同说话者轮流说话的示例进行学习。以下来自 Translatotron 2 的音频样本展示了不同说话者轮流说话的场景:

输入(西班牙语):

TTS 合成的参考音频(英语):

Translatotron 2(采用 ConcatAug)预测(英语):

Translatotron 2(未采用 ConcatAug)预测(英语):

点击此处获取更多音频样本。

此处

https://google-research.github.io/lingvo-lab/translatotron2/

表现

在我们衡量的各个方面,Translatotron 2 的表现都大大优于原始版本 Translatotron:更高的翻译质量(以 BLEU 衡量,数值越高越好),更好的语音自然度(以 MOS 衡量,数值越高越好),以及更强的语音稳健性(以 UDR 衡量,数值越低越好)。它在难度更大的 Fisher 语料库上表现尤为出色。Translatotron 2 在翻译质量和语音质量方面的表现接近强大的基准级联系统,并且在语音稳健性方面优于级联基准。

UDR

https://arxiv.org/abs/2010.04301

Fisher 语料库

https://catalog.ldc.upenn.edu/LDC2014T23

使用两个西班牙语-英语语料库评估的翻译质量

(以 BLEU 衡量,数值越高越好)

使用两个西班牙语-英语语料库评估的语音自然度

(以 MOS 衡量,数值越高越好)

使用两个西班牙语-英语语料库评估的语音稳健性

(以 UDR 衡量,数值越低越好)

多语言语音翻译

除了西班牙语到英语的 S2ST,我们还评估了 Translatotron 2 在多语言情境中的表现,该模型接收四种不同语言的语音输入并将其翻译为英语。由于事先未提供输入语音的语言,这迫使模型需要自行检测语言。

源语言frdeesca

Translatotron 2 27.018.827.722.5

Translatotron18.910.818.813.9

ST(Wang

等人,2020)27.018.928.023.9

训练目标 82.186.085.189.3

使用 CoVoST 2 语料库评估的多语言 X=》En S2ST 表现

Wang 等人

https://arxiv.org/abs/2007.10310

CoVoST 2

https://arxiv.org/abs/2007.10310

在此任务中,Translatotron 2 的表现同样明显优于原始版本 Translatotron。尽管 S2ST 和 ST 之间的结果没有直接可比性,但接近的数字表明Translatotron 2的翻译质量与基准语音转文字翻译模型相当。这些结果表明,Translatotron 2 在多语言 S2ST 上也非常有效。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    400

    浏览量

    38764
  • AI
    AI
    +关注

    关注

    88

    文章

    35506

    浏览量

    281394
  • 模型
    +关注

    关注

    1

    文章

    3533

    浏览量

    50592

原文标题:Translatotron 2:高质量、稳健、负责任的语音转语音直接翻译

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    两种驱动方式下永磁直线开关磁链电机的研究

    摘要:永磁开关磁链电机数学模型可以等效为永磁无刷电机,普遍采用方波驱动方式。在有限元基础上分析6/7极直线式磁链电机反电势波形,采用方波和正弦波驱动方式,比较两种方式下的电流、电压、平均推力大小
    发表于 06-09 16:18

    两种感应电机磁链观测器的参数敏感性研究

    模式和发电模式下对闭环电压电流模型磁链观测器和滑模磁链观测器参数敏感性进行了研究,通过仿真和实验比较了这两种观测器对定、转子电阻及励磁电感的敏感性。同时还研究了基于这两种观测器的模型
    发表于 06-09 16:16

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任
    的头像 发表于 04-30 18:34 ?620次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    AD7701ARZ有没有能够直接替换,或者原设计线路商改动较少的型号?

    AD7701ARZ有没有能够直接替换,或者原设计线路商改动较少的型号
    发表于 04-15 07:32

    一文详解视觉语言模型

    视觉语言模型(VLM)是一多模态、生成式 AI 模型能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 ?1866次阅读
    一文详解视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    AI助力实时翻译耳机

    是一能够实时将一语言翻译成另一语言的耳机设备。
    的头像 发表于 01-24 11:14 ?1822次阅读
    AI助力实时<b class='flag-5'>翻译</b>耳机

    一文理解多模态大语言模型——下

    /understanding-multimodal-llms ? 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型,以及构建多模态 LLM 有
    的头像 发表于 12-03 15:18 ?652次阅读
    一文理解多模态大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>——下

    语音识别与自然语言处理的关系

    在人工智能的快速发展中,语音识别和自然语言处理(NLP)成为了个重要的技术支柱。语音识别技术使得机器能够理解人类的
    的头像 发表于 11-26 09:21 ?1563次阅读

    PCM1972这个IC能够直接接手机的USB口做解码吗?

    ,如果GSM手机对这个IC干扰这么大,那么这款IC方案在设计的时候需要注意些什么问题。有没有什么方法可以避免这种干扰。 问题2:该IC资料上是使用PCM1792解码IC做音频解码的,那PCM1972这个IC能够直接接手机的USB口做解码吗?
    发表于 11-04 06:11

    PCM5242 OUT LN和OUT LP之间能够直接接16-32Ω的耳机,能够驱动吗?

    PCM5242数据表中的说的 输出4.2-VRMS 这个指的是 OUT LN 和OUT LP之间的电压还OUT LN 和GND 的之间的电压?OUT LN和OUT LP之间能够直接接16-32Ω的耳机,能够驱动吗?
    发表于 10-25 06:46

    阿里国际发布翻译模型Marco

    近日,阿里国际正式推出了其翻译模型——Marco。这款模型已在阿里国际AI官网Aidge上线,并向全球用户开放使用。
    的头像 发表于 10-17 16:07 ?756次阅读

    噪声传导的两种模式

    噪声传导有两种模式,一为差模传导,一为共模传导。
    的头像 发表于 10-15 11:33 ?822次阅读
    噪声传导的<b class='flag-5'>两种</b>模式

    【实操文档】在智能硬件的大模型语音交互流程中接入RAG知识库

    本帖最后由 jf_40317719 于 2024-9-29 17:13 编辑 智能硬件的语音交互接入大模型后可以直接理解自然语言内容,但大
    发表于 09-29 17:12

    请问如何将HSPICE和 IBIS两种模型怎么转换成TINA软件中用?

    TI网站里,给出了一些期间的HSPICE和IBIS模型,但是现有的仿真工具 只有TINA这种,请问如何将HSPICE和 IBIS两种模型怎么转换成TINA软件中用? 请高手给予解答。感谢!
    发表于 09-02 07:56

    2024 年 19 最佳大型语言模型

    大型语言模型是2023年生成式人工智能热潮背后的推动力。然而,它们已经存在了一段时间了。LLM是黑盒AI系统,它使用深度学习对超大数据集进行处理,以理解和生成新文本。现代LLM开始成型于2014年
    的头像 发表于 08-30 12:56 ?1029次阅读
    2024 年 19 <b class='flag-5'>种</b>最佳大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>