0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

科大讯飞语音翻译新技术路线上再获突破

DPVg_AI_era ? 来源:未知 ? 作者:李倩 ? 2018-11-05 17:14 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

科大讯飞日前在全球最具影响力的口语机器翻译评测比赛IWSLT中,获得了语音翻译端到端模型评测的冠军,还成为英德口语翻译任务中唯一受邀做Oral report的参赛团队。端到端技术是当前语音翻译的研究前沿,科大讯飞联合优化语音识别和机器翻译的新技术路线,理论上更具前景,一旦技术研究成功,将为翻译机器性能的提升带来极大促进。

提问:语音翻译涉及哪些步骤?

你或许会说,语音识别和机器翻译——没错,传统的语音翻译通常采用语音识别和机器翻译级联的方式实现,对输入语音先进行语音识别得到文本结果,然后再基于文本进行机器翻译,这也是当前语音翻译采用的主流方法。

不过,由于口语句子中含有大量非规范语言现象,例如重复、省略、颠倒,以及语义逻辑不清,断句困难等问题,导致后续机器翻译带来严重的挑战。此外,复杂环境下语音识别受发音人口音、环境噪声,以及和语言中存在的同音词、易混淆词等复杂音素的影响也存在着识别错误,对最终机器翻译性能也可能带来影响。

因此,实际应用系统中,通常会在语音识别和机器翻译之间增加一个语音识别后处理模块,通过对识别结果进行规整、断句、顺滑、标点预测,甚至纠错来尽可能地减小口语化和识别错误的影响。

不过,受语音和语言复杂性的影响,截止到目前为止,这些问题并没有被真正解决。

在刚刚结束的2018年国际口语机器翻译评测比赛(International Workshop on Spoken Language Translation,IWSLT)中,科大讯飞团队在端到端模型(End-to-End Model)的评测比赛中,以显著优势夺得第一名。该奖项也是科大讯飞今年在各项国际竞赛中的第9个“世界冠军”。

端到端语音翻译技术路线,是通过构造一个完整的神经网络模型,联合优化语音识别、识别后处理和机器翻译,建立源语言语音信号到目标语言文字的映射关系,进而实现从原始语音到目标译文的翻译。

这提供了一种解决语音翻译的新思路,而且从目前看是初步可行的。一旦技术研究成功,理论上可以让语音翻译更准更快,未来也将为翻译机器性能的提升带来极大促进。

国际顶级口语机器翻译评测比赛 IWSLT,推动语音翻译新方向

IWSLT是国际上最具影响力的口语机器翻译评测比赛之一,重点关注口语,实现语音到文本的翻译,从而解决人和人交流的问题。

到目前为止,IWSLT已经举办了15届,吸引了全球70多家科研团队的参与。IWSLT针对语音翻译实际应用面临的难题,通过每年设定一些研究任务,并向外界提供公开的数据集合和评测交流机会,吸引了来自全球的科研团队参与,对于推动语音翻译技术创新和知识共享具有重要的意义。

除了科大讯飞,IWSLT 2018吸引了世界各地多所机器翻译领域的知名大学及研究所参加,包括英国爱丁堡大学(University of Edinburgh)、美国约翰霍普金斯大学(JHU)、德国卡尔斯鲁厄理工学院(KIT)、意大利Bruno Kessler 基金会(FBK)、芬兰赫尔辛基大学(Helsinki),以及国内的阿里巴巴、搜狗等。

本次比赛包括两个主要任务,一是英语到德语演讲场景下的语音翻译任务;二是巴斯克语到英语的低资源文本翻译任务。

其中,在英语到德语的语音翻译任务上,主办方在今年提出了两种评测方案:

传统路线,也即语音识别、识别后处理、机器翻译分而治之,称之为基线模型(baseline Model);

端到端模型(End-to-end Model),将语音识别、识别后处理和机器翻译统一起来联合优化,能够在一定程度上避免传统基线模型中存在的识别错误扩散等问题,是一种新的思路,理论上更具前景。

端到端模型是当前口语翻译研究领域的前沿,随着深度学习的进步,研究人员开始探索通过构造一个完整的神经网络模型,建立语音信号到目标文字的映射关系。

该方法通过将语音识别、识别后处理和机器翻译统一起来联合优化,为解决传统级联方案分而治之中存在的难题提供了一种新的思路。例如,2017年Interspeech会议上,谷歌研究人员就将该方法应用到西班牙到英语的语音翻译任务上,取得初步成效。

引入这一新的评测方案,也体现了IWSLT主办方引导科研探索,推动语音翻译技术不断进步的努力。

科大讯飞勇于挑战新路线,端到端语音翻译获得第一

科大讯飞参与了口语翻译的两种评测,并且是唯一参与端到端模型这种新技术路线的中国团队。不仅如此,科大讯飞还作为唯一受组委会邀请的语音翻译任务参赛团队、进行Oral report,向与会人员分享两种技术路线研究所采用的方法,对促进语音翻译新技术的进步具有重要作用。

因为语言和语音本身的复杂性,新技术路线对统一建模需要很强的语音处理能力和调序能力,加之语言本身受到口语表达、环境噪声的干扰,所以端到端技术路线要实现从原始语音到目标文本的翻译,就是难上加难。

值得一提,赛事提供的公开数据集合中,能够为端到端模型方法提供直接的有监督数据是小规模的。要在3个月的时间里,在小规模数据上构建一套高性能的端到端语音翻译系统,非常具有挑战性。

基于语音和机器翻译上雄厚的技术积累,讯飞研究团队针对端到端语音翻译任务开展了探索性研究,最终在英德语音翻译任务的端到端模型评测方案上获得了第一名(与第二名BLEU分数拉开9个百分点,一般而言,提升3个百分点就能明显体会到系统的优劣差异)。

不仅如此,在基线模型评测中,科大讯飞也取得了第二名的好成绩。

“比赛的成绩只是一方面,我们看重的是在源头技术、新技术上进行探索,”科大讯飞的研究人员表示。

“我们参加了本次IWSLT评测的语音翻译任务,在基于传统的基线模型中,针对语音识别文本结果和机器翻译训练数据源语言文本风格不匹配问题,提出了对源语言文本逆变换以适配识别风格的方法,提高了语音翻译的鲁棒性。在端到端模型中,提出了基于DenseNet和BiLSTM编码,以及基于自注意力机制解码的端到端建模方案。实验结果表明,尽管当前端到端模型的效果低于传统方法,但从结果来看也证明该方法具有一定的可行性,整体系统框架也更加简洁优雅,有望为语音翻译提供一种新的解决思路。”

客观评价语音翻译端到端技术,数据将是一大瓶颈和障碍,因为语音识别的数据已积累了上十万小时、机器翻译的数据搜集也达到千万甚至上亿,但端到端的模型,需要专门的语音到文本的句对,这方面的数据目前积累不够,若要商业化,还需要更大的数据支撑。

对此,科大讯飞研究团队表示,“由于语音翻译任务的复杂性以及训练数据搜集的困难,无论传统的基线模型方案还是最新提出的端到端语音翻译方案,在实际应用中都还面临一系列的难题,需要学术界和产业界共同努力。”

至于端到端的新技术,“如果能减少对有监督语音翻译平行数据的依赖那是最好不过,而且这存在一定的可能性,例如可以尝试借用现有的语音识别训练数据和机器翻译训练数据,我们正在努力探索。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    39

    文章

    1786

    浏览量

    114355
  • 机器翻译
    +关注

    关注

    0

    文章

    140

    浏览量

    15220
  • 科大讯飞
    +关注

    关注

    19

    文章

    842

    浏览量

    62568

原文标题:语音翻译也能端到端?深度学习这条路有戏!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    打破交互困局:科大飞这样出手

    十年深耕,科大飞智能交互如何引领未来
    的头像 发表于 06-17 11:50 ?538次阅读
    打破交互困局:<b class='flag-5'>科大</b><b class='flag-5'>讯</b>飞这样出手

    回顾科大飞26周年庆精彩瞬间

    近日,科大飞26周年司庆上,董事长刘庆峰对这个作文题感触很深:“从1999年创业时在“中国被人扼住了咽喉”背景下以语音合成系统破局,到这些年智能语音、机器
    的头像 发表于 06-13 14:08 ?413次阅读

    科大飞亮相第137届广交会

    今天,第137届中国进出口商品交易会(广交会)在广州开幕。科大飞又一年参展,集中展示了飞星火大模型的最新技术成果以及在办公、教育、汽车、工业等领域的产品和应用。
    的头像 发表于 04-17 09:30 ?634次阅读

    科大飞Air 2电纸书和掌阅Ocean4 Plus区别

    ComfortLight Pro光源技术,支持30级亮度和色温调节,夜间阅读时眼睛也不会感到不适。 科大飞 Air 2 更多使用感受和评价https://u.jd.com/GGAOnEY 在性能方面
    发表于 03-03 14:01

    科大飞发布飞星火X1深度推理大模型

    近日,科大飞宣布了一项重大突破,成功推出了当前全国产算力平台上唯一的深度推理大模型——飞星火X1。这款大模型在中文数学能力方面位居国内首位,并已在教育、医疗等刚需场景中率先实现应用
    的头像 发表于 01-16 10:46 ?837次阅读

    科大飞发布星火深度推理模型X1,技术升级引领行业创新

    近日,科大飞在人工智能技术领域再次取得重大突破,正式发布星火深度推理模型X1。这一创新成果的发布,标志着科大
    的头像 发表于 01-15 16:43 ?708次阅读

    科大飞发布星火深度推理模型X1

    今天,科大飞正式发布星火深度推理模型X1,星火4.0 Turbo底座全面升级,首发星火语音同传大模型。
    的头像 发表于 01-15 15:54 ?778次阅读

    科大飞即将发布飞星火深度推理模型X1

    ,标志着科大飞在AI技术领域的又一次重大突破飞星火深度推理模型X1将为科大
    的头像 发表于 01-08 10:30 ?793次阅读

    科大飞为华为Mate70提供技术支持

    签约标志着双方将在技术创新、产业应用以及商业合作等多个领域展开全方位、深层次的合作,共同致力于构建更加完善的人工智能产业生态。 值得一提的是,在华为最新发布的Mate70智能手机中,科大飞为其提供了关键的
    的头像 发表于 12-19 11:03 ?3044次阅读

    科大飞升级AI大模型,加速产业化应用进程

    被誉为“通用大模型国家队”的科大飞,再度强化其大模型技术实力。在10月24日举办的第七届世界声博会及2024科大飞全球1024开发者节开
    的头像 发表于 10-25 16:09 ?906次阅读

    科大飞发布飞星火4.0 Turbo大模型及星火多语言大模型

    近日,科大飞正式推出了其最新研发成果——飞星火4.0 Turbo大模型。这一发布不仅标志着科大飞在人工智能领域的又一次重大
    的头像 发表于 10-24 13:58 ?941次阅读

    科大飞发布星火超拟人数字人

    了语义贯穿的“口唇-表情-动作”的超拟人数字人生成。这一技术突破,使得数字人在表达情感和动作时更加真实、自然,如同在和真人进行对话一般。 在科大飞的演示中,我们可以看到由大模型生成
    的头像 发表于 10-24 11:03 ?889次阅读

    科大飞AI总部园区正式启用

    近日,安徽省科技创新领域迎来又一重大里程碑,科大飞AI总部园区(飞小镇)正式宣告启用,标志着这一集前沿科技、创新研发与高端人才于一体的智慧高地正式扬帆起航。此次启用,不仅为安徽省乃至全国的科技创新版图增添了浓墨重彩的一笔,也
    的头像 发表于 09-03 16:06 ?1105次阅读

    华为与科大飞在运动健康领域达成合作

    华为与科大飞强强联手,正式宣布在运动健康领域达成深度合作。此次合作,将华为卓越的硬件优势与科大飞领先的人工智能技术完美融合,共同探索并开
    的头像 发表于 08-14 17:41 ?1135次阅读

    科大飞发布智能办公本Air 2

    近日,科大飞隆重举办了智能办公本新品发布会,正式推出了集前沿科技与高效办公于一体的飞智能办公本Air 2系列。此次发布,不仅彰显了科大
    的头像 发表于 08-08 10:43 ?1018次阅读