0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无法被AI识别翻译的古老语言,将去何方?

如意 ? 来源:OFweek电子工程网 ? 作者:学术头条 ? 2020-10-26 11:14 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

语言是文化的有机组成部分,也是文化的载体,世界文明的多样性在很大程度上表现为世界语言的多样性。而在 21 世纪的今天,语言学家们显然已经不满足于传统的、对已知语言的研究。相反,许多科学家开始利用计算机技术,去探索已经消失的、几乎成为谜底的灭绝古老语言。

近日,麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory 简称 CSAIL)的研究人员就开发出一种计算机算法,旨在帮助语言学家破译历史上已消失的语言。

无法“谷歌翻译”的古老语言

如今,世界上现存约有 7100 种语言。然而,古时存在的大多数语言都已不再使用,几近灭绝。数十种已灭绝语言也被认为是“未破译”的语言,也就是说,我们对它们的语法(grammar)、词汇(vocabulary)或句法(syntax)了解不足,也无法理解其文本的意思。

图 | 世界语言分布地图 2018

而研究这些“未破译”的语言,不仅仅是处于学术上的好奇心。还是因为,不理解语言,我们就会错过与讲这些语言的人有关的一整套知识体系。不幸的是,大多数灭绝语言的相关记录极少,因此,科学家无法使用谷歌翻译之类的机器翻译工具或AI算法来对其进行解密。

而传统的研究方法是,找出目标语言的“相关”语言来作比较研究,例如同一语系或相似度较高的现存语言。然而,有些语言并没有对应的、已被深入研究过的“相关”语言,并且它们通常缺少诸如空格和标点符号之类的传统分隔符(想像一下,要解密出用这种语言写出的文字该有多么令人头秃)。

但是,CSAIL 的研究人员发明的新系统,已被证明能够自动破译消失的语言,且无需对其与其他语言的关系有深入的了解。他们还表明,该系统自身就可以确定语言之间的关系,并可以用它来证实最近的一项表明 Iberian 语言实际上与 Basque 语言无关的学术研究。

语言破译:从文本到矢量的转变

此研究由 MIT 教授 Regina Barzilay 牵头,依赖于基于历史语言学(historical linguistics)见解的几项原则。其中一条原则是,一种给定的语言很少会直接添加或删除整个音节,但是很可能会发生某些近似发音的替换。比如,母语中带有“ p”发音的单词可能会在其后代演变中变为“ b”,但是由于明显的发音差异,变为“ k”的可能性则较小。

通过整合这些原则和其他语言学约束,Barzilay 等人的新算法学习将语言发音嵌入多维向量空间,在该多维空间中,相应矢量之间的距离反映了不同发音的差异。这种设计使他们能够捕获语言变化的相关特征,并将这些特征表达为计算约束(computational constraints)。因此,它可以评估两种语言之间的相似度。实际上,当对已知语言进行测试时,它甚至可以准确地识别出该语言属于哪个语系(language families)。例如英语、德语同属于日耳曼语系。

不仅如此,算法生成的模型可以将古语言中的单词进行细分,并将其一一映射到“相关”语言中的对应单词上去。研究团队的最终目标是使该系统仅仅使用几千个单词,就能够破译数十年来语言学家们都无法理解的古语言。

机器翻译相关研究

实际上,这并非 MIT 首个使用计算机技术破译已消失语言的研究。

早在 2010 年,Barzilay 就和其他合作者一起,开发出一个新的计算机算法,该算法在几个小时内就破解了古老的犹太语言乌加里特语(Ugaritic)。除了帮助破译“神秘的”八种左右古老语言外,这项工作还可以扩大自动翻译系统可以处理的语言数量。例如目前,谷歌翻译支持103种语言,而破译系统中使用的技术可以帮助其为数千种语言构建词典。

去年,Barzilay 等人也发表过一篇论文,文中使用改进的计算机算法破译了线形文字 B(Linear B,出现在公元前 1400 年左右)。他们说,“我们的翻译脚本能够以 67.3%的准确率将线性文字 B 的同源词转换成对应的希腊语。据我们所知,该试验是自动解读线性文字 B 的第一次尝试。”

在未来的工作中,该团队希望扩展到将文本与已知语言的相关单词相关联的范围之外,这种方法被称为“基于同源的破译方法”。

Barzilay 说:“例如,我们可以识别文本中涉及到的所有人或地点的信息,然后可以根据已知的历史证据对其进行进一步的调查。这些实体识别(entity recognition)方法如今已广泛用于各种文本处理应用程序中,并且具有很高的准确性 。”
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108570
  • 算法
    +关注

    关注

    23

    文章

    4720

    浏览量

    95942
  • AI
    AI
    +关注

    关注

    88

    文章

    35760

    浏览量

    282527
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    KitProg3无法编程器正确识别怎么解决?

    KitProg3 默认处于正确的 CMSIS DAP/bulk 模式。 问题:更改端口后,编程器无法正确识别 KitProg3, 采取的措施:更新 kitprog3 固件,根据
    发表于 07-23 08:12

    AI耳机变身翻译官+会议总结大师?涂鸦AI音频开发方案,让耳机升级到下一个level

    在接入AI能力后,耳机这种日常化的产品,能有多大的想象空间?它不仅能帮你轻松听懂全球外语和地方方言,还能将语音转化为文字、翻译成不同语言,甚至自动总结会议要点、生成思维导图,适配办公、学习、跨
    的头像 发表于 07-10 18:47 ?664次阅读
    <b class='flag-5'>AI</b>耳机变身<b class='flag-5'>翻译</b>官+会议总结大师?涂鸦<b class='flag-5'>AI</b>音频开发方案,让耳机升级到下一个level

    CYUSB3014无法识别为USB3.0设备怎么解决?

    。CYUSB3014的供电部分我参考了官方文档,但是我用0欧姆电阻替代了磁珠。没有磁珠可能会导致无法识别为USB3.0设备吗?
    发表于 04-30 07:24

    安信可AI人脸识别方案

    作为神仙世界的高科技,"无接触式开锁",人脸识别技术也广泛应用在现代生活中,安信可也有AI人脸识别方案!
    的头像 发表于 02-25 14:39 ?500次阅读
    安信可<b class='flag-5'>AI</b>人脸<b class='flag-5'>识别</b>方案

    Meta与UNESCO合作推动多语言AI发展

    Meta最近宣布了一项与联合国教科文组织(UNESCO)合作的全新计划——语言技术伙伴计划。该计划旨在收集多种语言的语音录音和文字记录,以推动未来开放可用的人工智能(AI)技术的发展,特别关注那些
    的头像 发表于 02-08 11:04 ?691次阅读

    AI助力实时翻译耳机

    你是否曾经因为语言障碍而无法与外国人顺畅交流?或者在旅行中因为语言不通而错过了一些精彩的经历?现在,随着AI技术的发展,实时翻译耳机可以帮你
    的头像 发表于 01-24 11:14 ?1995次阅读
    <b class='flag-5'>AI</b>助力实时<b class='flag-5'>翻译</b>耳机

    大模型进化论:AI产业落地将卷向何方

    大模型进化论:AI产业落地将卷向何方
    的头像 发表于 01-24 09:28 ?386次阅读

    TSW14J56EVM无法HSDC Pro软件识别是哪里出了问题?

    近期购买了一批TI公司的器件,其中包括4块TSW14J56EVM的板子,经测试发现,有一块板子无法HSDC Pro软件识别,即板子无法与PC无法
    发表于 12-13 08:21

    LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

    01. 工具介绍 aicode.llmworld.net 问丫·码语翻译侠 是一款由LLMWorld新推出的代码翻译工具,支持各种语言之间的翻译,包括计算机
    的头像 发表于 12-09 11:11 ?1131次阅读
    LLMWorld上线代码<b class='flag-5'>翻译</b>新工具——问丫·码语<b class='flag-5'>翻译</b>侠,快来体验!

    IMAX携手Camb.AI实现影院实时语言翻译

    近日,据外媒最新报道,国际知名影院品牌IMAX与总部位于迪拜的人工智能初创公司Camb.AI宣布达成战略合作,旨在为全球影院观众带来前所未有的实时语言翻译体验。 此次合作的核心目标是将IMAX的原创
    的头像 发表于 11-26 13:55 ?924次阅读

    USB驱动问题:设备无法识别的全面指南!

    今天我把USB驱动问题,关于设备无法识别方面做一个全面指南供大家参考。连接USB无法识别模组设备,是不是驱动问题?今天就一起来聊聊如何排查解决。
    的头像 发表于 11-26 12:35 ?1451次阅读
    USB驱动问题:设备<b class='flag-5'>无法</b><b class='flag-5'>识别</b>的全面指南!

    语音识别与自然语言处理的关系

    在人工智能的快速发展中,语音识别和自然语言处理(NLP)成为了两个重要的技术支柱。语音识别技术使得机器能够理解人类的语音,而自然语言处理则让机器能够理解、解释和生成人类
    的头像 发表于 11-26 09:21 ?1637次阅读

    如何在STM32f4系列开发板上部署STM32Cube.AI

    已下载STM32Cube.AI扩展包,但是无法使用,感觉像是没有部署AI模型,我是想要通过摄像头拍照,上传图像后,经过开发板处理器进行AI模型处理
    发表于 11-18 09:39

    PCM2707为什么无法电脑识别

    现在只焊接了最基础的部分,其它如控制跟I2S接口都还没连接元件,相当于空接,,现在无法电脑识别,系统WI8-64BIT,我购买的PCM2704的板可以电脑正常
    发表于 11-06 06:25