0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何为Google翻译上的性别中性词提供女性化和男性化两种翻译结果的技术原理

电子工程师 ? 来源:lq ? 2018-12-12 09:44 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如何消除 AI 带来的性别偏见是个令人头疼的问题,那究竟有没有方法去解决?

12 月 6 日,Google 宣布他们迈出了减少 Google 翻译中性别偏见的第一步,并且还详细介绍了如何为 Google 翻译上的性别中性词提供女性化和男性化两种翻译结果的技术原理。

过去几年,Google 翻译通过使用基于端到端的神经网络系统大大提高了翻译质量,但与此同时,模型的翻译结果呈现出了社会偏见,尤其是性别偏见。具体而言,由于 Google 翻译的结果一直都是从网上数以亿计的已翻译数据中学习得到,这造成的后果是,即使翻译结果可能具有女性化或男性化形式的倾向,但它也只为查询提供一种翻译。因而,这无可避免地复制了已有的性别偏见。例如,像“强壮”或“医生”这样的词语,它会生成偏向于男性化的翻译结果,而对于“护士”或“美丽”等词汇,则会生成偏向于女性化的翻译。

现在,Google 翻译解决了上述问题。当你把诸如“外科医生”这样的单字从英语翻译成法语、意大利语、葡萄牙语或西班牙语时,会得到的男性化和女性化的两种翻译结果。另外,当把短语和句子从土耳其语翻译成英语时,你也会得到这两类翻译,比如你用土耳其语输入“o bir doktor”,就会得到“she is a doctor”和“he is a doctor”这两种按性别翻译的结果。

Google 翻译中有特定性别的翻译

Google 团队是如何做的?

要知道,支持单字查询的特定性别翻译涉及到用性别属性丰富 Google 的底层词库。支持较长(短语和句子)查询的性别翻译尤其具有挑战性,这甚至需要对翻译框架进行部分重构。对于这些较长的查询,他们最初将重点放在从土耳其语到英文的翻译上。总体而言,他们制订了三步法来解决土耳其语中性别中立查询的问题,即同时提供英文的男性化和女性化翻译结果。

检测性别中立查询

许多土耳其语中提到人的句子都是性别中立的,但并不是全部都这样。检测哪些查询符合特定性别的翻译是一个难题,由于土耳其语在形态学上的很复杂,这意味着指代一个人可以是明确的性别中立代词(例如 O,Ona)或隐式编码。例如,“Biliyor mu?”没有明确的性别中立代名词,可以翻译为“她知道吗?”或“他知道吗?”这种复杂性导致我们不能使用简单的性别中性代词列表来检测性别中立的土耳其语查询,另外我们还需要一个机器学习系统。Google 团队估计大约有 10% 的土耳其语的翻译查询含糊不清,能同时符合女性化和男性化翻译的条件。

为了检测这些查询,他们使用了最先进的文本分类算法(与他们的云自然语言 API 中使用的算法相同)来构建一个系统,该系统能够检测给定的土耳其语查询何时是性别中立的。这就导致在翻译前新增了一个步骤,所以他们必须平衡模型在延迟时的复杂性。Google 团队对数千个土耳其人进行系统培训,要求这些人判断出一个给定的例子是否是性别中立的。而他们最终的分类系统是卷积神经网络,以此可以准确检测出需要按性别翻译的查询。

生成特定性别翻译

随后,Google 团队增强了基础神经机器翻译(NMT)系统,以便在需要时生成女性化和男性化翻译。当没有要求区分性别时,训练模型生成的是默认翻译。这主要包括:

识别并将平行训练数据划分为具有女性化词语、男性化词语和性别不明词语。

在句子的开头添加一个新增的输入标记,以指定要翻译的所需性别,类似于已构建的多语言 NMT 系统的方式:

<2MALE> O bir doktor→他是一名医生

<2FEMALE> O bir doktor→她是一名医生

训练增强的 NMT 模型对女性、男性和性别中立数据源的影响。他们对这些来源进行了各种混合比试验,使模型在这三个任务中的表现同样出色。

如果确定用户查询是性别中立的,他们会在翻译请求中添加性别前缀。对于这些要求,他们的最终 NMT 模型可以在 99% 情况下生成可靠的女性化和男性化性别的翻译结果。此外,系统在没有性别前缀的查询中还能保持翻译质量。

检查准确性

最后的一个步骤决定是否显示特定性别的翻译结果。由于产生男性化翻译的训练数据与产生女性化翻译的训练数据不同,因此在与性别无关的两种翻译间可能存在差异。如果确定特定性别的翻译质量低,则只显示单一的默认翻译。为了确定特定性别的句子翻译质量,他们进行以下验证:

要求的女性翻译是女性化的;

要求的男性化翻译是男性化的;

除了与性别相关的变化,如果女性化和男性化翻译完全相同,即使翻译结果间的措辞发生微小变化也会被系统过滤掉。

男性化和女性化翻译仅在性别方面有所不同,即“he”和“his”与“she”和“her”。因此,他们展示了特定性别的翻译。底部:男性化和女性化翻译在性别方面有所不同,即“he”与“she”。但是,从“really”到“actually”的变化与性别无关。因此,系统将过滤特定性别的翻译并显示默认翻译结果。

如果将所有内容放在一起,输入句子首先会通过分类器,分类器检测它们是否可以进行特定性别翻译。如果分类器说“是”,系统则向增强型 NMT 模型发送三个请求:女性化翻译请求、男性化翻译请求和性别中立翻译请求。最后一步考虑了所有的三个答案,并决定是否显示特定性别翻译或单个默认翻译。Google 团队认为,这一步仍然相当保守,为了最大限度提高所显示的特定性别的翻译质量,因此系统的整体召回率仅为 60% 左右。

对 Google来说,这只是他们解决机器翻译系统中性别偏见的第一步,未来,他们计划将特定性别的翻译扩展到更多语言,并解决自动完成查询等功能中的性别偏见问题。此外,他们已经在考虑如何在翻译中解决非二元性别的问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1791

    浏览量

    59265
  • 神经网络
    +关注

    关注

    42

    文章

    4814

    浏览量

    104479
  • 机器翻译
    +关注

    关注

    0

    文章

    141

    浏览量

    15236

原文标题:“男医生,女护士?”消除偏见,Google有大招

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    CC-Link IE 转 Modbus TCP,阀门通讯的“双语翻译官”

    。这就好比一位说“高速实时语”的PLC,要和只会“经典通用语”的阀门对话,此时,一位可靠的“双语翻译官”——耐达讯通信技术协议转换网关,就显得至关重要了。 协议转换网关的核心工作原理就是“翻译”。它在 CC-Link IE 网络
    的头像 发表于 07-09 09:46 ?189次阅读

    CAN收发器:总线信号的“翻译官”

    在CAN总线通信中,CAN收发器(Transceiver)扮演着至关重要的角色——它就像一位“翻译官”,负责将微控制器(MCU)的数字信号转换为总线上的差分信号,同时把总线信号翻译回MCU能理解
    的头像 发表于 06-27 11:34 ?864次阅读
    CAN收发器:总线信号的“<b class='flag-5'>翻译</b>官”

    时空壶 T1 离线翻译机:解锁无网生活沟通自由

    在全球浪潮席卷之下,跨国交流已然成为现代人生活的重要组成部分。无论是出国旅行、商务洽谈,还是文化体验,语言障碍始终是横亘在人们面前的一道难题。而网络覆盖的局限性,更是让依赖在线翻译的设备在关键时刻
    的头像 发表于 06-05 10:30 ?404次阅读
    时空壶 T1 离线<b class='flag-5'>翻译</b>机:解锁无网生活沟通自由

    Ethercat转Profinet网关如何用“协议翻译术”打通自动产线任督二脉

    Ethercat转Profinet网关如何用“协议翻译术”打通自动产线任督二脉
    的头像 发表于 05-10 14:42 ?256次阅读
    Ethercat转Profinet网关如何用“协议<b class='flag-5'>翻译</b>术”打通自动<b class='flag-5'>化</b>产线任督二脉

    “System Level EOS Testing Method”可以翻译为: “系统级电性过应力测试方法”

    “System Level EOS Testing Method”可以翻译为: “系统级电性过应力测试方法”
    的头像 发表于 05-05 15:55 ?399次阅读
    “System Level EOS Testing Method”可以<b class='flag-5'>翻译</b>为: “系统级电性过应力测试方法”

    EtherCAT转Profinet网关:纺织业设备互联的“翻译官”

    EtherCAT转Profinet网关不仅是纺织车间设备互联的“翻译官”,更是推动生产模式革新的“加速器”。其价值在于打破协议壁垒的同时,为纺织业的精益、柔性化生产提供了可落地的技术
    的头像 发表于 04-28 15:39 ?269次阅读
    EtherCAT转Profinet网关:纺织业设备互联的“<b class='flag-5'>翻译</b>官”

    女性机器人能否代替女性

    ? ? ? 在探讨“女性机器人能否代替女性”这一议题时,我们首先需要明确几个核心概念:何为女性机器人?何为替代?以及这一替代是基于何种维度和
    的头像 发表于 02-08 15:49 ?981次阅读

    AI助力实时翻译耳机

    是一能够实时将一语言翻译成另一语言的耳机设备。它通常由一个耳机和一个配套的应用程序组成,用户可以通过应用程序选择需要翻译的语言,并通过
    的头像 发表于 01-24 11:14 ?1991次阅读
    AI助力实时<b class='flag-5'>翻译</b>耳机

    ADS1259读取模数转换结果的时候是否是两种读取模式?

    咨询下ADS1259读取模数转换结果的时候是否是两种读取模式,一是读引脚(DIN),一是读寄存器,读寄存器的数据是进行数据校验? 还有不明白的是读寄存器的内容时,模数转化后的数据
    发表于 01-22 07:18

    模块示波器的技术原理和应用

    模块示波器是一用于信息科学与系统科学领域的电子测量仪器,以下是对其技术原理及应用的详细阐述:一、技术原理 信号转换与显示: 模块示波
    发表于 12-11 14:20

    LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

    应用案例 aicode.llmworld.net 案例一 阅读复杂算法,将计算机语言翻译成自然语言和伪代码,快速帮助用户理解算法实现逻辑。 Input(C++): 正弦波信号进行傅里叶变换,并输出其频域结果的C++
    的头像 发表于 12-09 11:11 ?1127次阅读
    LLMWorld上线代码<b class='flag-5'>翻译</b>新工具——问丫·码语<b class='flag-5'>翻译</b>侠,快来体验!

    IMAX携手Camb.AI实现影院实时语言翻译

    内容和精彩纪录片精准地本地化为多达140语言,以满足全球不同地区观众的多样需求。传统配音方式不仅成本高昂,而且耗时较长,难以满足快速变化的市场需求。而Camb.AI的DubStudio平台则凭借其先进的人工智能技术,承诺能够
    的头像 发表于 11-26 13:55 ?923次阅读

    阿里国际发布翻译大模型Marco

    近日,阿里国际正式推出了其翻译大模型——Marco。这款模型已在阿里国际AI官网Aidge上线,并向全球用户开放使用。
    的头像 发表于 10-17 16:07 ?779次阅读

    用逻辑和翻译用例优化资产跟踪器

    电子发烧友网站提供《用逻辑和翻译用例优化资产跟踪器.pdf》资料免费下载
    发表于 09-21 11:24 ?0次下载
    用逻辑和<b class='flag-5'>翻译</b>用例优化资产跟踪器

    使用逻辑和翻译优化车身控制模块(BCM)应用说明

    电子发烧友网站提供《使用逻辑和翻译优化车身控制模块(BCM)应用说明.pdf》资料免费下载
    发表于 09-11 11:30 ?0次下载
    使用逻辑和<b class='flag-5'>翻译</b>优化车身控制模块(BCM)应用说明