0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为了不让AI带有歧视色彩,谷歌操碎了心训练模型

如意 ? 来源:极客公园 ? 作者:沈知涵 ? 2020-11-03 10:47 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

土耳其语的「他」和「她」没有性别的区分,统一用 O 表示。过去 Google Translate 在翻译 o bir doktor(ta 是一位医生)和 o bir hem?ire(ta 是一位护士)时,会把前者翻译成 He is a doctor,把后者翻译成 She is a nurse,只因为机器在学习数亿数据和某些「社会规律」之后,「偏向」把医生男性化,护士女性化。

看到这个问题后,Google 意识到要想办法更好地训练模型,让它变得更加「中立」。后来 Google Translate 以增加选项的方式规避了这个问题。

「当然,该解决方案仅适用于几种语言,仅适用几个有代表性的单词,但是我们正在积极尝试扩展它。」Tulsee Doshi 在 Google I/O’19 上说道。

这只是 Google 这家公司将先进技术与技术价值观合二为一的体现之一。上周 Meg Mitchel,Tulsee Doshi,Tracy Frey 三位谷歌科学家、研究学者向包括极客公园(id: geekpark)在内的全球媒体阐释了 Google 如何理解机器学习公平性,以及为了打造一个「负责任的 AI」,Google 做了哪些事情。

要让 AI 被人信任这件事情变得越来越重要。

「最近一次调研中,全球 90% 的受访高管都遇到过人工智能的伦理问题,因此有 40% 的人工智能项目被放弃。从企业的角度来看,对 AI 的不信任正在成为部署 AI 最大的障碍,只有在 AI 被负责任地开发出来并且取得终端用户信任的语境下,效率提升和竞争优势才会得到充分体现。」Tracy Frey 说,打造一个负责任的 AI 成为 Google 上下最重要的事情之一。

两年之前 Google 公布了 AI principles(人工智能原则),这些直指 AI 技术应用伦理的原则包括:

· 对社会有益(Be socially beneficial)

· 避免建立和加剧不公的偏见(Avoid creating or reinforcing unfair bias)

· 保障建立和测试安全性(Be built and tested for safety)

· 对人类负责(Be accountable to people)

· 建立并体现隐私保护原则(Incorporate privacy design principles)

· 支持并鼓励高标准的技术品格(Uphold high standards of scientific excellence)

· 提供并保障上述原则的可操作性(Be made available for uses that accord with these principles)

只是把这些原则停留在字面上没有意义,Google 为此形成了一个从理论到实践的「闭环」。Tulsee Doshi 和她的团队通过一些基础性质的研究建立和迭代 AI 原则、规范,作为闭环的中心,他们一边通过向高级顾问寻求改进建议,一边让产品团队(Chrome、Gmail、Cloud 等)来实施和反馈。

Tulsee 举了一个例子,Google 内部孵化器 Jigsaw 曾经开发了一个名叫 Perspective 的 API,它的工作就是在网络对话、评论中寻找各种各样的言论,自动评价它们是否带有仇恨、辱骂、不尊重等行为,从 0-1 代表「毒性」从低到高。

比如「我想抱抱这只可爱的小狗」和「这只小狗也太讨厌了吧」分别评分为 0.07 和 0.84。

当然机器也不是从一开始就「完美无瑕」。在 2017 年的 1.0 版本中,它给「我是直男」打分 0.07 分,给「我是同性恋」打分 0.84 分,与之相似的很多测试中,系统都被证实带着身份认知上的偏见。

为了提升机器学习的公平性,Google 内部研发了一项名为对抗训练(Adversarial Training)的技术——如何使机器学习模型对抗样本更鲁棒。2018 年开始,对抗训练开始应用在 Google 产品中。紧接着今年 11 月,Google 会将此应用在 TensorFlow 更加广泛的生态里。

「事实上,任何一位 Googler 都可以对一款产品、一份研究报告、一项合作进行 AI 原则审查。」Tulsee 说道。

比如去年,一位 Google 员工将照片跑在 Cloud Vision API 上时发现自己的性别被搞错了,而这违反了 AI 原则的第二条「避免建立和加剧不公的偏见」。

发生这样的失误很好理解,单单从外表一个维度,机器很难正确地判断出一个人的性别,所以后来 Google 干脆取消 Cloud Vision API 将图像中的人标记为「男人」或「女人」的标签功能。

Tracy Frey 称这是因为今天机器学习面临社会语境下的挑战比以前更多了。在 AI 深入社会的过程中,必然有人类的刻板印象和偏见被带入 AI,所以需要对模型进行迭代,保证其透明性和可解释性,找准模型性能和公平之间的平衡点。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6233

    浏览量

    108561
  • AI
    AI
    +关注

    关注

    88

    文章

    35758

    浏览量

    282451
  • 机器学习
    +关注

    关注

    66

    文章

    8513

    浏览量

    135102
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    宁畅与与百度文模型展开深度技术合作

    与部署。 凭借覆盖训练、推理、微调全流程的AI?服务器产品矩阵,宁畅帮助企业在大模型时代一键打通算力与应用“任督二脉”,显著缩短模型落地周期。 在已启动的深度技术合作中,双方将基于文
    的头像 发表于 07-07 16:26 ?351次阅读

    海思SD3403边缘计算AI数据训练概述

    模型,将模型转化为嵌入式AI模型模型升级AI摄像机,进行
    发表于 04-28 11:11

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    ,联发科带来了全面升级的天玑AI开发套件2.0,在模型库规模、架构开放程度、前沿端侧AI技术支持和端侧LoRA训练落地等方面均迎来全面跃迁,为开发者提供了更全面、更开放、更强大的端侧
    发表于 04-13 19:52

    利用RAKsmart服务器托管AI模型训练的优势

    AI模型训练需要强大的计算资源、高效的存储和稳定的网络支持,这对服务器的性能提出了较高要求。而RAKsmart服务器凭借其核心优势,成为托管AI模型
    的头像 发表于 03-18 10:08 ?323次阅读

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    GPU是如何训练AI模型

    AI模型训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何
    的头像 发表于 12-19 17:54 ?836次阅读

    为什么ai模型训练要用gpu

    GPU凭借其强大的并行处理能力和高效的内存系统,已成为AI模型训练不可或缺的重要工具。
    的头像 发表于 10-24 09:39 ?1082次阅读

    AI模型训练数据来源分析

    AI模型训练数据来源广泛且多元化,这些数据源对于构建和优化AI模型至关重要。以下是对AI
    的头像 发表于 10-23 15:32 ?4122次阅读

    AI模型的伦理与社会影响

    个人隐私得到保护,防止数据泄露和滥用。 对于敏感数据的处理,如生物识别信息或健康记录,需要遵循更严格的隐私和安全标准。 偏见与歧视 AI模型可能会从训练数据中继承偏见,导致对某些群体
    的头像 发表于 10-23 15:13 ?2105次阅读

    如何训练自己的AI模型

    训练自己的AI模型是一个复杂且耗时的过程,涉及多个关键步骤。以下是一个详细的训练流程: 一、明确需求和目标 首先,需要明确自己的需求和目标。不同的任务和应用领域需要不同类型的
    的头像 发表于 10-23 15:07 ?5337次阅读

    如何训练ai模型

    训练AI模型是一个复杂且耗时的过程,涉及多个关键步骤和细致的考量。 一、数据准备 1. 数据收集 确定数据类型 :根据模型的应用场景,确定需要收集的数据类型,如文本、图像、音频等。
    的头像 发表于 10-17 18:17 ?2853次阅读

    ai模型训练需要什么配置

    AI模型训练是一个复杂且资源密集的过程,它依赖于高性能的硬件配置来确保训练的效率和效果。 一、处理器(CPU) CPU是计算机的核心部件,负责处理各种计算任务。在
    的头像 发表于 10-17 18:10 ?4220次阅读

    【实文档】在智能硬件的大模型语音交互流程中接入RAG知识库

    本帖最后由 jf_40317719 于 2024-9-29 17:13 编辑 智能硬件的语音交互接入大模型后可以直接理解自然语言内容,但大模型作为一个语言模型,对专业领域知识的训练
    发表于 09-29 17:12

    【附实视频】聆思CSK6大模型开发板接入国内主流大模型(星火大模型、文一言、豆包、kimi、智谱glm、通义千问)

    接入文一言、通义千问、豆包、智谱glm、kimi等国内的大模型,但由于各家接口和数据格式不一样,调试验证会浪费很多时间。因此本篇以聆思CSK6大模型开发板接入为例,分享具体的接入步骤和接入模板,大家
    发表于 08-22 10:12