0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

公开机器学习模型代码可能会有哪些风险?

DPVg_AI_era ? 来源:lp ? 2019-03-08 09:26 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为个人开发者,应不应该将自己的项目或模型、数据等进行开源?公开这些数据有哪些风险?本文作者是斯坦福大学博士,长期从事开源机器学习研究,经常接触和处理敏感数据,他结合自己的经验,为这个问题提供了一些建议。

公开机器学习模型代码可能会有哪些风险?

OpenAI 最近因为创造了多项机器学习新任务的最优性能记录,但却不开放源代码而遭到越来越多的指摘。OpenAI发推表示,“由于担心这些技术可能被用做恶意目的,不会放出训练后的模型代码。“

对OpenAI这个决定的批评之声不少,比如这样会对其他团队重现研究这些研究结果造成阻碍,而研究结果的可重现性是确保研究真实的基础。而且,这样做也可能导致媒体对人工智能技术产生一种由于未知而生的恐惧。

上面这段Twitter引起了我的注意。Anima Anandkumar在弥合机器学习的研究和实际应用之间的差距方面拥有丰富的经验。我们是亚马逊AWS的同事,最近还在一起讨论了如何将机器学习技术从博士实验室推向市场的问题。

Stephen Merity对社交媒体的回应进行了总结,他表示,机器学习社区在这方面的经验其实不多:

OpenAI不公开模型源代码是对是错?这事各位可以自行判断。不过在我看来,OpenAI在两个方面做得不够好,应该就是否可以检测到虚假内容进行调查,并以多种语言发布模型,以对抗对英语产生的单语种偏见。

对于个人机器学习项目而言,下面给出一些关于是否应该公开发布模型或数据集的决策时的一些常见问题:

在开源我的模型之前是否应该三思?

是的。如果你的模型是基于私有数据构建的,则可以对其进行逆向工程以提取出这些数据。

如果我的模型100%来自公共数据,那我是否还要考虑将模型开源?

是的。如果要在新的语言环境重新发布数据,已发布的数据可能会变成敏感数据,而且,聚合后的数据(包括机器学习模型)可能比分散的各个数据点更加敏感。你需要考虑:重新构建数据或数据模型会产生哪些影响,要不要由我自己或我所在的组织公开发布?

即使单个数据点并非敏感数据,聚合数据被视为敏感也是很常见的情况。这是许多军事组织的标准做法:当他们汇总来自一组来源的数据时,他们会根据其敏感程度重新评估该汇总信息。聚合通常是统计学或无监督机器学习的结果,但是基于该数据构建的监督模型同样适用。

所以,你应该经常自问:我的模型中的聚合数据是否比单个数据点更为敏感?

我应该如何评估开源风险?

在安全性方面考虑,可以将每个策略视为“可被攻破的”。风险防范的基本目标是使攻破某些安全措施的成本高于被保护数据的价值。

所以要考虑的问题是,从你的研究论文中复制模型的成本,是否值得为那些想要出于负面目的使用这些技术的人付出这样的努力?应该要明确这一点。这是决定是否将模型开源的一个重要因素。

我最近与Facebook进行了长时间的会谈,讨论的是出任一个职位,专门负责发现假新闻。从一个行内人的角度来看,我最想知道的是这样一件事:我能否以编程的方式成功检测这种模型输出,以便对抗假新闻?

我认为在Facebook上打击假新闻是任何人都可以做的最重要的事情之一,来自OpenAI的这项研究将会对此有所帮助。而且,如果能够创建一个可以识别生成内容的模型池,那么假新闻可能会更难以蒙混通过自动检测系统。

如果你能够定量地证明,对项目数据的恶意使用可以进行更容易/更难的打击,这也将是你做出是否开源的决策过程中的另一个重要因素。

这算是机器学习中的新问题吗?

其实不算是,你可以从过去的经验中学到很多东西。

如果你面临类似的困境,请寻找具有深度知识的人来讨论受影响最大的社区(最好是来自该社区内部的人士),以及过去遇到类似的机器学习问题相关问题的人。

我是否应该平衡机器学习的负面应用和正面应用?

是的。发布具有积极应用意义的模型,很容易对世界产生积极影响。而限制具有许多负面应用领域的模型的发布,很难对世界产生积极影响。

这其实是OpenAI的另一个失败之处:缺乏多样性。OpenAI比任何其他研究团队都更多地发布了仅适用于英语模型和研究成果。从全球来看,英语每天仅占全世界对话的5%。在句子中的单词顺序、标准化拼写和“单词”作为机器学习功能单元上,英语是一个异类。

OpenAI的研究依赖于以下三个方面:单词顺序,单词特征,拼写一致性。这些研究能够适用于世界上大多数语言吗?我们不知道,因为没有测试。OpenAI的研究确实表明,我们需要担心这种类型的英语生成内容,但并没有表明,今天的假新闻的流传,更有可能通过除英语之外的其他100多种语言进行。

如果你不想进入假新闻等应用程序的灰色区域,那么可以选择一个本质上更具影响力的研究领域,例如低资源语言中与健康相关的文本的语言模型。

我需要在多大程度上考虑项目应用实例的敏感性?

当我为AWS的命名实体解析服务开发产品时,必须考虑是否要将街道级地址识别为显式字段,并可能将坐标映射到相应地址。我们认为这本身就是敏感信息,不应该在一般解决方案中进行产品化。

在任何研究项目中都要考虑这一点:是否能够隐含或明确地识别出模型中的敏感信息?

只是因为其他人都开源了自己的模型,因此我也应该开源吗?

当然不是,你应该对自己项目的影响力保持一份怀疑。无论你是否赞同OpenAI的决定,都应该做出明智的决定,而不是盲目跟随他人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1810

    文章

    49221

    浏览量

    251600
  • 开源
    +关注

    关注

    3

    文章

    3779

    浏览量

    44133
  • 机器学习
    +关注

    关注

    66

    文章

    8513

    浏览量

    135107

原文标题:斯坦福博士:个人开发者要不要开源项目模型和代码?

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文
    发表于 07-31 11:38

    如果主节点使用AD2433,从节点使用AD2428,会不会有什么风险点?

    如果主节点使用AD2433,从节点使用AD2428,会不会有什么风险点?晚上找不到AD2433的数据手册,感谢各位把遇到的问题提前预警一下。 万分感谢!
    发表于 04-15 07:09

    “两会”热议“机器人和飞行汽车”,核心动力电机可能会

    :“两会”热议“机器人和飞行汽车”,核心动力电机可能会火.doc 本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 03-31 13:35

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习
    的头像 发表于 02-13 09:39 ?421次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    引入GPT这样的大模型后,情况发生了根本性的变化。只需提供适当的提示词以及封装好的机器人函数库,大模型便能灵活地生成控制代码,极大地简化了开发过程,并提高了自动化水平。 此外,大
    发表于 12-29 23:04

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    医疗领域,手术辅助机器人需要毫米级的精确控制,书中有介绍基于视觉伺服的实时控制算法,以及如何利用大模型优化手术路径规划。工业场景中,协作机器人面临的主要挑战是快速适应新工艺流程。具身智能通过在线
    发表于 12-24 15:03

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    可能在训练数据上表现良好,但在遇到未曾见过的数据(例如不同环境、光照条件、角度等)时性能可能会下降。 对异常值敏感:如果训练集中包含异常值或者噪声数据,这可能导致模型
    发表于 12-19 14:33

    cmp在机器学习中的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是一个常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器
    的头像 发表于 12-17 09:35 ?1016次阅读

    NPU与机器学习算法的关系

    紧密。 NPU的起源与特点 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)项目中提出,旨在为TensorFlow框架提供专用的硬件加速。NPU的设计目标是提高机器学习算法的运行效率,特别是在处理大规模数据集和复杂神经网络
    的头像 发表于 11-15 09:19 ?1433次阅读

    深度学习模型的鲁棒性优化

    。异常值和噪声可能会误导模型的训练,导致模型在面对新数据时表现不佳。 数据标准化/归一化 :将数据转换到同一尺度上,有助于模型更好地学习数据
    的头像 发表于 11-11 10:25 ?1404次阅读

    鲁棒性在机器学习中的重要性

    金融风险评估。这些应用场景对模型的鲁棒性提出了极高的要求。 鲁棒性的定义 鲁棒性通常被定义为系统在面对不确定性和变化时仍能保持其功能的能力。在机器学习中,这意味着即使输入数据包含错误、
    的头像 发表于 11-11 10:19 ?1456次阅读

    “0元购”智元灵犀X1机器人,软硬件全套图纸和代码公开!资料免费下载!

    、仿真Sim2Sim、Sim2Real代码、强化学习训练代码模型转换、推理工具,和调试工具(数据可视化、遥控器)等等,“一站式”全套图纸和代码
    发表于 10-25 15:20

    AI大模型与深度学习的关系

    AI大模型与深度学习之间存在着密不可分的关系,它们互为促进,相辅相成。以下是对两者关系的介绍: 一、深度学习是AI大模型的基础 技术支撑 :深度学习
    的头像 发表于 10-23 15:25 ?3095次阅读

    AI大模型与传统机器学习的区别

    AI大模型与传统机器学习在多个方面存在显著的区别。以下是对这些区别的介绍: 一、模型规模与复杂度 AI大模型 :通常包含数十亿甚至数万亿的参
    的头像 发表于 10-23 15:01 ?2828次阅读

    构建语音控制机器人 - 线性模型机器学习

    2024-07-31 |Annabel Ng 在该项目的[上一篇博客文章]中,我介绍了运行机器人电机、处理音频信号和调节电压所需的电路的基础知识。然而,机器人还没有完全完成!尽管机器人可以正确移动
    的头像 发表于 10-02 16:31 ?650次阅读
    构建语音控制<b class='flag-5'>机器</b>人 - 线性<b class='flag-5'>模型</b>和<b class='flag-5'>机器</b><b class='flag-5'>学习</b>