0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里安全研究发布AI安全诊断大师,对恶意攻击进行过滤降低安全风险

牵手一起梦 ? 来源:AI科技大本营 ? 作者:佚名 ? 2020-05-08 14:19 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如同一些出生免疫力就有缺陷的人一样,AI也存在免疫力缺陷。基于从源头打造安全免疫力的新一代安全架构理念,最近,阿里安全研究发布了一项核心技术“AI安全诊断大师”,可对AI模型全面体检,“看诊开方”,让AI模型出生就自带增强型免疫力,抵御安全威胁。“AI安全诊断大师”包括一款对AI模型安全性进行评估和提升防御能力的工具箱,对多个云上算法接口进行安全性测试后,还沉淀出一套在实际生产中能对恶意攻击进行过滤,降低安全风险的AI防火墙系统。

中国科学院计算技术研究所副研究员王树徽认为,在数字基建当中,人工智能技术的安全问题关乎到整个信息经济基础设施的安全,已越来越受到社会各界的关注。虽然近年来针对人工智能安全的理论研究取得了一些进展,但在实际应用方面,仍然没有切实可行的落地成果提高真实场景下人工智能系统的鲁棒性。

“阿里安全团队提出了新一代安全架构及相关核心技术,正是针对数字基建中的人工智能安全问题进行的一次体系化探索和创新。”王树徽说。

“AI安全诊断大师”能干什么

AI在安全性上存在的问题来源于机器感知和人类感知的区别,人类感知是全局的,同时具备底层局部特征和高层语义特征的感知和认知能力,对于图像或者文本在某些局部区域的微小扰动能够有很高的容忍度,不易收到干扰。

科研实验结果表明,目前主流的AI模型则对局部的微小扰动可能会很敏感,一些细微不可见的改动就可以引起算法输出结果上的巨大误差,这种针对AI模型产生的特定扰动被称为对抗样本。自从2014年对抗样本被提出后,越来越多的研究人员通过实验发现,面向图像、语音、文本等载体的分类、检测、检索等模型都会受到对抗样本的攻击。

对抗样本攻击产生的后果可能是非常严重的。在互联网内容业务中,有些恶意行为可能通过上传对抗样本以规避算法检测或者绕开机器监管,导致不良信息泛滥。或者通过佩戴经过特定设计、有对抗攻击能力的眼镜等物体,导致在手机解锁、线下安防等领域误导AI系统,引发事故或者损失。

车辆的辅助驾驶和自动驾驶系统也可能会因AI技术的安全缺陷丧失识别交通指示牌的能力,成为“没有视觉系统”的汽车,从而给出错误的决策,遇到大型障碍物时“看不到”停车标志,威胁人身和财产安全;

据阿里安全图灵实验室高级算法专家华棠介绍,“AI安全诊断大师”可针对AI本身的安全问题,提供全方位的安全性能评估服务和定制化的防御提升方案。通过测试和发现算法可能出错的某些特殊情形,给出有针对性的模型防御增强建议。

值得注意的是,“安全诊断”看得见。这种“安全诊断”能给出诊断的综合分数、单项分数,并将安全威胁展示出来。“AI安全诊断大师”提供了模型安全性可视化分析结果,将模型的损失曲面相对不同方向的扰动量以二维及三维图例来呈现出来。

下图可以直观地看出AI模型面对扰动下的安全性,或者对不同模型进行安全性对比,曲面越平缓的算法对恶意攻击更加鲁棒,安全性更强。下图是模型输出loss与扰动的对应关系,其中横轴是随机扰动,纵轴是对抗扰动,可以看出在随机扰动方向上不断加大噪声强度,但loss变化趋势平缓,表明模型对随机扰动具备一定的鲁棒性。而在对抗扰动方向上加大噪声强度可能导致loss急剧加大,导致模型输出结果发生变化,攻击成功。

目前研究人员已经提出了不少对抗样本攻击方法,不同模型对于不同的攻击算法的防御能力表现也会不一样,因此对AI模型进行安全评估时,需要针对各种攻击算法进行独立评估,同时也有必要综合多个评估结果给出整体结论。

为此,“AI安全诊断大师”集成了目前业界常见的攻击算法,同时也在不断补充这一集合。对于目标模型,基于每种算法都能给出扰动量-识别率曲线以评估模型面对该算法攻击下的防御性能,综合了各种算法和各扰动量下的识别率给出最终安全性评估分值。

以下是“AI安全诊断大师”分别处于Resnet50和VGG16中,在不同攻击下的鲁棒性表现。横轴是扰动的噪声强度,纵轴是模型识别准确率,每一条实曲线表示一种攻击方法,可以看出使用相同攻击方法时扰动强度越大则攻击成功率越高,导致模型识别准确率下降越多;而虚线是在每一个扰动强度下多种攻击方法下模型识别准确率的最小值组成的,表示模型在该扰动强度下的最低防御能力。因此,曲线下的面积可用于评估模型在各攻击方法和综合方法下的鲁棒性。

除了对模型进行面对白盒攻击的安全评估之外,它还可以提供黑盒攻击实验并进行安全评估。就好比对于那些不方便“面诊”的“患者”,只能提供API接口的AI服务,“AI安全诊断大师”提供了多种黑盒查询攻击和迁移攻击的手段,只需要调用接口即可评测服务的安全性。

对于模型的安全性能评估不是最终目标。“AI安全诊断大师”检测出算法服务的潜在安全风险后,还会提供针对恶意攻击的防火墙功能,通过算法对不同种类攻击的脆弱性程度,定制化提出防御升级的方案。

下图是通过黑盒迁移攻击针对多个算法API进行实验后,绘制的成功率直方图报告。图中左侧部分是在输入样本中添加不同的随机噪声后,导致算法输出结果出错的比例,在大部分情况下各API都具备了较高的鲁棒性,右侧则是使用不同的对抗样本生成方法进行的攻击,其中白盒攻击成功率最高,而黑盒攻击下各API之间的成功率差别就非常明显了,也表示它们所用的模型在安全性上的差距。

“将多种攻击检测和对抗防御方法作为附加模块,可为AI模型部署前置服务,在不修改原模型的基础上,提升模型对于对抗样本攻击的防御性能,降低用户使用成本和风险。经过在色情、暴恐、敏感图像识别等多种内容安全服务上的测试,‘AI安全诊断大师’可将模型对外部攻击的有效防御能力整体提升40%以上。”华棠说。

王树徽评价:“阿里安全从整体层面考虑了人工智能安全的架构性漏洞,提出了‘安全基建’的构想和技术系统。在关键技术层面,集成了最新的AI攻防技术,充分考虑了人工智能安全攻防两端的应用需求,分析结果可解释性强,易于理解并指导实践。在实用层面,提供了一套切实可行、即插即用的解决方案,定制化提出防御升级方案,帮助广大人工智能技术实践者有效提高其算法系统的免疫力和安全水平。此外,阿里安全的新一代安全架构的应用成果也有望促进人工智能技术的发展和进步,为新一代人工智能的理论方法研究提供了支持。”

目前阿里安全正在与相关部门、高校、企业一起参与人工智能安全标准的制定,“AI安全诊断大师”作为优秀应用案例被收录于全国信息标准化技术委员会打造的《人工智能安全标准化白皮书(2019版)》。

对AI攻防的探索

除了尝试将模型攻击防御技术在实际算法服务场景上落地,阿里安全图灵实验室的工程师也在坚持研发新技术推动AI安全更好地服务实际应用。

在攻击方面,他们提出一种针对k近邻分类器的攻击方法,k近邻分类器作为无参模型,不会回传梯度,也就无法提供信息用于对抗样本的生成。为了攻击这样的模型,研究者们设计了一种新的策略,提出了深度k近邻区块(DkNNB),用于估计k近邻算法的输出。具体的,提取深度分类模型某层特征,使用k近邻方法可以获得其最近的k个邻居,并统计这些邻居的标签分布,以每类出现概率分布作为最终的优化目标,来优化DkNNB参数。

在防御方面,他们提出了一种基于Transformer的对抗样本检测方法,改进了传统对抗样本检测方法只能检测特定攻击,难以泛化到其他攻击的缺陷。新的对抗样本检测方法通过自适应的学习样本在特征空间中与其k近邻个样本特征之间的关联,得到比传统用特征空间人工距离度量来分类,更加泛化通用的检测器。该方法面向更加实际场景的对抗攻击检测,目前已在某些内部场景中测试使用。

另外,阿里安全图灵实验室的研究者发现,自监督模型在对抗样本上的具有的天然防御能力,以此为基础,提出了一种新的基于自监督模型的对抗训练方法,进一步提升了模型的防御能力,以上两个工作即将在线上举办的ICASSP 2020学术会议发表。

不久前,阿里安全还发布了一个高效打造AI深度模型的“AI训练师助手”,让AI训练模型面对新场景时不用从头学习,直接从已经存在的模型上迁移,迅速获得别人的知识、能力,成为全新的AI模型,将模型打造周期从一个月缩短为一天。

搭建AI安全研究者社区

为了让AI对抗研究进展更快,阿里安全图灵实验室正在搭建对抗攻防研究者社区,联合天池承办一系列AI对抗攻防竞赛,并面向顶尖高校企业进行推广,吸引了大批高水平的选手。已举办的比赛覆盖了从ImageNet图像分类、淘宝类目识别、人脸识别等多个场景。

阿里安全图灵实验室的工程师们开发了完整的后台评估框架,可以评测包含白盒/黑盒攻击、有目标/无目标攻击、模型防御等多种攻防场景。

华棠表示,从已经成功举办的比赛看,多种外部选手提供的攻击或者防御策略,为发现更多实际场景中AI算法的潜在威胁,并针对这些威胁开发鲁棒模型提供了参考。

阿里安全图灵实验室在2019年上半年成功举办了阿里巴巴首个AI对抗算法竞赛,以淘宝宝贝主图图像类目分类预测作为场景,公开了11万张,110个类的淘宝商品图像数据集,包含服装、鞋子、生活家居用品等类目。

比赛通过无目标攻击,有目标攻击和防御三个赛道进行,吸引了2500支高校队伍参加。推动了AI安全领域被更多人知晓,并打造了AI对抗样本研究者社区,促进交流的同时,也让更多感兴趣的人加入到其中来。

随后,阿里安全图灵实验室联合清华大学举办安全AI挑战者计划系列赛,探索在现实场景中,对抗攻击的可行性。为了模拟最真实的黑盒场景,这个系列赛并不公开后台算法,也禁止选手大量query后台模型。第一季的安全AI挑战者计划分为三期,场景分别为人脸识别,ImageNet图像分类,以及文本分类。现在,第一季的安全AI挑战者计划已经结束,选手们参赛的同时也体验了真实场景中AI安全攻防的复杂性。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    88

    文章

    35758

    浏览量

    282456
  • 阿里
    +关注

    关注

    6

    文章

    456

    浏览量

    33419
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI 赋能企业安全生产:构筑智能防线,守护生产安全

    AI 技术的赋能下,企业安全生产正迈向一个全新的阶段。通过智能风险识别、高效隐患处理以及典型解决方案的应用,企业能够有效提升安全生产水平,降低
    的头像 发表于 08-06 11:48 ?159次阅读
    <b class='flag-5'>AI</b> 赋能企业<b class='flag-5'>安全</b>生产:构筑智能防线,守护生产<b class='flag-5'>安全</b>

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    、DDoS攻击迹象、性能劣化趋势。l 智能推送优化建议(如流量调度策略调整、安全规则预加载),将风险扼杀在萌芽状态。 方案价值:AI推理引擎带来的运维变革 信而泰融合DeepSeek
    发表于 07-16 15:29

    AI应用的“安全锁”:安全闪存技术在满足行业认证中的作用

    全面审视并应对网络攻击威胁,在确保AI应用持续稳定运行的同时保障其安全性。数据投毒、分类模型篡改、后门注入攻击以及AI模型逆向工程,这些仅仅
    发表于 07-15 10:51 ?933次阅读

    AI安全风险监测:构筑智能时代的“数字免疫系统”

    AI技术飞速渗透各行业核心领域的当下,其伴生的安全风险已不再是理论推演,而是悬在数字化转型头顶的达摩克利斯之剑。数据泄露、算法偏见、模型窃取、恶意滥用等威胁层出不穷。在此背景下,
    的头像 发表于 06-25 16:29 ?225次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>安全</b><b class='flag-5'>风险</b>监测:构筑智能时代的“数字免疫系统”

    万里红入选安全大模型及Agentic AI赋能网络安全代表性厂商

    近日,专注于网络安全和数字风险管理的第三方研究机构安全牛,正式发布了《Agentic AI
    的头像 发表于 04-30 14:19 ?557次阅读

    直流充电安全测试负载方案解析

    液冷系统:冷却功率密度达5kW/L,维持设备在-30℃~55℃环境稳定运行 智能诊断系统 基于AI的故障树分析:自动定位保护失效原因 测试数据区块链存证:确保安全测试过程可追溯
    发表于 03-13 14:38

    大语言模型在军事应用中的安全性考量

    和缺乏透明度。这些危险无疑让人们对在军队中使用 LLM 是否合适产生了疑问。 迄今为止,安全专家主要从传统法律或网络安全的角度来关注这种新型人工智能技术的风险。在这方面,防护栏可防止 LLM 生成
    的头像 发表于 02-09 10:30 ?522次阅读

    DHCP在企业网的部署及安全防范

    服务器获取网络配置信息。 安全防范措施 防止假冒 DHCP 服务器: 使用 DHCP Snooping:在网络设备上启用 DHCP Snooping 功能,该功能可以对进入网络的 DHCP 报文进行
    发表于 01-16 11:27

    华为助力城市安全风险监测预警升级

    应急管理部研究中心联合华为、正元地理信息集团、广联达科技等公司编制的《城市安全风险监测预警》指导书籍在上海华为全联接大会(HC2024)期间正式发布
    的头像 发表于 01-07 14:00 ?863次阅读
    华为助力城市<b class='flag-5'>安全</b><b class='flag-5'>风险</b>监测预警升级

    芯盾时代的“AI+安全”之道

    近日,全球领先的IT市场研究和咨询公司IDC发布《生成式AI推动下的中国网络安全软件市场现状和技术发展趋势,2024》报告(以下简称《报告》),评估众多厂商
    的头像 发表于 11-21 10:47 ?811次阅读

    蓝牙AES+RNG如何保障物联网信息安全

    标准,主要用于保护电子数据的安全。AES 支持128、192、和256位密钥长度,其中AES-128是最常用的一种,它使用128位(16字节)的密钥进行加密和解密操作。AES属于分组密码,每次操作
    发表于 11-08 15:38

    AI即服务平台的安全性分析

    AIaaS平台降低AI应用门槛,但面临数据泄露、恶意攻击安全威胁。需加强数据加密、访问控制、模型加固、供应链
    的头像 发表于 11-07 09:32 ?562次阅读

    IBM发布最新云威胁态势报告:凭证盗窃仍是主要攻击手段,企业亟需强健的云安全框架

    通过实施整体方法来保护云安全,包括保护数据、采用身份和访问管理 (IAM) 策略、主动管理风险,以及随时准备好应对云事件,企业有备无患地保护其云基础架构和服务,并降低基于凭证的攻击所带
    的头像 发表于 10-11 09:18 ?1070次阅读
    IBM<b class='flag-5'>发布</b>最新云威胁态势报告:凭证盗窃仍是主要<b class='flag-5'>攻击</b>手段,企业亟需强健的云<b class='flag-5'>安全</b>框架

    如何使用 IOTA?分析安全漏洞的连接尝试

    在当今数字化世界中,网络安全变得至关重要。本文将探讨如何利用流量数据分析工具来发现和阻止安全漏洞和恶意连接。通过分析 IOTA 流量,您可以了解如何识别不当行为,并采取适当的措施来保护您的网络和数据。我们将深入
    的头像 发表于 09-29 10:19 ?556次阅读
    如何使用 IOTA?分析<b class='flag-5'>安全</b>漏洞的连接尝试

    IP风险画像如何维护网络安全

    的重要工具。 什么是IP风险画像? IP风险画像是一种基于大数据分析和机器学习技术的网络安全管理工具。它通过对IP地址的网络行为、流量特征、历史记录等多维度数据进行深入分析,构建出每个
    的头像 发表于 09-04 14:43 ?651次阅读