0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软DeBERTa登顶SuperGLUE排行榜

深度学习自然语言处理 ? 来源:机器之心 ? 作者:机器之心 ? 2021-02-05 09:25 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在最新的 NLU 测试基准 SuperGLUE 中,微软提出的 DeBERTa 登顶榜单,并超越人类。

去年 6 月,来自微软的研究者提出一种新型预训练语言模型 DeBERTa,该模型使用两种新技术改进了 BERT 和 RoBERTa 模型。8 月,该研究开源了模型代码,并提供预训练模型下载。最近这项研究又取得了新的进展。 微软最近通过训练更大的版本来更新 DeBERTa 模型,该版本由 48 个 Transformer 层组成,带有 15 亿个参数。本次扩大规模带来了极大的性能提升,使得单个 DeBERTa 模型 SuperGLUE 上宏平均(macro-average)得分首次超过人类(89.9 vs 89.8),整体 DeBERTa 模型在 SuperGLUE 基准排名中居于首位,以 90.3 的得分显著高出人类基线(89.8)。目前该模型以 90.8 的宏平均(macro-average)得分高居 GLUE 基准排名的首位。

SuperGLUE 排行榜,2021 年 1 月 6 日。 DeBERTa 是一种基于 Transformer,使用自监督学习在大量原始文本语料库上预训练的神经语言模型。像其他 PLM 一样,DeBERTa 旨在学习通用语言表征,可以适应各种下游 NLU 任务。DeBERTa 使用 3 种新技术改进了之前的 SOTA PLM(例如 BERT、RoBERTa、UniLM),这 3 种技术是:

分解注意力(disentangled attention)机制;

增强型掩码解码器;

一种用于微调的虚拟对抗训练方法。

ee5e6fae-603d-11eb-8b86-12bb97331649.png

DeBERTa 的架构。 最近该研究在 arXiv 上提交了 DeBERTa 的最新论文,文中详细介绍了 DeBERTa 模型的方法及最新的实验结果。

论文链接:https://arxiv.org/pdf/2006.03654v2.pdf 下面我们来详细看一下该模型用到的 3 种新技术。 分解注意力机制 与 BERT 不同,DeBERTa 中每个词使用两个对其内容和位置分别进行编码的向量来表示,使用分解矩阵分别根据词的内容和相对位置来计算词间的注意力权重。采用这种方法是因为:词对的注意力权重(衡量词与词之间的依赖关系强度)不仅取决于它们的内容,还取决于它们的相对位置。例如,「deep」和「learning」这两个词在同一个句子中接连出现时的依赖关系要比它们出现在不同句子中强得多。 增强型掩码解码器 与 BERT 一样,DeBERTa 也使用掩码语言建模(MLM)进行了预训练。DeBERTa 将语境词的内容和位置信息用于 MLM。分解注意力机制已经考虑了语境词的内容和相对位置,但并没有考虑这些词的绝对位置,但这在很多情况下对于预测至关重要。 例如句子「a new store opened beside the new mall」其中,「store」和「mall」在用于预测时被掩码操作。尽管两个词的局部语境相似,但是它们在句子中扮演的句法作用是不同的。(例如,句子的主角是「store」而不是「mall」)。

这些句法上的细微差别在很大程度上取决于词在句子中的绝对位置,因此考虑单词在语言建模过程中的绝对位置是非常重要的。DeBERTa 在 softmax 层之前合并了绝对词位置嵌入,在该模型中,模型根据词内容和位置的聚合语境嵌入对被掩码的词进行解码。 规模不变的微调 虚拟对抗训练是一种提升模型泛化性的正则化方法。它通过提高模型对对抗样本(adversarial examples)的鲁棒性来实现这一点,其中对抗样本是通过对输入进行细微的干扰而创建的。对模型进行正则化,以便在给出一种特定任务样本时,该模型产生的输出分布与在该样本的对抗型干扰版本上产生的输出分布相同。对于 NLU 任务,干扰被用于词嵌入,而不是原始的词序列。

但是,嵌入向量的值范围(范数)在不同的词和模型上有所不同。对于具有数十亿个参数的较大模型,方差会比较大,从而导致对抗训练不稳定性。受层归一化的启发,为了提高训练稳定性,该研究开发了一种规模不变的微调(Scale-Invariant-Fine-Tuning (SiFT))方法,该方法将干扰用于归一化的词嵌入。 实验 该研究用实验及结果评估了 DeBERTa 在 NLU 和 NLG 的各种 NLP 任务上的性能。 在 NLU 任务上的主要结果 受此前 BERT、 RoBERTa 和 XLNet 等论文的影响,该研究使用大型模型和基础模型进行结果展示。 大型模型性能结果如下表所示:

f06a7432-603d-11eb-8b86-12bb97331649.png

表 1:在 GLUE 开发集上的结果对比。 表 1 总结了 8 个 GLUE 任务的结果,其中将 DeBERTa 与具有类似 transformer 结构的一些模型进行了比较,这些模型包括 BERT、 RoBERTa、XLNet、ALBERT 以及 ELECTRA。注意,RoBERTa、 XLNet 以及 ELECTRA 训练数据的大小为 160G,而 DeBERTa 训练数据大小为 78G。 该研究还对 DeBERTa 进行了一些其他的基准评估:

问答:SQuAD v1.1、SQuAD v2.0、RACE、ReCoRD 以及 SWAG;

自然语言推理:MNLI;

命名体识别(NER):CoNLL-2003。

结果如表 2 所示。

f1d2e9ee-603d-11eb-8b86-12bb97331649.png

表 2:在 MNLI in/out-domain、 SQuAD v1.1、 SQuAD v2.0、 RACE、 ReCoRD、 SWAG、 CoNLL 2003 NER 开发集上的结果展示。 基础模型性能比较 基础模型预训练的设置与大型模型的设置类似,基础模型结构遵循 BERT 的基础模型结构,性能评估结果如表 3 所示。

f3227da0-603d-11eb-8b86-12bb97331649.png

表 3:在 MNLI in/out-domain (m/mm)、SQuAD v1.1 和 v2.0 开发集上的结果对比。 生成任务结果比较 该研究在数据集 Wikitext-103 上,进一步对带有自回归语言模型 (ARLM) 的 DeBERTa 模型进行了评估。

f38363ae-603d-11eb-8b86-12bb97331649.png

表 4:在 Wikitext-103 数据集上,不同语言模型对比结果。 DeBERTa_base 在开发集和测试集上都获得了比较好的 PPL 结果,MLM 和 ARLM 联合训练进一步降低了 PPL,这展示了 DeBERTa 的有效性。 模型分析 消融实验:为了验证实验设置,该研究从头开始预训练 RoBERTa 基础模型。并将重新预训练的 RoBERTa 称为 RoBERTa-ReImp_base。为了研究 DeBERTa 模型不同部分对性能的影响,研究人员设计了三种变体:

EMD 表示没有 EMD 的 DeBERTa 基础模型;

C2P 表示没有内容到位置 term 的 DeBERTa 基础模型;

P2C 表示没有位置到内容 term 的 DeBERTa 基础模型。由于 XLNet 也使用了相对位置偏差,所以该模型与 XLNet + EMD 模型比较接近。

f3edd4fa-603d-11eb-8b86-12bb97331649.png

表 5 总结了 DeBERTa 基础模型消融实验在四个基准数据集上的结果。 预训练效率 为了研究模型预训练的收敛性,该研究以预训练 step 数的函数的形式可视化微调下游任务的性能,如图 1 所示,对于 RoBERTa ReImp 基础模型和 DeBERTa 基础模型,该研究每 150K 个预训练 step 存储一个检查点,然后对两个有代表性的下游任务(MNLI 和 SQuAD v2.0)上的检查点进行微调,之后分别报告准确率和 F1 得分。

f5715fcc-603d-11eb-8b86-12bb97331649.png

图 1:DeBERTa 及其相似模型在 MNLI 、 SQuAD v2.0 开发集上的预训练性能曲线。 扩展至 15 亿参数 更大的预训练模型会显示出更好的泛化结果。因此,该研究建立了一个拥有 15 亿个参数的 DeBERTa,表示为 DeBERTa_1.5B,该模型有 48 层。在 160G 预训练数据集上训练 DeBERTa_1.5B,并且使用数据集构造了一个大小为 128K 的新词汇表。

f6a34504-603d-11eb-8b86-12bb97331649.png

表 6:DeBERTa_1.5B 和其他几种模型在 SuperGLUE 测试集上的结果。

原文标题:NLU新里程碑,微软DeBERTa登顶SuperGLUE排行榜,显著超越人类

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6690

    浏览量

    105969
  • 神经网络
    +关注

    关注

    42

    文章

    4814

    浏览量

    104081

原文标题:NLU新里程碑,微软DeBERTa登顶SuperGLUE排行榜,显著超越人类

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    软通动力荣登2025金融科技创新排行榜

    近日,DBC德本咨询“2025金融科技创新排行榜”正式发布,软通动力凭借在金融领域全栈智能化的创新实践,荣列榜单TOP3,这一荣誉不仅是对软通动力在金融科技领域深耕成果的高度认可,更凸显了其在推动行业智能化转型进程中的先行者地位。
    的头像 发表于 08-01 17:51 ?711次阅读

    天合光能荣登全球钙钛矿太阳能电池专利排行榜第一

    今日,全球知名知识产权综合信息服务提供商IPRdaily发布了《全球太阳能电池及组件发明专利排行榜(TOP50)》《全球钙钛矿太阳能电池发明专利排行榜(TOP30)》和《全球TOPCon太阳能电池
    的头像 发表于 04-22 17:54 ?580次阅读

    锐成芯微荣登2025中国IC设计Fabless100排行榜之TOP10 IP公司

    近日,国际电子技术领域头部媒体AspenCore发布了《2025中国IC设计Fabless100排行榜》,锐成芯微凭借自主创新实力、技术生态布局及行业贡献,再度荣登“TOP10 IP公司”榜单!
    的头像 发表于 03-31 17:49 ?899次阅读

    墨芯荣登2025中国IC设计Fabless100排行榜之TOP10 AI芯片公司

    国际电子技术领域头部媒体AspenCore近日公布了最新2025 China Fabless 100排行榜。墨芯人工智能继去年成功上榜之后,再次凭借其出色的技术实力和市场表现,荣膺Top 10 AI芯片公司。
    的头像 发表于 03-31 15:18 ?1158次阅读

    润石科技荣登2025中国IC设计Fabless 100排行榜之TOP10模拟信号链公司

    润石科技作为国内高性能、高品质模拟/混合信号集成电路研发和销售的高科技半导体设计公司已经连续三年入选China Fabless100排行榜Top10 模拟信号链公司,充分表明了润石科技在模拟信号链市场领域的技术实力与竞争优势,并得到了业界的广泛认可。
    的头像 发表于 03-31 14:13 ?801次阅读

    博泰车联网荣登“2024年度中国超级独角兽排行榜”TOP50

    近日,备受瞩目的铅笔道?真“2024年度中国超级独角兽排行榜”正式发布,该榜单旨在挖掘和表彰在中国市场上具有卓越创新能力、强劲市场表现以及广阔发展前景的独角兽企业。在众多优秀企业中,博泰车联网凭借
    的头像 发表于 01-21 16:38 ?920次阅读

    博泰车联网荣登2024年度中国超级独角兽排行榜

    日前,铅笔道?真“2024年度中国超级独角兽排行榜”正式发布,博泰车联网凭借卓越的创新能力、强劲的市场表现以及广阔的发展前景,成功入选排行榜TOP50,彰显了其在车联网领域的领先实力。
    的头像 发表于 01-20 17:24 ?1195次阅读

    京东方位列2024 IFI专利授权排行榜全球第12位

    近日,全球权威专利服务机构IFI Claims发布的2024年度统计报告显示,BOE(京东方)位列美国专利授权排行榜全球第12位,连续第七年跻身全球TOP20,不仅成为TOP20中仅有的两家中国大陆企业之一,也是半导体显示领域唯一一家中国企业。
    的头像 发表于 01-15 11:45 ?717次阅读

    安全光栅十大品牌排行榜最新2025年

    想知道安全光栅十大品牌排行榜最新2025年?根据最新的专业评测和信息汇总,以下是2025年安全光栅十大品牌排行榜:1.骁锐XAORI成立时间:2008年品牌指数:95.8特点:在安全光栅领域国内国际
    的头像 发表于 01-07 17:47 ?2099次阅读
    安全光栅十大品牌<b class='flag-5'>排行榜</b>最新2025年

    腾讯混元文生图登顶智源FlagEval评测榜首

    近日,北京智源人工智能研究院(BAAI)发布了最新的FlagEval大模型评测排行榜,其中多模态模型评测榜单的文生图模型引起了广泛关注。结果显示,腾讯混元的文生图能力在此次评测中表现出色,成功登顶
    的头像 发表于 12-25 10:06 ?890次阅读

    润和软件荣登2024智慧金融企业排行榜

    近日,DBC德本咨询发布“2024人工智能分类排行榜”,江苏润和软件股份有限公司(以下简称“润和软件”)凭借在金融领域的深厚技术实力和创新应用,入选技术与应用层中“2024智慧金融企业排行”榜单。
    的头像 发表于 11-13 16:12 ?865次阅读

    2024年色标传感器品牌排行榜前十名最新

    关于2024年色标传感器品牌排行榜前十名最新,由于不同时间、不同评选机构和不同评价标准可能会产生不同的排名结果,因此很难给出一个绝对准确且固定的排名。不过,我可以根据当前市场上较为知名和受欢迎的色标
    的头像 发表于 09-09 14:45 ?2253次阅读
    2024年色标传感器品牌<b class='flag-5'>排行榜</b>前十名最新

    调用云数据库更新排行榜

    内容,并能够向朋友或群体推荐特定的项目。 需求功能模块 主题选择:用户可以选择不同的主题(如“电影”、“音乐”、“书籍”等)。 排行榜展示: 显示每个主题下的排行榜(如TOP 10电影、TOP 5推荐书
    发表于 09-03 16:03

    2024年激光位移传感器品牌排行榜前十最新名单

    关于2024年激光位移传感器品牌排行榜前十最新名单,由于市场上品牌众多且竞争激烈,具体的排名可能会因时间、市场变化及评价标准的不同而有所差异。以下是根据当前2024年可获得的信息,结合市场表现
    的头像 发表于 09-03 14:49 ?3232次阅读
    2024年激光位移传感器品牌<b class='flag-5'>排行榜</b>前十最新名单

    IBM入选2024世界物联网500强排行榜

    近日,世界物联网 500强峰会在北京成功举行。本次峰会围绕“智联世界 共赢未来”主题,举行了开幕式、500强企业论坛、国际合作论坛、发布 2024世界物联网 500强排行榜等活动。IBM 大中华区
    的头像 发表于 08-16 11:19 ?2036次阅读