0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在BERT中引入知识图谱中信息

深度学习自然语言处理 ? 来源:深度学习自然语言处理 ? 作者:深度学习自然语言 ? 2020-11-03 17:52 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引言

随着BERT等预训练模型横空出世,NLP方向迎来了一波革命,预训练模型在各类任务上均取得了惊人的成绩。随着各类预训练任务层出不穷,也有部分研究者考虑如何在BERT这一类模型中引入或者强化知识图谱中包含的信息,进而增强BERT对背景知识或常识信息的编码能力。本文主要关注于如何在BERT中引入知识图谱中信息,并survey了目前已公布的若干种方法,欢迎大家批评和交流。

ERNIE: Enhanced Language Representation with Informative Entities

论文链接:https://www.aclweb.org/anthology/P19-1139.pdf

这篇论文来自于清华刘知远老师和华为刘群老师,已被ACL2019所录取,是较早的考虑将知识引入预训练模型的论文。

该论文主要利用了从知识库中提出的高信息量的实体信息,通过特殊的语义融合模块,来增强文本中对应的表示。首先本文通过实体链接算法,将Wikipedia文本中包含的实体与Wikidata中的实体库构建关联,然后采用TransE算法,对Wikidata中的实体embedding进行预训练,进而得到其初始的表示;之后本文采用一个特殊的信息融合结构,其模型框架如下图所示:

从图中可以看出,ERNIE的框架分为以下两部分,T-Encoder和K-Encoder,以上两部分均使用BERT的Transformer框架,并利用其中的参数进行初始化。其中Wikipedia中的每一句话首先被输入给T-Encoder,其通过Transformer的多头注意力机制对文本中的信息进行编码;之后输出的表示与其内部包含的实体被一起输入给了K-Encoder,其内部包含两个多头注意力层以分别对文本信息和实体信息进行编码;编码后实体信息会得到两种表示——词级别和实体级别的表示,ERNIE通过将两种信息concat之后输入给DNN层,进而融合得到知识增强的表示;为进一步促进该部分融合,ERNIE采用一个denoising entity auto-encoder (dEA)来对该部分进行监督,其采用类似于BERT中的Mask机制,基于一定的概率对其中的实体进行mask或替换,然后还原该部分实体信息。

在采用以上过程预训练后,本文将ERNIE在多个NLP任务上进行微调,并在多个数据集上获得了State-of-the-art的结果。

K-BERT: Enabling Language Representation with Knowledge Graph

论文链接:https://arxiv.org/pdf/1909.07606v1.pdf

这篇论文来自于北大和腾讯,已被AAAI2020所录取,是较早的考虑将知识图谱中的边关系引入预训练模型的论文。

该论文主要通过修改Transformer中的attention机制,通过特殊的mask方法将知识图谱中的相关边考虑到编码过程中,进而增强预训练模型的效果。首先本文利用CN-DBpedia、HowNet和MedicalKG作为领域内知识图谱,对每一个句子中包含的实体抽取其相关的三元组,这里的三元组被看作是一个短句(首实体,关系,尾实体),与原始的句子合并一起输入给Transformer模型;针对该方法,本文采用基于可见矩阵的mask机制,如下图所示:

从图中可以看出,输入的句子增加了许多三元组构成的短句,在每次编码时针对每一个词,模型通过可视矩阵(0-1变量)来控制该词的视野,使其计算得到的attention分布不会涵盖与其无关的词,进而模拟一个句子树的场景;由于该策略仅仅改动了mask策略,故其可以支持BERT,RoBERTa等一系列模型;该方法最终在8个开放域任务和4个特定领域任务下取得了一定的提升。

KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

论文链接:https://arxiv.org/pdf/1911.06136.pdf

这篇论文来源于清华和Mila实验室,其主要关注于如何使用BERT增强知识图谱embedding,并帮助增强对应的表示。

该论文主要通过添加类似于TransE的预训练机制来增强对应文本的表示,进而增强预训练模型在一些知识图谱有关任务的效果。首先本文基于Wikipedia和Wikidata数据集,将每个entity与对应的维基百科描述相链接,则每个entity均获得其对应的文本描述信息;之后对于每一个三元组——<头实体,关系,尾实体>,本文采用基于BERT对encoder利用entity的描述信息,对每个实体进行编码,如下图所示:

从图中可以看出,在通过encoder得到头实体和尾实体对应的表示之后,本文采用类似于TransE的训练方法,即基于头实体和关系预测尾实体;此外本文还采用BERT经典的MLM损失函数,并使用RoBERTa的原始参数进行初始化;最终本文提出的方法在知识图谱补全和若干NLP任务上均带来了增益。

CoLAKE: Contextualized Language and Knowledge Embedding

论文链接:https://arxiv.org/pdf/2010.00309.pdf

这篇论文来源于复旦和亚马逊,其主要关注于如何使用知识图谱以增强预训练模型的效果。

本文首先将上下文看作全连接图,并根据句子中的实体在KG上抽取子图,通过两个图中共现的实体将全连接图和KG子图融合起来;然后本文将该图转化为序列,使用Transformer进行预训练,并在训练时采用特殊的type embedding来表示实体、词语与其他子图信息,如下图所示:

最终本文将文本上下文和知识上下文一起用MLM进行预训练,将mask的范围推广到word、entity和relation;为训练该模型,本文采用cpu-gpu混合训练策略结合负采样机制减少训练时间;最终本文提出的方法在知识图谱补全和若干NLP任务上均带来了增益。

Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning

论文链接:https://arxiv.org/pdf/2004.14224.pdf

这篇论文来源于悉尼科技大学和微软,其主要关注于如何使用知识图谱增强预训练模型。

本文思路比较简洁,其提出了一个基于entity的mask机制,结合一定的负采样机制来增强模型。首先对于输入的每一句话,本文首先进行实体链接工作,得到其中的entity,并从知识图谱conceptnet和freebase中召回其邻接的三元组;本文利用一个特殊的权重,防止在mask时关注于句子中过于简单和过于难的entity,这样模型在entity-level MLM训练时就关注于较为适合学习的信息;此外本文还引入了基于知识图谱的负采样机制,其利用relation来选择高质量的负例,以进一步帮助训练;最终本文提出的方法在知识图谱补全和若干NLP任务上均带来了增益。

K-ADAPTER: Infusing Knowledge into Pre-Trained Models with Adapters

论文链接:https://arxiv.org/pdf/2002.01808v3.pdf

这篇论文来源于复旦和微软,其考虑自适应的让BERT与知识相融合。

这篇论文考虑如何通过不同的特殊下游任务来帮助向预训练模型融入任务相关的知识。首先本文针对不同的预训练任务,定义了对应的adapter;在针对具体的下游任务进行fine-tune时,可以采用不同的adapter来针对性的加入特征,进而增强其效果;如下图所示:

基于该思想,本文提出了两种特殊的adapter,分别利用factor knowledge和linguistic knowledge;针对这两个adapter,本文提出了针对entity之间的关系分类任务和基于依存关系的分类任务;再fine-tune阶段,两个adapter得到的特征可以与BERT或RoBERTa得到的特征一起拼接来进行预测,该策略在三个知识驱动数据集上均取得了较大增益。

Integrating Graph Contextualized Knowledge into Pre-trained Language Models

论文链接:https://arxiv.org/pdf/1912.00147.pdf

这篇论文来自于华为和中科大,其主要关注于如何将上下文有关的知识信息加入到预训练模型里。

这篇论文的思想类似于graph-BERT和K-BERT,其针对给出文本首先检索返回相关的entity三元组,再在知识图谱上搜集其相邻的节点以构成子图;然后将该子图转换成序列的形式,输入给传统的Transformer模型(类似graph-BERT),通过特殊的mask来约束注意力在相邻节点上(K-BERT);最后用类似于ERNIE的策略将子图中的信息加入到Transformer中;最终该模型在下游的几个医疗相关数据集上取得了增益。

JAKET: Joint Pre-training of Knowledge Graph and Language Understanding

论文链接:https://arxiv.org/pdf/2010.00796.pdf

这篇论文来自于CMU和微软,其主要关注于如何同时对知识图谱和语言模型一起预训练。

本文使用RoBERTa作为语言模型对文本进行编码,增加了relation信息的graph attention模型来对知识图谱进行编码;由于文本和知识图谱的交集在于其中共有的若干entity,本文采用一种交替训练的方式来帮助融合两部分的知识,如下图所示:

可以看出,语言模型得到的信息会首先对输入文本以及entity/relation的描述信息进行编码,以得到对应的表示;之后语言模型得到的entity embedding会被送给R-GAT模型以聚合邻居节点的信息,以得到更强的entity表示;然后该部分信息会被输入给语言模型继续融合并编码,以得到强化的文本表示信息;为了训练该模型,本文还采用embedding memory机制来控制训练时梯度的更新频率和优化目标的权重,并提出四种特殊的损失函数来进行预训练;最终本文提出的模型在多个知识驱动的下游任务均取得较好效果。

责任编辑:xj

原文标题:BERT meet Knowledge Graph:预训练模型与知识图谱相结合的研究进展

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5570

    浏览量

    123101
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    8067
  • 训练模型
    +关注

    关注

    1

    文章

    37

    浏览量

    3985

原文标题:BERT meet Knowledge Graph:预训练模型与知识图谱相结合的研究进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    软国际入选中国信通院AI Agent智能体产业图谱1.0

    近日,中国信息通信研究院(以下简称“中国信通院”)《AI Agent智能体产业图谱1.0》正式发布。该图谱是国内系统性梳理智能体产业生态的重要成果,聚焦“基础底座、智能体平台、场景智能体与行业智能体
    的头像 发表于 07-14 14:55 ?718次阅读

    家电电路识图自学手册

    家电电路识图自学手册
    发表于 07-11 15:49 ?3次下载

    轻轻松松学电工(识图篇)

    内容介绍 结合广大电工人员的实际需要,主要介绍了常用电工电路识图的基础知识、方法及技巧,内容包括常用电气符号、电工识图基本方法,以及识读供配电系统图、建筑电气图、电力拖动系统电气图、PLC梯形图
    发表于 04-30 17:18

    典型电路原理、电路识图从入门到精通等资料

    1、电路识图从入门到精通高清电子资料 由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,通过“入门篇”和“精通篇”循序渐进、由浅入深地介绍了电路图的基础知识、典型单元电路的
    的头像 发表于 04-15 15:53 ?9651次阅读
    典型电路原理、电路<b class='flag-5'>识图</b>从入门到精通等资料

    电路识图从入门到精通高清电子资料

    由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,通过“入门篇”和“精通篇”循序渐进、由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,以及典型小家电、电动车、洗衣机、
    发表于 04-10 16:22

    格陆博科技荣登投中信息2024年度锐公司100榜单

    近日,投中信息重磅发布2024年度“锐公司100榜单”,格陆博科技凭借在智能驾驶领域的突出表现和强劲发展势头,再度成功入选!这也是格陆博科技连续第二年获此殊荣!
    的头像 发表于 03-18 14:24 ?513次阅读

    渊亭KGAG升级引入“高级策略推理”

    为了突破现有AI技术在决策推理方面的局限,渊亭科技对其知识图谱分析平台KGAG进行了最新升级,创新性地引入了“高级策略推理”模式。这一模式的引入,实现了“大模型×知识图谱×专家策略×动
    的头像 发表于 02-14 15:07 ?627次阅读

    微软发布《GraphRAG实践应用白皮书》助力开发者

    近日,微软针对开发者群体,重磅推出了《GraphRAG实践应用白皮书》。该白皮书全面而深入地涵盖了知识图谱的核心内容,为开发者和企业提供了宝贵的指导和启示。 从知识图谱的基础概念出发,白皮书详细阐述
    的头像 发表于 01-13 16:11 ?1091次阅读

    微软重磅推出《GraphRAG实践应用白皮书》

    和应用知识,则成为企业提升决策效率、增强业务创新力、在市场竞争抢占先机的关键所在。其中,知识图谱作为一项强大的语义网络技术,以其清晰呈现复杂知识关系的优势,为企业的数据处理和智能应用
    的头像 发表于 01-13 15:20 ?1193次阅读

    利智方:驱动企业知识管理与AI创新加速的平台

    利智方致力于深度整合企业知识资产,全面打通知识生命周期的各个环节。通过构建强大的知识库和精准的知识图谱,支持快速定制和部署各类AI应用,为企业创新发展提供坚实的技术支撑。可多维度提升企
    的头像 发表于 12-30 11:07 ?1038次阅读

    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”一等奖

    和华东师范大学联合申报的“跨语言知识图谱构建与推理技术研究及应用”项目凭借创新性和技术先进性荣获一等奖。该项目成功突破了多形态信息抽取技术、跨语言知识图谱对齐技术和知识问答对
    的头像 发表于 12-16 17:04 ?720次阅读
    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”一等奖

    传音旗下小语种AI技术荣获2024年“上海产学研合作优秀项目奖”一等奖

    和华东师范大学联合申报的“跨语言知识图谱构建与推理技术研究及应用”项目凭借创新性和技术先进性荣获一等奖。 该项目成功突破了多形态信息抽取技术、跨语言知识图谱对齐技术和知识问答对话技术,
    的头像 发表于 12-16 16:21 ?894次阅读
    传音旗下小语种AI技术荣获2024年“上海产学研合作优秀项目奖”一等奖

    三星自主研发知识图谱技术,强化Galaxy AI用户体验与数据安全

    据外媒11月7日报道,三星电子全球AI中心总监Kim Dae-hyun近日透露,公司正致力于自主研发知识图谱技术,旨在进一步优化Galaxy AI的功能,提升其易用性,并加强用户数据的隐私保护。
    的头像 发表于 11-07 15:19 ?1464次阅读

    易智瑞荣获“信息技术应用创新工作委员会技术活动单位”

    布的GeoScene V4.1在自主创新方面的新特性、新能力,重点展示GeoScene V4.1在三维、人工智能、影像、知识图谱等方面的新成果。
    的头像 发表于 10-11 10:41 ?820次阅读
    易智瑞荣获“<b class='flag-5'>信息</b>技术应用创新工作委员会技术活动单位”

    放大电路引入反馈的作用

    反馈,简而言之,就是将系统的输出信号重新引入到输入端的过程。在放大电路,这通常意味着将输出电压或电流的一部分通过反馈网络送回输入端。这样做的目的是利用输出信号的信息来调节和控制输入信号,进而
    的头像 发表于 10-04 17:39 ?1481次阅读
    放大电路<b class='flag-5'>中</b><b class='flag-5'>引入</b>反馈的作用