0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

知识图谱自动化构建的探索与挑战

恬静简朴1 ? 来源:恬静简朴1 ? 作者:恬静简朴1 ? 2022-09-05 09:36 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

知识图谱自动化构建的探索与挑战|论文分享

达观数据

知识图谱的自动化构建是知识图谱中具有极强挑战性且巨大应用价值的技术方向。就实体抽取技术,达观数据副总裁、上海市人工智能技术标准委员会委员王文广提到“狭义的实体抽取,即命名实体识别(NER)技术发展至今已较为成熟,能够很好地抽取出人名、地名、机构名等少数类型的实体。但在知识图谱实际应用中,则需要抽取出各式各样各不相同的广义实体,比如金融业中的产品名称、品牌名、业务名、风险提示、观点等,制造业中的失效模式、失效现象、工艺、设备、零部件、物料、方法、故障原因、改善措施等,商业中的产品、功能、特点、适合人群、搭配方法等等。抽取出这些广义实体的挑战巨大。”关系抽取技术也同样问题多挑战大,已有关系抽取大多基于实体对之间共现,而现实复杂的场景中,实体对共现既可能不存在任何关系,可能存在万千种的关系,这就造成了关系抽取的难题。此外,在知识图谱构建中,还涉及实体消歧、实体融合等方面的技术要求。

除了技术发展本身并不成熟之外,在实际场景中还遇到样本少的问题。在真实落地的项目或产品中, 往往存在标注样本少的问题,其原因即可能是标注成本高导致样本少,也可能是本身样本就少,无法获得大规模的标注样本。这方面王文广深有体会,他提到“在很多场景下,总的文档数量有几千或几万份,对于具体某些类型的实体或关系来说则文档数量更少。在这种情况下要做好知识图谱的构建,是极大的挑战,也是在实际落地中必须综合使用十八般武器,逢山开路遇水搭桥,使用最新的技术结合业务经验、专家规则等来解决这些问题。”

为了促进知识图谱自动化构建技术的进一步发展,达观数据在CCKS2020(2020全国知识图谱与语义计算大会)组织了金融研报知识图谱的自动化构建的算法竞赛。竞赛选择了样本丰富但复杂度较高的金融研报文档作为知识的来源,根据金融投研领域常见的需求,设计了简化版的知识图谱模式,并标注了大规模的金融研报知识图谱数据集FR2KG。竞赛任务从预定义的知识图谱模式和少量的种子知识图谱开始,从非结构化的金融研报文本中抽取出符合知识图谱模式的实体、关系和属性值, 并进行适当的实体消歧和实体融合,构建出知识图谱,并使用FR2KG来评估竞赛参赛队伍所提交的结果。

金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告,是金融行业中最为复杂、多样的文档。报告通常是专业人员撰写,对宏观、行业和公司的数据信息搜集全面、研究深入,质量高,内容可靠。报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识,是构建行业知识图谱非常关键的数据来源。另一方面,由于研报本身所容纳的数据与知识涉及面广泛,专业知识众多,不同的研究结构和专业认识对相同的内容的表达方式也会略有差异。这些特点导致了从研报自动化构建知识图谱困难重重,解决这些问题则能够极大促进自动化构建知识图谱方面的技术进步。同时所构建的图谱在大金融行业、监管部门、政府、行业研究机构和行业公司等应用非常广泛,如风险监测、智能投研、智能监管、智能风控等,具有巨大的学术价值和产业价值。

数据集

达观数据所构建的大规模金融研报知识图谱数据集FR2KG是用于评测知识图谱自动化构建技术的专业数据集,是当前最大规模的中文金融研报知识图谱。下图是数据集构建过程示意图

poYBAGMVUqSAB5vHAABSE5RNWVM330.jpg

FR2KG的知识图谱模式包含10个实体类型,19个关系类型和6种属性,如下图所示。

pYYBAGMVUqWAUzxnAACkend7yiE077.jpg

构建好的金融研报知识图谱数据集FR2KG包含17,799实体,26,798关系三元组,1,328属性三元组,SeedKG和EvaluationKG的数据情况如下图所示。

下图是数据集的样例,使用达观数据渊海知识图谱平台可视化:

poYBAGMVUqWAU6wsAADVO-16R-c247.jpg

目前数据集已经发布在SCIDB和OpenKG上,欢迎大家前往下载。在使用数据集进行研究时请引用本论文。

文章:Data Set and Evaluation of Automated Construction of Financial Knowledge Graph

作者:王文广,徐永林、杜春辉、陈运文、王逸捷、文辉

引用: Wang, W.G., et al.: Data set and evaluation of automated construction of financial knowledge graph. Data Intelligence 3(3), 418-443 (2021). doi: 10.1162/dint_a_00108

竞赛技术回顾

本次评测一共有740个队伍报名,其中F1分数最高的18支队伍中,有3支队伍来自企业,10支队伍来自高校,3支队伍高校和企业的组合,另外2支队伍未透露相关信息。本次评测的top5队伍都梳理并提交了他们所使用的方法的简要说明,下文对这些方法和说明进行分析总结。

所有队伍都使用了规则或者labelling function来生产训练样本,只有一个队伍在自动生成样本之外,又额外人工标注了20份的研报来作为补充和验证的训练样本。

所有队伍在实体抽取中都使用了基于BERT的模型,并且在模型之外也都使用了基于规则的方法来对特定的实体类型进行补充。

在关系和属性抽取方面,所有的队伍都使用了基于共现的方法,共现是远程监督的基本假设,也就是说,当两个实体共同出现在一个较短的一段文本时,即可假设它们存在符合相应的关系。在基于共现的假设之上,三支队伍使用了规则来判断是否真正存在这种关系,另外两只队伍使用了基于BERT的模型来对关系进行分类。

其中一支队伍使用了聚类的方法来将相似或相同主题的研报给聚在一起,对研报进行了预处理。

知识图谱自动化构建的挑战

从本次基于知识图谱模式的自动化构建知识图谱评测的结果来看,单纯使用算法来构建完全自动化地构建知识图谱,尚存在较多挑战,这里总结了一些具有相当挑战性的课题和研究方向:

在给定知识图谱模式和种子知识图谱来自动化的构建知识图谱上,现有的方法效果都不太好,如何实现端到端或者多步的框架实现知识图谱的完全自动化构建是值得继续探索的。

通过知识图谱及其对应的Schema如何实现自动化标注语料是一个值得研究的课题,能够实现高精度的自动化标注语料可以带来更好的抽取模型。此外,自动化标注语料方面的评测也是一件非常有意义的事情。

实体抽取方面,评测的优秀选手都使用了基于BERT的模型,再加上基于规则的方法来实现,在这种真实的场景且计算力资源受限的情况下,如何在少量语料的情况下实现高精度的抽取。

关系和属性抽取与识别上,目前集中在采用短文本内共现并过滤的方法来实现,这极大的依赖于实体抽取的F1分数,高precision和高recall的实体抽取决定了关系和属性抽取有好的效果。那么如何在噪声较多,即不那么高的情况下来实现好的关系和属性抽取?

本次评测没有看到使用端到端的实现实体和关系联合抽取的模型,可能的原因是实体和关系类型较多且没有大量的语料,那么在这种情况下如何开发出端到端的模型也是非常具有挑战性的课题。

当Schema的规模进一步扩大时,比如50种实体类型,数百种的实体属性和实体间的关系,对这样的知识图谱研究其自动化构建是一个兼具挑战性与现实意义的课题。

多语言的知识图谱自动化构建技术的研究。本次评测集中在中文,以及中文中存在的少量英文的情况,特别的,没有涉及到多语言之间实体融合的情况。但在真实场景下,多语言语料以及构建多语言图谱是非常重要的。这涉及了多方面的内容,包括多语言的实体、关系和属性的抽取,多语言之间实体的融合等等方面技术的研究。同时,组织多语言知识图谱自动化构建方面的评测也是非常有意义的事情。

本次评测中隐含着少量实体的消歧与融合,这块没有显性的进行评测,未来可以将这块明确的表达出来,以促进相关领域的研究。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动化
    +关注

    关注

    29

    文章

    5797

    浏览量

    85608
  • 数据集
    +关注

    关注

    4

    文章

    1225

    浏览量

    25640
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    8063
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动化计算机的功能与用途

    工业自动化是指利用自动化计算机来控制工业环境中的流程、机器人和机械,以制造产品或其部件。工业自动化的目的是提高生产率、增加灵活性,并提升制造过程的质量。工业自动化在汽车制造中体现得最为
    的头像 发表于 07-15 16:32 ?259次阅读
    <b class='flag-5'>自动化</b>计算机的功能与用途

    AG32 SDK 最新版本V1.7.7 :实现构建自动化功能及更新HyperRAM的RGB例程

    等。 AG32 的管脚可以灵活定义,引脚与STM32。并且内置2KLE FPGA, 非常适合MCU + FPGA/CPLD的应用场景。 AG32 SDK 最新版本V1.7.7 :实现构建自动化功能
    发表于 06-05 14:41

    机器人和自动化的未来(2)

    、无人驾驶等概念,正在逐步成为现实。与此同时,机器人和自动化技术的广泛应用,也带来了伦理和法律方面的新挑战。3.1智慧工厂与工业4.0智慧工厂是未来制造业的发展方向之一。
    的头像 发表于 04-26 08:33 ?371次阅读
    机器人和<b class='flag-5'>自动化</b>的未来(2)

    HFSS 自动化建模工具

    因工作需求,自己写的HFSS参数自动化建模工具,目前只实现了常用的四种模型,可定制,如需可联系 qq:1300038043 附件下载链接:https://pan.baidu.com/s/1TVeTTFiJw-pxSyT1AT8IQA 提取码: kxup
    发表于 02-27 17:44

    清华大学自动化系学子走进华砺智行研学交流

    近日,清华大学自动化系的11名学子走进华砺智行研学交流,开展科技前沿探索的社会实践活动。
    的头像 发表于 02-13 10:03 ?513次阅读

    环球仪器Uflex灵活自动化平台概述

    在生产厂房全面走向自动化之际,最令厂家头痛的莫过于生产线上一些难以自动化的组装工序。若以功能单一的自动化平台来解决,投资可能没有保障。环球仪器的Uflex灵活自动化平台提供一个完美的解
    的头像 发表于 02-08 09:13 ?719次阅读
    环球仪器Uflex灵活<b class='flag-5'>自动化</b>平台概述

    基于 Docker 与 Jenkins 实现自动化部署

    优化,为 Docker 容器应用与 Jenkins 自动化流水线提供了理想的运行环境。无论是快速构建、测试还是部署,Flexus X 都能确保流程顺畅无阻,大幅提升软件开发与交付效率。立即拥抱华为云
    的头像 发表于 01-07 17:25 ?609次阅读
    基于 Docker 与 Jenkins 实现<b class='flag-5'>自动化</b>部署

    自动化创建UI并解析数据

    *附件:32960_auto.rar备注:Main.vi是ui自动化2.1.vi,配置文件为32960.B.ini。 目前可以实现根据配置文件自动化创建控件并布局,且可以自动解析接收到的数据内容写入
    发表于 12-10 08:41

    自动化创建UI并解析数据

    Labview实现动态增加控件效果 - *附件:32960_auto.rar 备注:Main.vi是ui自动化2.1.vi,配置文件为32960.B.ini。 目前可以实现根据配置文件自动化创建控件
    发表于 11-29 11:26

    三星自主研发知识图谱技术,强化Galaxy AI用户体验与数据安全

    据外媒11月7日报道,三星电子全球AI中心总监Kim Dae-hyun近日透露,公司正致力于自主研发知识图谱技术,旨在进一步优化Galaxy AI的功能,提升其易用性,并加强用户数据的隐私保护。
    的头像 发表于 11-07 15:19 ?1460次阅读

    爱芯元智受邀参加2024清华自动化论坛

    近日,“2024清华自动化论坛”在广州举行。本次论坛由清华校友总会自动化系分会主办,汇聚了海内外约200位清华大学自动化系系友、学术界和产业界精英,共同分享各自领域最新研究成果与未来发展趋势,
    的头像 发表于 11-05 14:41 ?768次阅读

    探索Playwright:前端自动化测试的新纪元

    作者:京东保险 张新磊 背景 在前端开发中,自动化测试是确保软件质量和用户体验的关键环节。随着Web应用的复杂性不断增加,手动测试已经无法满足快速迭代和持续交付的需求。自动化测试通过模拟用户
    的头像 发表于 10-22 14:27 ?775次阅读

    探索分布式IO模块的介质冗余:赋能工业自动化的稳健之心

    凸显。明达技术自主研发的带有介质冗余功能的MR30分布式IO模块,正以其独特的优势,为工业自动化系统构建起一道坚不可摧的防护网。
    的头像 发表于 09-25 10:45 ?627次阅读
    <b class='flag-5'>探索</b>分布式IO模块的介质冗余:赋能工业<b class='flag-5'>自动化</b>的稳健之心

    开关电源自动化测试设备:如何实现自动化测试?

    开关电源自动化测试设备是将测试软件和测试硬件集成在一个电源测试柜中的ate自动测试设备,其测试原理是通过计算机操控测试仪器,从而减少人工干预,完成开关电源的自动化测试,旨在解放人力,提高测试效率,让测试更便捷。
    的头像 发表于 08-30 18:19 ?1905次阅读
    开关电源<b class='flag-5'>自动化</b>测试设备:如何实现<b class='flag-5'>自动化</b>测试?

    探索工业自动化转换网关:定义背后的功能密码

    在当今物联网(IoT)与工业自动化日益融合的时代背景下,自动化协议转换网关作为连接不同设备与系统之间的桥梁,扮演着至关重要的角色。自动化协议转换网关,作为这一领域内的佼佼者,以其灵活、可靠的性能
    的头像 发表于 08-22 09:43 ?537次阅读
    <b class='flag-5'>探索</b>工业<b class='flag-5'>自动化</b>转换网关:定义背后的功能密码