0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研究者最近仔细估算了各种知识图谱每创建一条记录所需要的成本

MqC7_CAAI_1981 ? 来源:lq ? 2019-02-18 16:35 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我们知道强大的深度模型需要很多计算力,那你知道创建一个知识图谱的成本到底是多少吗?德国 Mannheim 大学的研究者最近仔细估算了各种知识图谱每创建一条记录所需要的成本,他们表示对于大型知识图谱,手动创建一个三元组(即一条记录)的成本在 2 到 6 美元之间,总成本在数百万到数十亿美元之间。

知识图谱广泛用于各种领域,它的统计信息也常被分析。但有一个问题一直缺乏研究:产出价格是多少?在此论文中,研究者提出了一种方法预估知识图谱的成本。他们表示手动创建一个三元组(triple)的成本大约在 2 到 6 美元左右,而自动创建知识图谱的成本要降低 15 到 250 倍(即一个三元组 1 美分到 15 美分)。

注意其中 15 美分每条的「自动化」知识图谱还是需要大量人力进行数据的验证。此外,作者表示成本也应该作为知识图谱的评价标准,例如可以使用每个三元组的成本或其他更优的度量方法。

论文:How much is a Triple? Estimating the Cost of Knowledge Graph Creation

论文地址:http://ceur-ws.org/Vol-2180/ISWC_2018_Outrageous_Ideas_paper_10.pdf

估计知识图谱的成本

随着知识图谱的广泛应用,我们越来越关注大型知识图谱,例如 DBpedia、YAGO 等。我们已经有很多方法从各种角度检查这些大型知识图谱,例如大小、覆盖度和质量等。然而这些分析不足的地方在于成本,即创建知识图谱的价格。

人工创建:Cyc 和 Freebase

对于人工创建的知识图谱,我们必须评估提供这些陈述语句(statement)的工作量,从而估计平均成本。

Cyc 是最早的通用知识图谱之一,同时它的开发成本也能公开获得。在 2017 年的一项会议中,Cyc 的创建者 Douglas Lenat 表示:构建 Cyc 的成本为 1.2 亿美元。在同一个 PPT 中,Lenat 表示 Cyc 一共有 21M 断言(assertion),因此每条陈述语句或断言需要 5.71 美元。若 1000 人有一年的时间完成,则每人每 9.5 分钟需要完成一条断言。

Freebase 是由志愿者共同完成的,因此其工作量更难判断。截止至 2011 年 4 月份,创建英文维基百科的估计时长为 41M 工时。同时维基百科包含 3.6M 的页面,平均每一个页面 36.4 个句子,因此换算下来每一条语句需要 18.7 分钟。由于大多数维基百科条目都是由美国构建的,我们可以使用每小时 7.25 美元的美国联邦最低工资作为人工成本估算,因此每一句的成本可以换算为 2.25 美元。借鉴这个成本,我们可以假设 Freebase 每一条陈述语句的成本也是 2.25 美元。

这比 Cyc 的平均成本低了一半,这种低成本也是合理的,因为 Cyc 是由人类专家构建的,而 Freebase 由非专业人员创建。总的而言,对于包含 30 亿事实(fact)的最新版 Freebase,它的总成本约为 67.5 亿美元($6.75B)。

自动创建: DBpedia、YAGO 和 NELL

评估自动创建知识图谱所花费成本不同于人工创建知识图谱。我们参考了用于创建知识图谱的软件,基于代码行数(LOC)来估计开发知识图谱的成本。我们遵循 [2] 中的分析,即一个软件生成项目平均每小时生产 37 行代码(LOC)。

DBpedia 主要是基于 DBpedia 提取框架从维基百科 Dump 得到的,它通过映射中心实体而创建知识图谱。DBpedia 两部分需要 4.9M 和 2.2M LOC,它需要的总开发成本为 510 万美元。鉴于英语 DBpedia[11] 共有 400M 陈述语句,每一条成本约为 1.85 美分。相比于人工搭建的知识图谱(每一条 2.25 美元),自动搭建的要节省百倍的成本。

YAGO 也是一种知识图谱,它将维基百科提取的知识与 WordNet[7] 相结合。为了公平比较,它的成本应该包含 WordNet 的搭建费用。YAGO 代码库有 1.6M LOC(包括将信息框映射到本体的规则),因此它的总体成本为 160 万美元。此外,WordNet 本身还包含了 117k 个同义词集,每一个包含一条注释。我们估计定义一个同义词集的成本与构建一个维基百科页面的成本相近,即最高 1000 万美元。若 YAGO 有 14 亿条陈述语句 [11],那么每一条的成本为 0.83 美分。相比人工搭建,它的成本要节省 250 倍。

NELL 是一个学习关系抽取 [8] 模式的系统,其核心技术包含 103k 的 LOC,预估开发成本为 10.9 万美元。此外,该数据集每月还需要人工校验 1467 条陈述语句。假设人工校验一条陈述语句的成本和创建成本一样,那么总的校验成本为 37.6 万美元,即通成本为 48.5 美元。因此换算下来,NELL 每条陈述语句的成本为 14.25 美分,即比手动搭建便宜 16 倍。

新的评估标准

把成本作为创建知识图谱的一种测量方法也能为其他评估方法铺平道路。例如,可以通过成本查验为知识图谱补充缺失信息提供新方法 [9]:一个人一年半开发知识图谱应该可以添加 2800 条陈述语句,这应该是人力手动产出的三元组数量。

另一个有趣的思路是开发成本与数据质量之间的关系。在图 1 中,我们图像描述了该论文讨论的知识图谱中每个三元组成本与错误率之间的关系。我们可以看到,高成本创建的三元组准确率也会更高,NELL 是个例外,准确率与成本之间关系极差。

每个三元组成本与错误率之间的关系展示图。

总结

在这篇论文中,我们大体估计了创建一个流行的知识图谱所花费的成本,这也是当前研究忽视的一个方面。我们量化了自动创建知识图谱相比于手动方法的收益,并提出使用成本定义新型的评价标准,例如权衡成本与准确率。

有研究者反馈,我们也意识到有很多假设或估计在计算中都存在着问题(例如,我们没有考虑第三方库或基础设施的成本)。其次,知识图谱的来源或数据成本当前也没有考虑在内。然而,我们相信:知识图谱自身带来的价值将远超过各种构建成本的总和。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7264

    浏览量

    92419
  • 自动化
    +关注

    关注

    29

    文章

    5797

    浏览量

    85608
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    8063

原文标题:67 亿美金搞个图,创建知识图谱的成本有多高你知道吗?

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从材质到结构:一条优质HDMI线背后的技术讲究

    因素——材质与结构设计。今天,我们将深入探讨一条优质HDMI线背后的技术讲究,帮助您做出更加明智的选择。 、导体材料:信号传输的基础 HDMI线的导体材料直接关系到信号传输的质量和稳定性。优质的导体材料能够有效降低电阻,减少信
    的头像 发表于 07-09 17:59 ?248次阅读

    轻轻松松学电工(识图篇)

    内容介绍 结合广大电工人员的实际需要,主要介绍了常用电工电路识图的基础知识、方法及技巧,内容包括常用电气符号、电工识图基本方法,以及识读供配电系统图、建筑电气图、电力拖动系统电气图、P
    发表于 04-30 17:18

    典型电路原理、电路识图从入门到精通等资料

    1、电路识图从入门到精通高清电子资料 由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,通过“入门篇”和“精通篇”循序渐进、由浅入深地介绍了电路图的基础知识、典型单元电路的
    的头像 发表于 04-15 15:53 ?9531次阅读
    典型电路原理、电路<b class='flag-5'>识图</b>从入门到精通等资料

    每周推荐!电子工程师必学!典型电路原理、电路识图从入门到精通等资料

    1、 电路识图从入门到精通高清电子资料 由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,通过“入门篇”和“精通篇”循序渐进、由浅入深地介绍了电路图的基础知识、典型单元电路的
    发表于 04-11 15:17

    电路识图从入门到精通高清电子资料

    、彩色电视机等电器的电路图识图技巧。 纯分享贴,有需要可以直接下载附件获取完整资料! (如果内容有帮助可以关注、点赞、评论支持下哦~)
    发表于 04-10 16:22

    一条光纤怎么分两

    一条光纤可以通过以下方式分成两使用: 使用分光器 分光器是种光学器件,它可以将光信号按照定的比例分成多路。通常,分光器有1:2、1:4、1:8等不同的分光比例,这意味着
    的头像 发表于 02-25 10:07 ?2051次阅读

    渊亭KGAG升级引入“高级策略推理”

    为了突破现有AI技术在决策推理方面的局限,渊亭科技对其知识图谱分析平台KGAG进行了最新升级,创新性地引入了“高级策略推理”模式。这模式的引入,实现了“大模型×知识图谱×专家策略×动态推理”的深度
    的头像 发表于 02-14 15:07 ?621次阅读

    微软发布《GraphRAG实践应用白皮书》助力开发

    近日,微软针对开发群体,重磅推出了《GraphRAG实践应用白皮书》。该白皮书全面而深入地涵盖了知识图谱的核心内容,为开发和企业提供了宝贵的指导和启示。 从知识图谱的基础概念出发,
    的头像 发表于 01-13 16:11 ?1084次阅读

    创建索引的SQL命令和技巧

    创建索引时,以下是些SQL命令和技巧,可以帮助优化性能: 使用合适的索引类型:对于需要保证唯性的列,使用UNIQUE索引来避免重复
    的头像 发表于 01-09 15:21 ?568次阅读

    利智方:驱动企业知识管理与AI创新加速的平台

    利智方致力于深度整合企业知识资产,全面打通知识生命周期的各个环节。通过构建强大的知识库和精准的知识图谱,支持快速定制和部署各类AI应用,为企业创新发展提供坚实的技术支撑。可多维度提升企
    的头像 发表于 12-30 11:07 ?1033次阅读

    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”等奖

    和华东师范大学联合申报的“跨语言知识图谱构建与推理技术研究及应用”项目凭借创新性和技术先进性荣获等奖。该项目成功突破了多形态信息抽取技术、跨语言知识图谱对齐技术和
    的头像 发表于 12-16 17:04 ?716次阅读
    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”<b class='flag-5'>一</b>等奖

    传音旗下小语种AI技术荣获2024年“上海产学研合作优秀项目奖”等奖

    和华东师范大学联合申报的“跨语言知识图谱构建与推理技术研究及应用”项目凭借创新性和技术先进性荣获等奖。 该项目成功突破了多形态信息抽取技术、跨语言知识图谱对齐技术和
    的头像 发表于 12-16 16:21 ?888次阅读
    传音旗下小语种AI技术荣获2024年“上海产学研合作优秀项目奖”<b class='flag-5'>一</b>等奖

    FPGA基础知识及设计和执行FPGA应用所需的工具

    本文将首先介绍FPGA的基础知识,包括FPGA的工作原理以及为什么要使用FPGA等,然后讨论设计和执行FPGA应用所需的工具。
    的头像 发表于 11-11 11:29 ?1931次阅读
    FPGA基础<b class='flag-5'>知识</b>及设计和执行FPGA应用<b class='flag-5'>所需</b>的工具

    三星自主研发知识图谱技术,强化Galaxy AI用户体验与数据安全

    据外媒11月7日报道,三星电子全球AI中心总监Kim Dae-hyun近日透露,公司正致力于自主研发知识图谱技术,旨在进步优化Galaxy AI的功能,提升其易用性,并加强用户数据的隐私保护。
    的头像 发表于 11-07 15:19 ?1460次阅读

    行家放话!骁龙8至尊版是一条大冰龙:彻底稳了

    10月12日消息,iQOO产品经理戈蓝V表示,高通骁龙8至尊版是一条大冰龙,很难想象,过去的好多重载游戏在我这台手机上变成了中轻载,等通子发布会后再细聊。此前博主数码闲聊站浅测了高通骁龙8至尊版量产
    的头像 发表于 10-17 12:26 ?937次阅读
    行家放话!骁龙8至尊版是<b class='flag-5'>一条</b>大冰龙:彻底稳了