0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据质量问题的分析和改进

茶棚小二a ? 来源:thoughtworks ? 作者:van ? 2022-10-19 19:02 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在如今火爆的数智化时代,企业都在利用大数据创新业务、获得价值;然而,数据能否更好地赋能业务,取决于企业数据质量的好坏。好的数据质量,经过数据分析、挖掘、机器学习等手段,可以更好地辅助业务决策、帮助企业降本增效;差的数据质量,从数据中获得的价值有限,甚至会误导做出错误的业务决策,从而给企业带来灾难性的后果。

那么,一个企业的数据质量如何,如何评估?常见的数据质量问题都有哪些?这些问题是什么原因造成的?

数据质量评估维度

在评价企业数据质量的好坏时,首先需要定义评估的维度,通常较为重要的数据质量维度有以下6个:

  • 数据唯一性: 是指数据唯一,不存在重复记录。即:不会出现一物多码,一码多物的情况。例如:主键唯一性,同一个ID不会重复记录。
  • 数据完整性: 是指数据在创建、处理流转过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整。例如:员工的工号不可为空。
  • 数据准确性: 是指真实、准确地记录原始数据,无虚假数据及信息。数据要准确反映其所建模的"真实世界"的实体。例如:在业务系统上填写信息时,手误输错了新车类型信息,造成了数据库里存在的信息与真实世界不一样。
  • 数据一致性: 是指数据是否遵循了统一的规范、是否符合逻辑。例如:同一车型所对应的名称在不同系统中保持一致。
  • 数据及时性: 是指及时记录和传递相关数据,从而满足业务对信息获取的时间要求。主要指数据提取要及时、传送要及时、转换要及时、加载和展现要及时。
  • 数据有效性: 指数据的值、格式和展现形式符合数据定义和数据业务定义的要求。例如:手机号要符合全球手机号码编码规则。

数据质量问题分析原因

从数据的整个生命周期来看,任何一环节都有可能产生数据问题。在数据的采集阶段,数据的真实性、准确性、完整性、一致性等会影响数据质量。在数据的加工、存储阶段,也涉及到对数据的修改,也可能引发数据质量问题。所以,业务、技术、管理等多方面的因素都有可能会影响到数据质量。

业务问题

  • 业务需求不清晰

    在业务需求不清晰的情况下,很容易造成由于理解偏差,最终导致结果数据有问题。

  • 需求频繁变更

    需求一旦变更,其中数据采集、数据处理、数据存储等环节就可能会受到影响,稍有不慎引入Bug,便造成数据质量问题。

  • 数据填报缺失或不准确

    业务系统侧,在数据录入时,漏填或填错信息,造成数据的质量问题。

  • 数据作假

    为了提高或降低考核指标,对一些数据进行人为造假,使得数据真实性无法保证。

技术问题

  • 数据库结构设计问题

    例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。

  • 数据采集问题

    从业务系统采集过来的数据本身就有一些不完整、重复、不规范,如果没有清洗、及时纠错或清洗代码有Bug,就会造成有质量问题的数据进入。

  • 数据处理问题

    数据在传递、数据转换、数据存储过程中,任一环节有技术问题,都有可能造成数据质量问题。

  • 各系统孤立开发

    业务系统各自为政,孤立开发,系统之间的数据孤岛、数据不一致问题严重。

管理问题

企业管理缺乏数据思维, 没有认识到数据质量的重要性。没有进行统一数据管理,没有明确的数据质量目标,也没有制定数据质量相关的政策和制度等。

数据质量问题改进指导

正如上述所列,造成数据质量差的原因有很多;那么,面对企业数据质量差的问题,如何改进?借鉴PDCA循环(又名戴明环)进行数据质量持续改进,以达最终数据质量目标。

PDCA循环

PDCA是一套“目标管理”流程,通过规划、执行、检查、行动四阶段,确保每次的目标都能达成。PDCA循环在质量管理中得到广泛的应用。

PDCA的四个阶段:

  • 计划 PLAN

    先确定数据质量目标,可通过数据质量评估标准为当前企业数据质量进行评估,设定改进目标。 对照目标制定计划与实施方案。在制定实施方案时,每1项措施要符合5W1H,即:为什么制定该措施?达到什么目标?在何处执行?由谁负责完成?什么时间完成?怎么完成? 比如:一项措施是为企业制定并执行数据标准。

  • 实施 DO

    依据上一步计划与实施方案进行执行。 比如:制定好数据标准,推广到各部门执行。eg. 某车企会员类型(企业代码标准、2位编码):01 普通卡、02 黄金卡、03 钻石、04 超级VIP卡;车保险种类代码(外部代码标准、4位编码):10100 交强险、10200 商业车险 等等。

  • 检查 CHECK

    完成一轮的实施之后,进行检查,对比当前实际情况与预期目标的差距。

  • 行动 ACT
    对于本轮的经验和措施形成标准,标准化下来,持续运行,防止质量倒退。 对于没有达到预期效果,分析原因,制定下一步行动,继续下一轮的PDCA循环。

所有措施不可能在一个PDCA循环中全部解决,遗留的措施会自动转进下一个PDCA循环,周而复始,螺旋上升。

改进措施

有了PDCA循环的指引,透过PDCA环高效完成达到目标的所有措施,持续改进数据质量。在制定有效措施方面,始终要遵循:及时发现问题 -> 立即解决问题-> 提前预防问题;因此,归纳改进措施如下。

事前预防
  • 提高全员数据质量意识。加强培训、Session分享、或出题考试等,通过各种手段培养员工重视数据质量,了解数据对下游所产生的影响。
  • 制定数据规范、数据质量标准、元数据管理等。
  • 建立自动系统,数据输入控制,防止无效或不准确数据进入系统。
  • 制定正式的变更控制、把关过程,防止正常处理流程之外直接更改数据。
  • 制定相关制度来避免数据问题,如:严禁无记录无跟踪人为篡改数据。
事中监控

问题发生,及时纠正,最大限度地降低纠正措施成本和风险。

  • 构建日志管理体系,问题及时追踪处理。
  • 构建数据异常处理机制与告警办法
  • 创建数据质量监测平台,自动执行数据质量检查和审计过程。
  • 问题发生,及时数据修正:程序自动修正、程序自动发现且人工修正。
  • 建立数据质量的流程化控制体系,对数据的采集、加工、存储等环节进行流程化控制。
事后完善
  • 问题发生解决后,要复盘,完善相应的预防措施、数据规范、数据管理制定与政策等等
  • 定期评估度量,落实行动项,逐步提升数据质量。

写到这里,想必大家对于数据质量问题的分析与改进有了一定的认识。总之,记住下面这句话:

【首先】数据质量评估 -> 发现问题,

【其次】问题根因分析 -> 分析问题,

【最后】戴明环方法改进 -> 解决问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    电能质量问题层出不穷,造成设备损坏,威胁人身安全?安科瑞这套解决方案堪称“用电救星”!

    一、电能质量问题:不容忽视的用电隐患 在现代工业和生活中,稳定、可靠的电能供应是保障各类电气设备正常运行的基础。电能质量,这一衡量电力系统中电能品质的关键指标,直接关系到电力系统的安全、稳定和经济
    的头像 发表于 06-25 15:35 ?170次阅读
    电能<b class='flag-5'>质量问题</b>层出不穷,造成设备损坏,威胁人身安全?安科瑞这套解决方案堪称“用电救星”!

    电能质量问题为何必须解决?|从监测到治理的完整成本分析

    70%的电能质量问题源于企业内部!本文深度解析电压暂降、谐波等问题的真实成本,揭示如何通过IEC 61000-4-30 A级监测定位风险源头,平衡运维成本与系统韧性。Dranetz HDPQ系列助您从被动应对转向主动防御。
    的头像 发表于 05-22 14:18 ?163次阅读

    新能源并网、数据中心、工厂生产等电能质量问题有哪些现象?

    一、现象 电能质量是指电力系统中电能的质量,理想状态下,电能应具有恒定的频率和幅值,且电压波形为正弦。然而,在实际的电力系统运行中,受到多种因素影响,会产生各类电能质量问题。这些问题不仅影响电力系统
    的头像 发表于 05-20 10:51 ?236次阅读

    为什么90%的工厂质量问题频发?MES质量管理这样做

    在制造业中,产品质量是企业生存和发展的核心要素。然而,许多工厂仍然面临质量问题频发的困扰,导致客户投诉、返工成本增加,甚至品牌声誉受损。据统计,?90%的工厂质量问题并非源于单一因素,而是由生产过程
    的头像 发表于 04-03 10:54 ?410次阅读
    为什么90%的工厂<b class='flag-5'>质量问题</b>频发?MES<b class='flag-5'>质量</b>管理这样做

    从国产SiC器件质量问题频发的乱象看碳化硅功率半导体行业洗牌

    近期,多家客户接连发生国产SiC碳化硅MOSFET功率半导体质量问题,严重打击了终端客户的信心和一定程度影响到了SiC碳化硅功率半导体国产化替代进程,从国产SiC器件质量问题频发的行业现象不难看出要
    的头像 发表于 02-28 10:14 ?392次阅读

    用DLP4500投影正弦光栅时存在高频噪声,应该如何改进正弦光栅质量

    用DLP4500投影正弦光栅时存在高频噪声,应该如何改进正弦光栅质量
    发表于 02-26 07:24

    汽车焊接数据深度分析:提升工艺与质量的关键

    在现代汽车制造业中,焊接技术作为连接车身各部件的核心工艺,其重要性不言而喻。焊接质量直接影响到汽车的整体性能和安全性,因此,对焊接过程的数据进行深度分析,不仅能够帮助制造商优化生产工艺,提高生产效率
    的头像 发表于 01-21 15:53 ?484次阅读

    移动式电能质量分析仪的优势

    在现代电力系统中,电能质量的稳定性和可靠性对于保障工业生产和日常生活至关重要。随着电力电子技术的发展和电力系统的日益复杂化,电能质量问题日益凸显,对电能质量的监测和分析提出了更高的要求
    的头像 发表于 01-08 10:05 ?556次阅读

    电能质量分析仪常见故障及解决方案

    随着电力系统的快速发展,电能质量问题日益受到重视。电能质量分析仪作为监测和分析电能质量的重要工具,其性能的稳定性和准确性对电力系统的安全运行至关重要。 一、电能
    的头像 发表于 01-08 10:00 ?730次阅读

    自动零件分析仪的原理和应用

    整个生产流程,改进原材料采购策略,提高产品研发效率。 综上所述,自动零件分析仪的原理基于先进的测量、控制和数据处理技术,其应用则涵盖了金属制造行业的多个环节。通过这一设备的应用,企业可以大大提高生产效率和产品
    发表于 12-23 15:22

    PCBA加工常见质量问题揭秘:焊接不良与解决方案

    质量问题不仅会影响产品的性能和可靠性,还可能对厂家的声誉和利润造成重大影响。本文将深入探讨PCBA加工过程中常见的质量问题,并分析其产生的原因及可能的解决方案。 PCBA加工中的常见质量问题
    的头像 发表于 12-13 09:28 ?878次阅读

    WP4000变频功率分析仪对电能质量特征量是如何计算测量的?

    电能质量即电力系统中电能的质量,在现代电力系统中,由于大量的变频器的使用产生谐波导致的电压波形畸变,以及电压暂降、暂升和短时中断等,都成为很重要的电能质量问题。WP4000变频功率分析
    的头像 发表于 11-15 18:37 ?564次阅读
    WP4000变频功率<b class='flag-5'>分析</b>仪对电能<b class='flag-5'>质量</b>特征量是如何计算测量的?

    艾体宝干货 如何使用 IOTA?解决网络电话(VoIP)质量问题

    本文探讨了VoIP(语音通信)质量问题的常见原因,并提供了详细的故障排除指南。文章首先解释了VoIP质量问题可能涉及的网络性能、设备配置、数据包丢失等多个方面。接着,文章使用一个示例使用IOTA
    的头像 发表于 10-29 09:18 ?555次阅读
    艾体宝干货 如何使用 IOTA?解决网络电话(VoIP)<b class='flag-5'>质量问题</b>

    电子行业PCB失效现状:改进措施与激光焊锡技术(下)

    本文深入分析了国内印制电路板(PCB)产品的失效现状,并提出了针对性的改进建议。通过对数百个失效案例的统计分析,我们发现PCB自身质量异常是导致PCBA失效的最主要原因,且这一趋势在逐
    的头像 发表于 10-24 11:12 ?625次阅读
    电子行业PCB失效现状:<b class='flag-5'>改进</b>措施与激光焊锡技术(下)

    电能质量问题包括哪些现象

    在现代电力系统中,电能质量的优劣直接关系到工业生产效率、设备寿命以及日常生活质量等多个方面。常见的电能质量问题包括电压波动与闪变、谐波污染以及三相不平衡等。这些问题不仅影响设备的正常运行,还可能导致
    的头像 发表于 08-30 10:03 ?1386次阅读