数据质量管理
2022-12-21
一、数据质量管理
1.数据质量
数据质量在业务环境下,数据符合数据消费者的使用目的,数据质量需要满足业务场景具体的需求。数据质量包含两个方面:数据自身的质量和数据的过程质量。
数据自身的质量,比如数据必须真实准确地反映实际发生的业务,任何业务操作的数据都没有被遗漏,数据存在各种约束条件,这种约束条件不能自相矛盾等等。数据的过程质量就是数据的使用过程符合标准规范,比如数据存储:数据是否被安全的存储到了合适的介质上,能够保证数据不受外来因素的破坏。当然数据存储只是数据使用过程的一个环节,除此之外还包括获取、传输、应用和删除等一系列的使用过程,这其实也是数据生命周期的各个阶段。
2.数据质量管理
数据质量管理是一个集方法论、管理、技术和业务为一体的解决方案,不是一时的数据治理方法,是一个不断循环的管理过程。一方面反映出企业数据很难一次性就达到使用的标准规范,毕竟数据治理是一个相对漫长的过程;另一方面也反映出数据质量的重要性以及数据质量工作的零散性和琐碎性。
3.数据质量评估标准
一致性:一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。
完整性:完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量更为基础的一项评估标准。
及时性:及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。
准确性:准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。更为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。
有效性:对于数据的值、格式要求符合数据定义或业务定义的要求,如某些电话、邮箱的格式。
唯一性:针对某个数据项或某组数据,没有重复的数据值。值必须是唯一的如ID类数据。
二、数据质量问题产生的原因
1.技术原因
(1)数据标准制定
数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。
(2)数据模型设计
由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。
(3)数据源本身
在生产系统中有些数据就存在不规范、不完整、不准确、不一致等问题,而采集过程没有对这些问题做清洗加工处理,或清洗加工的程序代码不正确。
(4)数据梳理过程
在数据采集之前,需要梳理组织机构、业务事项、信息系统、数据资源清单等信息,对业务的理解不到位,将造成梳理报告的不完整或不正确。
(5)数据采集过程
采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。
(6)数据清洗加工
数据清洗规则、数据转换规则、数据装载规则配置有问题,甚至未按照数据标准开展相应的清洗加工工作,自由发挥的空间过大。并且在数据汇聚的过程中,没有及时建立数据的相关性,导致后期很难补充完善。
2.业务原因
(1)业务理解不到位
(2)业务流程的变更
(3)数据输入不规范
(4)数据作假
3.管理原因
(1)人才缺乏
组织以自身的业务发展的主要原则组建团队,数据建设则依赖于外部服务公司,而自身没有建立相应的管理手段和监督机制,从而无法准确判断数据项目的建设成效。
(2)流程管理不完善
缺乏有效的数据质量保障机制和问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。
(3)成员意识不开放
组织管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。组织成员没有从组织战略的视角来看待数据资产,而把数据看成是创造它的部门的资产,从而导致数据冗余、数据不一致、数据割裂,从而导致数据价值难以发掘。
(4)奖惩机制不明确
没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到权威源头或找不到负责人。缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。
三、数据质量管理措施
1.从数据的整个生命周期来管理
(1)事前预防
①制定质量管理机制
②制定数据质量标准
③制定质量监测模型
④制定质量监测规则
(2)事中监控
①监控原始数据质量
②监控数据中心质量
③反馈数据质量问题
④考核数据质量考核
(3)事后改善
①修复数据质量问题
②收集数据质量需求
③完善质量管理制度
④完善数据质量标准
⑤完善质量监测模型
⑥完善质量监测规则
2.从数据质量问题解决依赖的知识来管理
(1)数据梳理
数据梳理是明确企业数据现状,知道整体数据质量情况,将具有共同的特征数据提取出来,按照主题域的方式进行划分,方便后续的数据管理。先明确企业数据的种类,根据数据的不同分类,选择不同的提升数据质量的方法。
从业务角度出发,梳理出目前企业数据之间的流向关系、数据的分类情况和数据分类之间的关系,明确什么数据是基础数据,什么数据是由基础数据衍生出来的只有先梳理清楚目前企业数据情况,才能认清企业数据的情况,从中找到提升数据质量的关键突破点。
(2)数据规范
主要从数据模型和数据标准两个方面定义好数据规范:
①数据模型:通过对展现客观事物的信息进行抽象、综合、分类,组织为具有某种结构的数据,对这些数据结构、其相互之间逻辑关系、数据操作方式及约束的描述。在实际的建模过程中,数据模型所描述的内容包括数据结构、数据操作、数据约束三个部分。
②数据标准:真正数据标准并不是规范文档、流程文档、制度文档等,而是通过一套由管理规范、管控流程与技术工具共同组成的体系逐步实现数据信息化标准的过程。
在做业务系统的数据模型设计之前,企业要设计一套相对标准的数据规范。通过数据标准规范来反向推动业务进行数据收集,解决数据不一致的问题。
常用的策略有以下几种:
①在需求规划阶段:梳理企业现有的数据模型是否合理,有则改之无则加勉,然后根据现有的模型来设计整体系统的模型,整个过程始终遵循数据标准的规范要求;
②在数据获取阶段:重点关注数据的安全性与隐私性问题、数据的及时性问题,数据传输等问题;
③在数据存储和共享阶段:重点关注数据的整合问题,数据的一致性问题,数据的完整性等问题。
四、总结
1.数据质量管理要对其业务目标,企业的数据治理不是为了治理数据而治理数据,其最终目的都是为了支持业务和管理目标实现。因此提升数据质量的主要目的是推动业务发展;
2.企业要不时进行主动的数据清理和处理补救,以纠正现有的数据问题,因为尽管有效数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到100%数据问题防治,甚至有时候严格的数据质量控制还会引出其他更多的数据问题;
3.建立企业组织保障体系,企业需要建立一种文化,以让更多的人认识到数据质量的重要性,比如成立数据治理委员会,为数据质量定下基调,制定有关数据基础架构和流程的决策等。