一、什么是数据质量管理
数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的目标是通过数据分析、数据评估、数据清洗、数据监控、错误预警等内容,解决数据质量问题,使数据的质量得以改善,使其满足数据需求方对数据质量的规则要求。
二、为什么企业需要数据质量管理
企业开始意识到数据质量管理的重要性。推动数据质量需求的共同点有:将新数据源,尤其是非结构化数据与现有系统集成;利用所有可用的企业数据所需的财务投资和竞争压力:以及从数据所在的孤岛中提取数据的难度等。哈佛商学院发布一项研究显示,47% 的新创建数据记录至少包含一个严重错误。麻省理工学院斯隆进行的一项惊人研究指出,不良数据的处理成本可能高达总收入的 15-25%,且是长期的无用成本损耗。一个可靠的数据质量管理计划将确保数据的高度完整性,并且任何需要它的人都可以以安全和受监管的方式随时获得数据。
数据质量管理就是找到正确的组合,让合适的人员按照正确的方法配备正确的工具。
三、数据质量评估标准
1、一致性
多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。
2、准确性
准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。
3、唯一性
用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是
数据治理需要解决的最基本的数据问题。
4、完整性
数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。
5、及时性
数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
6、关联性
数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
7、真实性
数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。
四、数据质量管理建设方案
1、建立质量管控流程和规范
明确质量管控的角色、职责,建立可执行的工作流程、可量化的工作评估等关于数据质量管控办法,同时也应具备绩效考核、冲突解决与管控方式等。
2、执行管理工作
1)数据剖析
进行已知数据问题的评估,评估的范围控制在本轮管控的目标范围内。通过对数据进行剖析,发现数据问题,具体规则又可通过标准或业务调研进行提取。
2)设计数据质量控制操作程序
获得已知数据问题后,就应设计数据质量控制操作程序。主要包括制定质量问题评估方式和整改方式、制定质量报告内容及对象以及制定检查和监控的频率及方式。
3)定义数据质量需求
根据剖析的质检规则和控制操作程序,对数据质量需求进行定义。
4)确定数据质量水平
数据质量需求定义完毕之后,我们就需要确定在此需求下,目前数据质量的水平处于什么位置。明确反应质量水平的并最直观的就是错误数据的详情情况。
5)管理数据质量问题
问题找到后,针对根据不同的质量问题,进行不同的质量整改方案。比如:源头修改、补录、技术修复以及遗留问题管控等。
3、检查数据质量
首先确定整改质量,对处理后的数据进行再次质检,出具数据质量的报告;然后,对比处理前后效果,总结改进措施;最后,检查数据质量是否合格,分析不合格原因并下一轮管控中进行技术上或者操作程序上的改进。
4、监控数据质量,控制管理程序和绩效
根据既定的操作程序,对质量管控过程中各个环节参与者进行绩效评估。还可以根据不同时期的重点制定不同的评分标准,有针对性的进行评价和管控,如整改初期数据缺失严重,则可对完整性规则权重调大,以期更快看到成效或者达到更好的效果。