世界正处于数据时代。这意味着今天产生的数据比人类历史上过去 5000 年的数据还要多——每天大约产生2.5 万亿字节的数据。每次有人发送电子邮件或文本、下载应用程序、发送任何数量看似微不足道的事情时,都会创建数据,而数百万人的这些交互的复合数量造成了数据的爆炸式增长。企业可以需要数据驱动,而不是被数据淹没。数据驱动型企业的一个共同特征是,他们都制定了数据质量管理计划,以确保使用最优质的数据源。
一、什么是数据质量管理?
数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
二、数据质量的重要性
数据信息是企业重要的战略资源,合理有效的使用正确的数据能指导企业领导作出正确的决策,提高企业的竞争力。不合理的使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。
现在很多大型企业已意识到数据信息和数据质量的重要性,专门成立了数据中心来管理数据方面的工作。
三、数据质量评估模型
1、基础模型。
其他模型必须以基础模型中的计划和标准为依据。基础模型主要是映射、定义数据采集标准,上载分单位的采集计划,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范。
2、数据质量定义模型。
以基础模型为前提对数据质量的统一规范的定义,是数据质量分析评价的依据和基础。数据质量定义模型可以使用质量特性描述。数据质量特性归纳为数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性。
3、数据质量控制模型。
数据质量控制模型以数据质量定义模型为基础,按照定义的检查范围和时间以自动或手工方式完成对数据质量的检查工作。在质量控制过程中违反了数据质量定义的,视为数据质量问题,数据质量问题直接通过数据质量的关键特性和指标反映出来。数据质量控制模型的控制内容表现在:对数据检查对象、数据检查频度、数据检查时间、数据检查方式等方面进行控制。
4、数据质量评价模型。
数据质量评价模型,是以数据质量定义模型为依据,由数据质量控制模型操控执行,根据反馈的质量检查结果表,评议出数据质量的关键指标,实现对数据质量的量化诊断和评价。
数据质量分析评价模型功能核心是,通过对基础模型中的采集计划和质量定义模型中的约束规则的处理,由控制模型调用可以实现检查分析的后台存储过程在实体库中执行检查,形成查询结果,再由分析程序进行分析、计算、分类、汇总,生成反映采集计划完成情况和数据质量量化指标的结果,存储到分析结果表中,从前台调用这个分析结果表,就可以生成一份详尽的反映数据质量问题各类量化指标的数据质量分析评估报告,展现所评估实体库的数据入库的及时率、数据上报的完整性、数据采集的一致性、数据入库的准确率。
5、数据质量辅助管理模型
数据质量辅助管理包括报告模版管理、权限管理、数据库资源占用情况等等。
四、数据质量管理方案
1、定义业务需求和方法
明确数据质量管理的重点、时机和目标,来指导整个项目期间的所有工作。
2、分析信息环境
收集、整理并分析与数据质量相关的信息环境。明确信息生命周期,确保相关数据得以评估。设计数据获取与评估方案。
3、评估数据质量
针对适用于这一问题的数据质量维度,评估数据质量。评估结果用来确定数据质量问题的根本原因、需要改进的地方。
4、评估业务影响
使用各种技术来评估劣质数据对业务的影响。该步骤为业务改进、确定适当的资源投资提供依据。
5、确定数据质量问题原因
确定引起数据质量问题的根本原因,并区分优先次序,以及为解决这些问题的具体建议。
6、制定提高方案
确定最终具体解决方案。
7、预防未来数据错误
实施解决引起数据质量问题的根本原因的解决方案。
8、纠正当前数据错误
实施数据纠正步骤。
9、实施控制
监控和核实所进行的改进。通过标准化、归档和对改进进行持续监测,维护结果。
10、沟通行动和结果
归档和沟通质量管理效果、所做的改进和改进的结果。其中沟通非常重要。