一、什么是数据质量与数据质量管理
首先来了解什么是数据质量,数据质量其实是一个评估规则维度,提供了一种测量与管理信息和数据的方式。包含以下评估维度:
1、一致性
数据实体不一致,例如:命名及含义不一致、数据编码不一致、生命周期不一致、分类层次不一致。多源数据的数据模型不一致,例如:数据结构不一致、命名不一致、约束规则不一致。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。
2、完整性
不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值;数据完整性问题包括:模型设计不完整,例如:参照不完整、唯一性约束不完整。
3、唯一性
重复数据是数据治理需要解决的最基本的数据问题,它是导致业务无法协同、流程无法追溯的重要因素。唯一性用于识别和度量重复数据、冗余数据。
4、准确性
不准确的数据会造成有缺陷的方法和糟糕的决策,导致严重的问题。准确性是用于分析和识别哪些是不准确的或无效的数据。
5、真实性
真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料,数据必须真实准确的反映客观的实体存在或真实的业务。
6、及时性
及时性是指能否在需要的时候获到数据,数据的及时性是影响业务处理和管理效率的关键指标,与企业的数据处理速度及效率有直接的关系。
7、关联性
数据关联性问题是指存在数据关联的数据关系缺失或错误,存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。例如:相关系数、函数关系、索引关系、主外键关系等。
数据质量管理,是指对数据整个生命周期(计划、采集、存储、共享、维护、应用、销毁)的每个阶段里可能引发的各类数据质量问题,进行监控、度量、识别、预警等一系列管理活动。数据质量管理是循环管理过程,通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的最终目标是通过可靠的数据提升数据在使用中的价值,为企业赢得经济效益。
二、如何提升数据质量
1、事前定义数据的监控规则
梳理对应指标、确定对象(字段、单表、多表)、通过影响程度确定资产等级、质量规则制定。
2、事中监控和控制数据生产过程
1)支持定时调度;
2)强弱规则控制ETL流程;
3)对脏数据进行清洗;
4)质量监控和工作流无缝对接。
3、事后分析和问题跟踪
1)邮件短信报警并及时跟踪处理;
2)稽核报告查询;
3)异常评估、严重程度、影响范围、问题分类;
4)数据质量报告的概览、历史趋势、异常查询、数据质量表覆盖率。