一、什么是数据质量管理?
数据质量管理是指对数据从产生、获取、存储、共享、维护、应用等各个阶段可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使数据质量获得进一步提高。
数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展。
二、什么是数据质量管理系统
我们知道,数据是企业数据中心的重要资产,获取并维护高质量的数据,对业务及运营至关重要。而数据量越大,有价值的信息获取的难度就越大。如果获取不到有用的信息,就不能很好的进行数据挖掘和数据分析。
但是在这个过程中,有许多因素会导致这些数据资产贬值,比如数据的冗余和重复会导致信息的不可识别、不可信及精确度不够等情况的发生。
而数据质量管理系统就是对数据进行处理后能够提供高质量的数据,最终的目的是挖掘数据价值,推动业务发展,实现盈利。数据质量管理系统主要由数据清洗与去重、数据可视化、数据评估、数据治理、数据挖掘以及数据分析组成。
三、数据质量评估维度
1、唯一性
用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。
2、关联性
数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
3、真实性
数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。
4、准确性
准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。
5、及时性
数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
6、完整性
数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。
7、一致性
多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致等。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。
四、如何提升数据质量
1、事前定义数据的监控规则
梳理对应指标、确定对象(多表、单表、字段)、通过影响程度确定资产等级、质量规则制定
2、事中监控和控制数据生产过程
1)质量监控和工作流无缝对接;
2)支持定时调度;
3)强弱规则控制ETL流程;
4)对脏数据进行清洗。
3、事后分析和问题跟踪
1)邮件短信报警并及时跟踪处理;
2)稽核报告查询;
3)数据质量报告的概览、历史趋势、异常查询、数据质量表覆盖率;
4)异常评估、严重程度、影响范围、问题分类。