一、数据质量定义
数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。
数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。
二、数据质量保障原则
1、准确性
准确性是指数据记录中信息和数据是否准确、不存在明显的错误或异常。例如,在用户行为
数据分析场景中,UV、PV这类指标数值小于0,则明显是错误数据。
2、完整性
完整性是指数据的记录和信息是否完整、不缺失。数据的缺失包括数据记录的缺失和记录中某字段信息的缺失。需要重点关注数据的生产环节和加工环节中表行数是否大于0、表行数波动是否正常以及字段是否出现空值或重复的情况。
3、及时性
及时性主要体现在数据应用层的指标数据可以及时产出。在保证了上面的完整性、准确性、一致性的基础上,保障数据及时产出,才更能发挥数据的价值。保证及时性,需要确保整个数据加工链路上的每个环节都可以准时成功产出。
4、一致性
对于不同的业务流程和节点,来源相同的数据必须保持一致性。
三、数据质量管理的方法论
1、组织环境
一个强有力的数据管理组织的建设是数据治理项目成功的最根本的保证。其作业是两个层面:一是在制度层面,制定企业数据治理的相关制度和流程,并在企业内推广,融入企业文化。二是在执行层面,为各项业务应用提供高可靠的数据。
2、数据质量管理方针
为了改进和提高数据质量,必须从产生数据的源头开始抓起,从管理入手,对数据运行的全过程进行监控,强化全面数据质量管理的思想观念,把这一观念渗透到数据生命周期的全过程。
3、数据质量问题分析
关于质量问题的分析,推荐采用经典的六西格玛,六西格玛是一种改善企业质量流程管理的技术,以“零缺陷”的完美商业追求,以客户为导向,以业界最佳为目标,以数据为基础,以事实为依据,以流程绩效和财务评价为结果,持续改进企业经营管理的思想方法、实践活动和文化理念。六西格玛重点强调质量的持续改进,对于数据质量问题的分析和管理,该方法依然适用。
4、数据质量监控
数据质量监控可以分为数据质量的事前预防控制、事中过程控制和事后监督控制:
1)事前预防控制
建立数据标准化模型,对每个数据元素的业务描述、数据结构、业务规则、质量规则、管理规则、采集规则进行清晰的定义,以上的数据质量的校验规则、采集规则本身也是一种数据,在元数据中定义。实践告诉我们做好元数据管理,是预防数据质量问题的基础。
2)事中过程控制
事中数据质量的控制,即在数据的维护和使用过程中去监控和处理数据质量。通过建立数据质量的流程化控制体系,对数据的新建、变更、采集、加工、装载、应用等各个环节进行流程化控制。
3)事后监督控制
不论我们做了多少预防措施、多严格的过程控制,总是还有数据质量问题的“漏网之鱼”,你会发现只要是人为干预的过程,总会存在数据质量的问题。数据质量问题一旦产生就已经是“木已成舟”,为了避免或减低其对业务的影响,我们需要及时的发现它。这里,数据质量的事后监督控制就尤为重要了。
5、数据全周期管理
数据的生命周期从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段并不断循环的过程。企业的数据质量管理应贯穿数据生命周期的全过程,覆盖数据标准的规划设计、数据的建模、数据质量的监控、数据问题诊断、数据清洗、优化完善等方面。