睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据质量管控方法论:四步走教你扫平一切质量障碍

时间:2021-09-08来源:亿信华辰浏览数:920

“熵”是热力学第二定律的核心概念,熵其实就是指的“混乱程度”,简单来说熵是衡量我们这个世界中事物混乱程度的一个指标。在一个孤立系统中它的总混乱度(熵)是不会减小的,也就是说如果不做任何管控,事物往往会不断的向无序发展。

其实数据也是一个不断熵增的过程,随着时间的推移会出现无效数据、错误数据、冗余数据、不规范数据、相冲突数据等。如果不好好进行管控,去减少我们数据中的“熵”,我们最后会得到一些无序低价值的数据。

如何化“熵增”为“熵减”,数据质量管理尤为重要。
下定义:解读数据质量管理
数据质量管理是对数据从计划、获取、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。

所以,数据质量是保证数据应用的基础,而要评估数据是否达到预期设定的质量要求,需要有专业权威的评价标准来约束。目前为止,最权威的标准是由全国信息技术标准化技术委员会提出的数据质量评价指标(GB/T36344-2018 ICS 35.24.01),它包含以下几个方面:

理框架:数据质量管理系统框架
数据质量很重要,我们知道数据存在的问题,我们也知道数据质量要符合6大评价标准,但是我们要怎么系统化建设和管理呢?数据质量管理一般以数据标准为数据检核依据,以元数据为数据检核对象,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。

▲数据质量管理架构图

方法论:数据质量管理的四个阶段
然而,我们需要按照什么流程来对数据质量进行有效的管控,从而提升数据质量,释放数据价值?一般来讲,数据质量控制流程分为4个阶段:启动、执行、检查、处理。在管控过程中这4个阶段需不断循环,螺旋上升。

第一阶段:启动
在这个阶段我们需要根据所在机构的现行组织架构和工作规范基础上,建立一套质量管控流程和规范,如建立质量管控委员会、制定质量管控办法等。质量管控委员会不必是全职,可由现有组织中如信息中心相关人员兼任。而关于数据质量管控办法则应明确质量管控的角色、职责,建立可执行的工作流程、可量化的工作评估方法,同时也应具备绩效考核、冲突解决与管控方式等。

有了流程和规范后,相应的责任人就应明确本轮质量管控的目标。如:数据质量提升范围,或是满足一些业务的预期。目标制定完成后我们就可以进入下一个执行阶段。

第二阶段:执行
进入执行阶段,我们就要开始具体的质量管控工作,整个工作应该围绕启动阶段制定的目标进行。适当引入一些质量管控工具可帮助我们更高效的完成工作。

第一步、数据剖析
首先应该进行已知数据问题的评估,这里评估的范围也应控制本轮管控的目标范围内。其次,通过对数据进行剖析,发现数据问题,具体规则又可通过标准或业务调研进行提取。

1)根据标准,提出标准规则
比如,我们可以根据标准,提炼出如下图所示的编码规则,并进行检验。

2)调研业务,提取业务规则
接着,我们可以从业务调研中提取规则,如金融业的大中小微企业贷款当年累放额计算口径:大中小微企业贷款当年累计发放额=大型企业贷款当年累计发放额+中型企业贷款当年累计发放额+小型企业贷款当年累计发放额+微型企业贷款当年累计发放额+个人经营性贷款当年累计发放额,这样的指标计算规则,并进行检查管控。

当然业务规则也可以是围绕我们既定的业务预期展开。目标不同,业务剖析的方向也应随之调整。
第二步、设计数据质量控制操作程序

获得已知数据问题后,就应设计数据质量控制操作程序。主要包括以下3个方面:
1)制定检查和监控的频率及方式
2)制定质量问题评估方式和整改方式
3)制定质量报告内容及对象

第三步、定义数据质量需求
根据剖析的质检规则和控制操作程序,对数据质量需求进行定义,这里又可拆分成以下三步。

1)梳理数据模型
梳理数据模型的主要工作是确定检查对象实体之间的关系,如关键字、主外键关系梳理、字段类型、长度等。

2)建立质量规则
这一步是将我们剖析的数据检验业务规则,转化成可执行、有结果的技术规则。

3)建立质检方案
将可以同时评价且主责部门划分一致的规则集合起来,建立质检方案。也可根据业务或者评价规范再对规则进行细分并建立方案。

第四步、确定数据质量水平
数据质量需求定义完毕之后,我们就需要确定在此需求下,目前数据质量的水平处于什么位置。明确反应质量水平的并最直观的就是错误数据的详情情况,如下图所示。

根据汇报的对象不同,一般也需要出具质检情况的统计报告。

第五步、管理数据质量问题
问题找到,下一步我们就应该进行问题的管理了。根据不同的质量问题,进行不同的质量整改方案。一般方式有以下4种:

1)源头修改,即问题数据生产系统中进行修改。
2)补录,即在数据中心,建立一个新的仓库,针对数据问题进行补充录入,一般情况为源系统升级或其他原因导致无法从源系统进行修改,而采取的变通方案。

3)技术修复,即通过如ETL工具等技术手段,对问题数据进行清洗、转换。

4)遗留问题管控,即对一些无法修复处理的数据进行特殊处理,一般情况下进行标记或者例外处理。

第三阶段:检查
检查阶段,主要是对执行阶段的成果进行检查并分析原因,包括以下3个方面。

1)确定整改质量
对处理后的数据进行再次质检,出具数据质量的报告。

2)对比整改效果
对比处理前后效果,总结改进措施。

3)检查数据质量是否合格,分析不合格原因
在这轮管控中检查数据质量是否合格,并找到不合格的原因,在下一轮管控中进行技术上或者操作程序上的改进。

第四阶段:处理
1)监控数据质量,控制管理程序和绩效
根据既定的操作程序,对质量管控过程中各个环节参与者进行绩效评估。还可以根据不同时期的重点制定不同的评分标准,有针对性的进行评价和管控,如整改初期数据缺失严重,则可对完整性规则权重调大,以期更快看到成效或者达到更好的效果。

2)建立质量控制意识与文化
在这一步中沟通与推广是重点,要让所有参与者了解数据质量问题和其实质影响,宣贯系统化的数据质量管控方法,同时挖掘各个环节参与者的价值,尤其是业务方,传达一种“数据质量问题不能只靠技术手段解决”的意识。最终形成一种数据质量管理的文化。

数据质量管控在数据治理体系中占据了十分重要的地位,是看见实质成效最快的一环,也是数据治理过程中的重要一环,亿信华辰睿治智能数据治理平台,是一款融合数据治理十大产品模块,覆盖数据全生命周期管理的应用平台,其中也包括了数据质量模块,可帮助政企有效提升数据质量,挖掘数据价值。

质量管控是长期且动态的过程,需要企业上下不断的探索思考,有了睿治的助力相信这个过程会变得顺利并快捷的多。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询