睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据质量评价体系

时间:2022-03-04来源:互联网浏览数:675

在执行了一系列的举措来提高数据质量后,如何来验证数据质量的治理效果呢?
根据企业本身的数据特点,设计并构建了一个数据质量七维评价模型:

数据质量评价模型,分别从数据完整性、监控覆盖率、告警响应度、作业准确性、作业稳定性、作业时效性、作业性能分等七个维度来考量平台的数据质量,基于该模型,还设计了“数据质量分”这个指标,来直观地反映平台数据质量的建设水平及健康状况。

数据质量七维模型的评价视角及其计算口径:
1数据完整性
 ☆  考量数据项信息是否全面、完整、无缺失
 ★  指标公式:表完整性和字段完整性的平均值
 
2监控覆盖率

 ☆  确保数据遵循统一的数据标准或规范要求
 ★  指标公式:监控的高价值作业个数/高价值作业总个数
  其中,高价值作业是指作业价值分在80分以上的作业

3告警响应度
 ☆  通过日常管理、应急响应,降低或消除问题影响,避免数据损毁、丢失
 ★  指标公式:已处理告警个数(本周)/告警总个数(本周)

4作业准确性
 ☆  考量数据是否符合预设的质量要求,如唯一性约束、记录量校验等
 ★  指标公式:1 - 告警作业个数(本周)/监控作业总个数

5作业稳定性
 ☆  考量作业的运行稳定性,是否经常报错,导致数据事故
 ★  指标公式:1 - 错误作业个数(本周)/作业总个数
 
6作业时效性
 ☆  考量数据项信息可被获取和使用的时间是否满足预期要求
 ★  指标公式:1 - 延迟的高价值作业个数(本周)/高价值作业总个数
     其中,基准时间为作业近30天平均完成时间加30分钟,作业晚于基准即延迟

7作业性能分
 ☆  考量作业的执行效率和健康度,诊断作业是否倾斜等性能问题
 ★  指标公式:1 -  危急作业个数(本周)/作业总个数

从各质量维度的评价视角和指标公式可以发现,虽然数据质量监控的是表及字段的质量情况,但我们的质量分是设定在库这个层级。这么设计主要是为了更好地责任划分、统筹治理。

比如在银行业,每个库都有其对应的所属分层(如明细层、汇总层、应用层等),且每个库都有对应的库负责人,所以到库这个层级,我们能更好的分而治之,由库负责人对库的质量水平负责。

基于数据质量模型,我们还配套对应的数据质量监控报告。在报告中我们不仅能看到数据平台的整体质量评分,了解质量发展趋势,更能通过多维分析、单维深钻来了解平台的质量问题根源。

多维分析:详细展示七个质量维度的评分及趋势变化,每个维度下还配有TOP榜,用来展示低质量的库排名,督促库负责人进行优化、治理;


单维深钻:每一个质量维度都能从整体下钻到具体库及表,深入了解该维度质量评分低的具体原因,以便针对性地解决问题、提高质量;

综上,就是在数据质量治理方面的一些具体实践。数据质量治理是一个长期的、持续性的工作,不可能期望一蹴而就。

在治理过程中,需要不断优化质量短板,夯实质量基石。设目标、定责任,积极配合与行动,充分利用平台工具,共同建设一个数据乌托邦,让数据价值发挥耀眼光芒。

数据质量治理仅仅是数据治理的一个小环,而企业内部的数据质量问题并非不治之症,根据行业最佳实践开展管理体系提升,配备必要的软件,总能把这个问题解决掉,所谓企业内部的数据质量问题最终会消弭于无形。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询