无论是任何行业或者何种背景下的企业,在步入信息化数字化阶段后,都会面临数据质量问题。没有一个组织拥有完美的业务流程、完美的技术流程或完美的数据管理实践,所有组织都会遇到与数据质量相关的问题。相比那些不开展数据质量管理的组织,实施正式数据质量管理的组织碰到的问题会更少。
数据质量常见问题及原因
1、数据延迟,导致业务无法在正常时效内获得数据结果。
2、数据错误,导致数据结果完全不可信,以致无法使用。
3、数据恢复慢,问题发生后,排查分析耗时长,数据恢复时间慢。
4、发现滞后,数据开发晚于业务人员发现数据异常,导致影响已传导到数据应用端。
想要解决这些质量问题、保证数据的高质量交付,我们需要了解这些质量问题产生的根本原因。通过对历次数据质量问题进行复盘、总结,发现质量问题主要由下面几类原因引发:
1、数据平台问题:平台不稳定、队列资源不足等,导致作业运行延迟、报错。
2、数据开发问题:数据开发人员的任务脚本性能太差,计算严重耗时,导致数据延迟;或是代码逻辑设计有问题,导致数据计算有误。
3、上游系统异常:上游源系统异常,数据文件晚到,导致下游依赖作业延迟。
数据质量管理的关键步骤
1、配置监控规则
对高价值分的作业,强制配置基础监控规则,如:主键唯一性校验、数据非空校验。另外还可以根据业务场景需要,配置对应的业务规则监控,如:字段总值环比校验、字段极值校验等。
2、监控告警
当校验规则识别异常时,通知负责人跟进处理;收到告警后,需及时地处理和关闭告警,否则告警将一直挂在那,在后面的告警响应度中会被稽核到,上报领导。
3、全链路数据监控
根据作业的价值分级,针对高价值作业,开发人员可根据数据血缘,对上游作业依次配上监控,实现全链路的数据质量监控。