睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据质量管理之事后补救

时间:2023-01-12来源:互联网浏览数:174

是不是做好了事前预防和事中控制就不会再有数据质量问题发生了?答案显然是否定的。事实上,不论我们采取了多少预防措施、进行了多么严格的过程控制,数据问题总是还有 “漏网之鱼”。你会发现只要是人为干预的过程,总会存在数据质量问题,即使抛开人为因素,数据质量问题也无法避免。为了尽可能减少数据质量问题,减轻数据质量问题对业务的影响,我们需要及时发现它并采取相应的补救措施。

一、定期质量监控
定期质量监控也叫定期数据测量,是对某些非关键性数据和不适合持续测量的数据定期重新评估,为数据所处状态符合预期提供一定程度的保证。

定期监控数据的状况,为数据在某种程度上符合预期提供保障,发现数据质量问题及数据质量问题的变化,从而制定有效的改进措施。定期质量监控就像人们定期体检一样,定期检查身体的健康状态,当某次体检数据发生明显变化时,医生就会知道有哪些数据出现异常,并根据这些异常数据采取适当的治疗措施。

对于数据也一样,需要定期对企业数据治理进行全面“体检”,找到问题的“病因”,以实现数据质量的持续提升。

二、数据问题补救
尽管数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到 100%的数据问题防治,甚至过于严格的数据质量控制还会引起其他数据问题。因此,企业需要不时进行主动的数据清理和补救措施,以纠正现有的数据问题。

1、清理重复数据
对经数据质量检核检查出的重复数据进行人工或自动处理,处理的方法有删除或合并。例如:对于两条完全相同的重复记录,删除其中一条;如果重复的记录不完全相同,则将两条记录合并为一条,或者只保留相对完整、准确的那条。

2、清理派生数据
派生数据是由其他数据派生出来的数据,例如:“利润率”就是在“利润”的基础上计算得出的,它就是派生数据。而一般情况下,存储派生出的数据是多余的,不仅会增加存储和维护成本,而且会增大数据出错的风险。如果由于某种原因,利润率的计算方式发生了变化,那么必须重新计算该值,这就会增加发生错误的机会。因此,需要对派生数据进行清理,可以存储其相关算法和公式,而不是结果。

3、缺失值处理
处理缺失值的策略是对缺失值进行插补修复,有两种方式:人工插补和自动插补。对于“小数据”的数据缺失值,一般采用人工插补的方式,例如主数据的完整性治理。而对于大数据的数据缺失值问题,一般采用自动插补的方式进行修复。自动插补主要有三种方式:

● 利用上下文插值修复;
● 采用平均值、最大值或最小值修复;
● 采用默认值修复。

当然,最为有效的方法是采用相近或相似数值进行插补,例如利用机器学习算法找到相似值进行插补修复。

4、异常值处理
异常值处理的核心是找到异常值。异常值的检测方法有很多,大多要用到以下机器学习技术:
● 基于统计的异常检测;
● 基于距离的异常检测;
● 基于密度的异常检测;
● 基于聚类的异常检测。

三、持续改进优化
数据质量管理是个持续的良性循环,不断进行测量、分析、探查和改进可全面改善企业的信息质量。通过对数据质量管理策略的不断优化和改进,从对于数据问题甚至紧急的数据故障只能被动做出反应,过渡到主动预防和控制数据缺陷的发生。

经过数据质量测量、数据问题根因分析以及数据质量问题修复,我们可以回过头来评估数据模型设计是否合理,是否还有优化和提升的空间,数据的新增、变更、采集、存储、传输、处理、分析各个过程是否规范,预置的质量规则和阈值是否合理。如果模型和流程存在不合理的地方或可优化的空间,那么就实施这些优化。

事后补救始终不是数据质量管理的最理想方式,建议坚持以预防为主的原则开展数据质量管理,并通过持续的数据质量测量和探查,不断发现问题,改进方法,提升质量。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询