随着大数据时代的带来,数据的应用也日趋繁茂,数据的重要性不言而喻,越来越多的应用和服务都基于数据而建立。如何保障数据质量,确保数据可用性是每一位数据人都不可忽略的重要环节。而且,数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提。
一、数据治理四大关注点
1、准确性
准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误的信息。一般准确性的监控多集中在对业务结果数据的监控,比如每日的活跃、收入等数据是否正常。
2、完整性
完整性是指数据的记录和信息是否完整,是否存在缺失的情况。完整性是数据质量最基础的保障,数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确。完整性的监控,多出现在日志级别的监控上,一般会在数据接入的时候来做数据完整性校验。
3、及时性
企业要想体现数据的价值,就要保障数据能够及时产出。及时性主要就是数据计算出来的速度是否够快。在数据质量监控中可以体现在监控结果数据是否在指定时间点前计算完成。
4、一致性
一致性是指同一指标在不同地方的结果是否一致。数据不一致的情况,多出现在数据系统达到一定的复杂度后,同一指标会在多处进行计算,由于计算口径或者开发人员的不同,容易造成同一指标出现的不同的结果。
二、从哪几个方面进行数据质量监控
数据种类(Variety):数据类型的多样性;
数据容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息;
数据可变性(Variability):妨碍了处理和有效地管理数据的过程;
数据速度(Velocity):指获得数据的速度;
数据复杂性(Complexity):数据量巨大,来源多渠道;
数据真实性(Veracity):数据的质量。
三、如何进行数据质量监控
数据质量监控就是对系统中的数据本身和数据工作流进行监督管理。包括监测数据工作环境的服务器软硬件运行状态、性能、磁盘空间、数据库事务、锁、缓冲、会话量、备份等等一系列指标,实施预警机制,并监测一些异常情况的发生。除此之外,还需要对数据进行校验:日常校验、数据抽检、全面校验等。数据质量监控主要包括原始数据质量监控、数据中心质量监控、反馈数据质量问题以及数据质量考核。
原始数据质量监控:数据采集工作从数据源头获取最原始的数据,在数据采集过程中将数据分为“好数据”“坏数据”,“好数据”入库,“坏数据”则反馈给源头修复,因为数据来源部门最懂这些数据,也最能在源头上把数据问题彻底修复掉。
数据中心质量监控:经过各种采集、清洗、加工过程,数据被存入数据仓库中,这些数据也将被业务部门使用,所以,对于这些成果数据的质量监控和修复则犹为重要。对于这类数据问题,我们可以使用规范性检查、空值检查、逻辑检查、值域检查、一致性检查等等检测方法,复杂点的数据质量问题可以使用数据佐证、多源比较、波动检查、数据探索、离群检查等等检查方法。
反馈数据质量问题:数据质量监控过程中,会发现两类问题:一类是数据中心的数据质量问题;另一类是源头的数据质量问题。数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。
数据质量考核:数据质量的考核是为了能够引起各个参与部门和参与团队对数据质量的重视,需要及时统计分析各种数据质量问题,并制定出相应的应对措施。