首页 亿信华辰大数据知识库 数据治理思考:数据质量如何监控

数据治理思考:数据质量如何监控

|亿信华辰大数据知识库2022-02-18

目前,越来越多的应用和服务都基于数据而建立,数据的应用也日趋繁茂,数据的重要性不言而喻。数据质量是一切数据驱动决策的前提,也是数据分析和数据挖掘结论有效性和准确性的基础。因此,确保数据可用性与数据质量是企业不可忽略的重要环节。

目前,越来越多的应用和服务都基于数据而建立,数据的应用也日趋繁茂,数据的重要性不言而喻。数据质量是一切数据驱动决策的前提,也是数据分析和数据挖掘结论有效性和准确性的基础。因此,确保数据可用性与数据质量是企业不可忽略的重要环节。
一、数据质量的影响因素
数据种类(Variety):数据类型的多样性;
数据容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息;
数据可变性(Variability):妨碍了处理和有效地管理数据的过程;
数据速度(Velocity):指获得数据的速度;
数据复杂性(Complexity):数据量巨大,来源多渠道。
数据真实性(Veracity):数据的质量;
二、数据质量如何监控

1、数据对账
离线数据对账方法有很多,比如可以和业务库来对比;而针对实时数据,特别是Kafka数据落地,必须要有一个监控机制来知道数据落地情况。
2、性能监控
性能监控即数据可用性监控,包含两个方面:
数据读写影响,比如 es,在写入数据的时候会影响读数据,需要即时监控,并做相应调整。
查询性能,比如es的某个索引,在不同时间段的查询响应速度,还有hive、kylin、presto的查询,可以通过任务监控来观察。
3、日常监控
日常监控中最重要的就是数据落地检查,常见监控内容如下:
数据掉0监控:数据量阈值监控,少于某个量就告警    
重复数据监控:监控是否存在重复数据。
数据同比环比监控:环比监控指主要是对比很短时间内涨幅程度,一般是用在月、日,不过由于行业差异,比如旅游,会受到淡旺季影响,需要用到年;同比监控一般用在相邻两年,相同时间段内,查看涨幅程度,一般用在两年相同月份;
关键指标监控:检查数据关键指标或属性值是否有异常,然后及时做出反应
数据落地监控:实时监控数据落地,确保数据质量的完整性、准确性、一致性和及时性。
5、多数据源监控
目前大数据场景比较复杂,引入了非常多的开源组件,而且还会有新的组件持续地引入,因此要考虑到对不同组件的数据监控。包括:ES、Kylin 、Hive、Mysql、Redis等
4、告警
通过告警报表系统来展示数据预警情况,特别是对数据量趋势内容的监控,需要用到可视化的对比。


三、睿治数据质量管理工具的功能及应用

亿信华辰自主研发的睿治数据质量管理平台EsDataClean,一站式轻松搞定质检全过程,能够有效地管理与掌控数据质量,提高业务数据的正确性、适时性、完全性、一致性与相关性。具备如下功能:
图形化操作界面,全程零编码
采用全导航交互式设计界面,技术门槛低。不管是规则定义还是流程管理都无需编写sql或代码,通过图形化界面进行简单配置即可,使得非技术用户也能对定义过程和定义结果一目了然。
一站式轻松搞定质检全过程
亿信数据质量管理平台(EsDataClean)提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等数据质量管理全过程的功能。
智能数据质量检查调度
通过事先定义好的规则、调度时间、工作流程,自动完成数据的质量检查,极大的减少人力的投入和过程干预,提升效率,减少误差。
重大问题及时告警
对质量检查的结果提供多方式(界面、邮件、短信)告警,让用户及时了解到系统检查结果,避免重大问题的延误。
一键生成质量报告和评估结果
系统通过数理统计、数据分析等技术,根据事先定义好的模板,自动生成质量报告和绩效考评结果。
除此之外,还具备完善丰富的数据质量评估体系、全方位的数据体检报告以及卓越的质检性能等功能。以湖南卫健委:省卫生计生统计决策分析系统为例,通过对卫生统计数据的质量控制,并加快升级数据交换功能,重新规划并整合卫生资源、医疗服务、医改监测、计生人口、分科及中医特色等主要业务数据,为各级卫生机构提供准确、便捷的信息访问服务,为深化医改与应急救治提供信息支撑,为制定卫生计生政策规划与宏观管理提供科学依据。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型