数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目,业务部门与 IT 部门的相关人员将各自具有明确角色和责任,配备正确的技术和工具,以应对数据质量控制的挑战。
一、数据质量评估
准确性:准确性用于度量哪些数据和信息是不正确的,或者数据是超期的;
一致性:一致性用于度量哪些数据的值在信息含义上是冲突的;
规范性:规范性用于度量哪些数据未按统一格式存储;
完整性:完整性用于度量哪些数据丢失了或者哪些数据不可用;
关联性:关联性用于度量哪些关联的数据缺失或者未建立索引;
唯一性:唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。
二、如何解决数据质量问题
建立全链路的监控
我们需要对数据模型的数据质量进行质量监控,也就是对链路中的表增加了一些稽核校验规则,如果结果数据出现问题,可以快速排查链路上的相关表的质量报告,快速定位到问题所在然后进行修复。
添加稽核校验任务
通过预先设置好的一些规则来验证当前调度任务执行结果表的质量,如果触发规则就自动发送预警给到相关的开发人员。规则可以划分重要等级,不同登记的规则可以采取不同的预警方式和处理方式,比如重要规则的,就停止调度任务的执行,同时通知运维人员对当前任务进行处理。如果是一些不那么重要的规则,就可以通过短信或者推送的方式告知。
规范化管理制度
设计规范化的管理制度,比如评审机制,从而确保依赖关系的完整配置,同时对稽核规则也要进行评审,确保规则的完备性。
智能预警功能
通过分析过去任务运行的时间以及任务需要输出的时间节点,然后根据当前物理资源的情况,自动判断这个调度任务是否可以在规定的时间节点前完成计算,如果不行的话就发起预警,让开发人员暂停一些低级别的任务或者说对时效性不高的任务,释放资源给重要任务使用。