数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
一、什么是数据质量
数据质量是一个评估规则维度提供一种测量与管理信息和数据的方式。区分规则维度有助于:
1)了解从每一维度的评估中能够/不能够得到什么;
2)在时间和资源有限的情况下,更好地定义和管理项目计划中的行动顺序;
3)将维度与业务需求相匹配,并且划分评估的先后顺序。
数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误的数据还不如没有数据,因为没有数据时,我们还会基于经验和基于常识的判断来做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此数据质量是企业经营管理
数据治理的关键所在。
二、数据质量检核维度
数据的质量可以从八个方面进行衡量,每个维度都从一个侧面来反映数据的品相。八个维度分别是:真实性、准确性、全面性、完整性、即时性、及时性、关联性和精确性。
数据的真实性
即数据的正确性。数据的正确性取决于数据采集过程的可控程度,可控程度高,可追溯情况好,数据的真实性容易得到保障,而可控程度低或者无法追溯,数据造假后无法追溯,则真实性难以保证。
数据的准确性
指数据采集值或者观测值和真实值之间的接近程度,也叫做误差值,误差越大,准确度越低。数据的准确性由数据的采集方法决定的。
数据的全面性
全面性指的是数据采集点的遗漏情况。比如说,我们要采集员工行为数据,我们只采集了员工上班打卡和下班打卡的数据,上班时间的员工行为数据并未采集,或者没有找到合适的方法来采集。那么,这个数据集就是不全面的。
数据的完整性
数据的完整性是从数据采集到的程度来衡量的,是应采集和实际采集到数据之间的比例。一条信息采集12个数据点,如我们采集员工信息数据的时候,要求填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最高学历专业、最高学历毕业院校、最高学历毕业时间等12项信息,而某一员工仅仅填写了部分信息,如只填写了其中的5项,则该员工所填写数据的完整性只有一半。
数据的即时性
指数据采集时间节点和数据传输的时间节点,一个数据在数据源头采集后立即存储,并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据即时性就稍差。
数据的及时性
即数据能否在需要的时候得到保证。数据的及时性是我们数据分析和挖掘及时性的保障。如果公司的财务核算复杂,核算速度缓慢,上个月的数据在月中才能统计汇总完成,等需要调整财务策略的时候,已经到了月底了,一个月已经快过完了。特别是大企业,业务覆盖多个市场、多个国家,数据不能及时汇总,会影响到高层决策的及时程度。
数据的关联性
指各个数据集之间的关联关系。比如员工工资数据和员工绩效考核数据是通过员工这个资源关联在一起来的,而且绩效数据直接关系到工资的多少。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来。
数据的精确性
指对同一对象的观测数据在重复测量时所得到不同数据间的接近程度。精确性,也可以叫精准性。精确性与我们数据采集的精度有关系。精度高,要求数据采集的粒度越细,误差的容忍程度越低。
三、数据质量治理工具
亿信华辰EsDataClean数据质量管理平台,提供了业界领先的质量规则管理方法、质量评估方法、零编码质检规则、跨数据源比对、质量分析报告、数据质量整改、质量绩效评估等主要功能,以数据标准为数据检核依据,以元数据为数据检核对象,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。
点击查看更多关于数据治理的文章:
数据交换的定义和作用
数据安全分类分级方法
如何做好数据安全保护