数据质量对数据治理的意义
数据质量是企业经营管理数据治理的关键所在。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误数据还不如没有数据,因为,如果没有数据,企业管理者可以根据自身经验来做决策,而错误数据则会引导企业管理者做出错误的决策。因此,数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的准确性。
数据质量六大标准是什么
1、数据的准确性
数据的准确性是指数据与其描述的客观实体的特征是否一致,即数据采集值或者观测值和真实值之间的接近程度,也叫做误差值,误差越大,准确度越低。数据的准确性取决于数据采集过程的可控程度,可控程度高,可追溯情况好,数据的真实性容易得到保障,而可控程度低或者无法追溯,数据造假后无法追溯,则真实性难以保证。例如一个男性客户信息,但是在客户资料中记录的性别却是女。
2、数据的一致性
一致性是指存储在不同的系统中的同一个数据,是否存在差异或相互矛盾。例如航班始发站,在不同系统中记录的应该是同一个站点。
3、数据的唯一性
唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。例如一个人只能有唯一的身份证号码。
4、数据的规范性
规范指的是一项数据存在它特定的格式,规范性用于约束数据按统一标准存储。例如IP地址必定是由 4个0到255间的数字加上”.”组成的;手机号码必定是13位的数字。
5、数据的及时性
数据的及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。就是数据能否在需要的时候得到保证。如果数据延时超出统计的要求,就可能导致分析得出的结论失去了意义。特别是业务覆盖多个市场、多个国家的大型企业,如果数据不能及时汇总,会影响到高层决策的及时程度。例如销售日报,用于要求每天统计T-1的销售数据,但是数据只能提供T-2,显然达不到用户的要求。
6、数据的完整性
数据的完整性是从数据采集到的程度来衡量的,是应采集和实际采集到数据之间的比例。指的是数据信息是否存在缺失的情况,数据缺失的情况可能是整个数据记载缺失,也可能是数据中某个字段信息的记载缺失。一个公司数据的完整性体现着这个公司对数据的重视程度。要求采集数据而实际上并未完整采集,只采集了一部分,这就是不完整的,往往是公司对数据采集质量要求不到位导致的。例如采集员工信息数据的时候,要求填写姓名、性别、出生日期、籍贯、民族、身高、婚姻状况、血型、最高学历、最高学历毕业院校、最高学历专业、最高学历毕业时间等12项信息,而某一员工仅仅填写了部分信息,如只填写了其中的5项,则该员工所填写数据的完整性只有一半。另外,对于动态数据,我们可以从时间轴上去衡量数据采集的完整性。比如,我们要求每小时采集一次数据,每天会形成24个数据点,记录为24条数据,但是员工渎职,只记录了20次,那么这个数据集也是不完整的。