首页 行业百科 数据质量有几种维度?分别是什么?

数据质量有几种维度?分别是什么?

|亿信华辰大数据知识库2022-04-28

数据质量有几种维度?分别是什么?

亿信华辰数据质量管理平台以数据标准为数据检核依据,以元数据为数据检核对象,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。

一、什么是数据质量
数据质量是一个评估规则维度提供一种测量与管理信息和数据的方式。区分规则维度有助于:
1)了解从每一维度的评估中能够/不能够得到什么;
2)在时间和资源有限的情况下,更好地定义和管理项目计划中的行动顺序;
3)将维度与业务需求相匹配,并且划分评估的先后顺序。
二、数据质量检核维度
1、数据唯一性
用来描述数据是否存在重复记录,没有实体多余出现一次。
唯一性约束:描述同一客观实体在不同业务数据集中的信息,经整合后是唯一的,针对目标通常是单一主键或联合主键,如证件类型+证件号码+姓名相同,则其客户编号应唯一。
2、数据完整性
用来描述信息的完整程度。
非空约束:描述检核对象是否存在数据值为空的情况。如客户开户时,客户名称是必填项,不能出现为空的情况。
3、数据一致性
用来描述同一信息主体在不同的数据集中信息属性是否相同,各实体、属性是否符合一致性约束关系。
1)存在一致性依赖约束:描述检核对象之间数据值存在关系的约束规则。一个检核对象的数据值必须在另一个检核对象满足某一条件时存在。
2)等值一致性依赖约束:描述检核对象之间数据取值的约束规则。一个检核对象数据取值必须与另一个或多个检核对象在一定规则下相等。
3)逻辑一致性依赖约束:描述检核对象之间数据值逻辑关系的约束规则。一个检核对象上的数据值必须与另一个检核对象的数据值满足某种逻辑关系(如大于、小于等)。
4)存在一致性依赖约束:主要是强调业务的关联性,一个状态发生了则某个值一定会如何。例如:投保状态为已投保,则投保日期不应为空;
4、数据有效性
用来描述模型或数据是否满足用户定义的条件。通常从命名、数据类型、长度、值域、取值范围、内容规范等方面进行约束。
1)长度约束:描述检核对象的长度是否满足长度约束。如“金融机构编码”在《人民银行金融机构编码规范》中规定长度为14位,如果出现非14位的值,则判定为不满足长度约束,不是一个有效的“金融机构编码”;
2)取值范围约束:描述检核对象的取值是否在预定义的范围内。如“授信额度”取值范围应大于等于 0,如果出现小于 0 的情况,则超出了取值范围的约束,不是一个有效的“授信额度”;
3)内容规范约束:描述检核对象的值是否按照一定的要求和规范进行数据的录入与存储。如“存款账号”应仅含数字,如果出现字母或其他非法字符,则不是一个有效的“存款账号”,不满足内容规范约束。
5、数据及时性
用来描述从业务发生到对应数据正确存储并可正常查看的时间间隔程度,也叫数据的延时时长,数据在及时性上应能尽可能贴合业务实际发生时点。例如:系统中贷款五级分类的分类比实际中的延迟几天变化。
6、数据准确性
数据准确性主要是指取值的准确性,描述该检核对象是否与其对应的客观实体的特征相一致。例如:投保人的性别代码为 0-女性,虽然满足代码值域约束,但却不满足取值准确性约束,因为该人为男性,其性别代码应为 1-男性。
7、数据可信性
用来描述数据发生是否符合客观规律。
数据可信性约束:描述再数据同步中每日/月增量数据是否符合理论的经验值。例如,保单数据的每日分区数据较前日一般有 10% 增长,突然数据增长变为200%,这种情况有可能时数据同步出现问题。

三、数据质量管理工具
亿信数据质量管理平台以数据标准为数据检核依据,以元数据为数据检核对象,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型
customer

在线咨询