睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据质量管理体系介绍

时间:2021-06-25来源:知乎浏览数:2608

在归纳了数据质量问题产生的原因并判断发现有效的干预措施后,为了系统性、持续有效的进行数据质量提升,我们设计了这套数据质量管理体系。

这个体系包括五大部分,中间最上层的是数据质量管理战略,包括数据质量管理的愿景和原则。在实践中我们发现,获得企业高层对数据质量提升项目的认可和支持是施行有效质量管理最重要的一个挑战,规划一个与企业战略一致、并且清晰可行的数据管理战略,是数据质量提升的关键起点。图中左边是数据质量管理体系,包括数据质量管理的组织架构,角色、职责、岗位和流程机制等。管理体系的建立要确保数据质量政策及其流程与企业战略、经营方针和业务流程保持一致,并围绕数据质量进行角色及其职责的划分;同时还要积极主动地调整管理策略以应对数据需求的变化,把保持数据质量成果的工作纳入业务日程,营造一个有利于学习和鼓励创新数据质量活动的环境。图中右边是需要对接数据安全管理体系,就像前面提到的那样,数据安全和数据质量中的可访问性在本质上是矛盾的,因此需要创建一种机制来找到两者之间的平衡。

数据质量管理过程从数据使用出发,首先根据业务痛点和数据质量问题的成本价值分析,经过对数据剖析、追踪根本并制定体系化的解决方案并实施后,将其放入日常的运营监控中,把数据质量切实提升并积极的保持长效。

数据质量管理工具是来支持更快更有效实现数据管理过程的手段,它承接了数据标准管理和元数据管理两个模块的管理成果,通过企业内的数据标准和具体业务规则来设计制定数据质量规则,结合元数据管理对要进行评测的数据集进行抽样抽取,并把数据质量规则映射到对应的元数据上。通过运行数据质量检查作业,可以定期或不定期的得到数据质量评估报告,并不断收集数据质量问题,为数据质量的管理提供决策支持。数据质量管理过程和数据质量管理工具两个部分是紧密有序的工作组合:管理过程层往管理工具层输出具体的质量规则制定方向、原则甚至具体规则,管理工具层可以往管理过程层输出具体质量问题的预警以及实体与统计类的描述,来支撑更进一步的数据质量PDCA闭环提升。

— 数据质量管评价方法—

实际上,在开展具体的数据质量提升项目之前,第一个工作是收集和评估具体的数据质量问题。数据质量评估方法主要包括三大步:第一步,通过访谈或者问卷的形式调查数据消费者对数据质量的描述和期望,同时,使用数据质量指标来多维度的实际测量数据质量情况;第二步,需要对比主观和客观的两种评估结果,分析两者的差距,并确定差距产生的原因;第三部,是沟通、确定提升方案,并组织实施必要的行动。

在定量评估数据质量时,需要量化数据质量的测量维度,并与各相关部门确定每个测量指标的阈值。通常我们使用以下六个维度:

准确性:描述数据是否正确,又叫正确性、无误性。通常准确性是个综合性指标,由多个二级指标组成,二级指标需要通过业务规则先将错误数据定义出来,进而进行计算。
完整性:完整性可以从三个层面来看,分别是架构完整性,属性完整性,数据集完整性。其中,架构完整性是指数据架构的实体和属性没有缺失的程度,属性完整性是指一张表中的一列没有缺失的程度,或者对于无效属性的度量;数据集完整性是指数据集中应该出现而没有出现的数据成员的程度。
一致性:一致性也可以从三个视角来看:参照一致性、相关数据元素之间的一致性和不同表中相同数据元素形式的一致性。参照一致性是与从属表(可以理解为值域表)中的值不匹配的行数;元素一致性是指如城市名字和邮政编码应该是一致的,输入邮编就能自动匹配正确对应的城市名字;形式一致性,通常不做必须检查的要求,根据实际业务需求来判断。
规范性:在《GB/ T36344 — 2018数据质量评价指标》中的定义是指数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。在实践中,通常如果企业在制定相关标准规范的时候考虑了国标和行业惯例,并且在实际落地时也进行了良好的管控,则规范性大部分都可满足,不需要额外定量测量。
可访问性:可访问性衡量的是获取数据的难易程度,强调了时间的重要性。这个指标权衡了用户需要数据的时间和提供数据所需的时间。如果一个数据消费者需要近5天的数据,而获取它也需要五天的时间,那么大概率这个数据对这位数据消费者是无效的。
时效性:更多的是指及时性,指标比较复杂,需要用到发布时间、输入时间,年限,敏感性指数,波动时长等指标。这类复杂指标通常在企业里不会计算,通常用数据年龄就足够了。来衡量数据是否过时。

最后,还有很多根据业务规则衍生出来的数据质量规则,如从业务上衡量了业务系统的可信度,或者与内部标准或行业惯例相比的数据可信度以及数据量的适量性等,都需要根据实际情况再制定量化方式。

在开始测量数据质量之前,企业必须明确哪些维度对自己重要,并精确的定义这些维度。对于包含多个二级指标的维度来说,哪些维度对哪些数据源要衡量和监控、哪些二级指标是重要的也是需要由企业自己决定并定义的。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询