睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据质量问题的归纳与分析

时间:2021-09-10来源:知乎浏览数:502

质量问题的归纳与分析
基于实践中遇到的大量而广泛的数据质量问题,我们从人员、流程、技术和信息等多个方面总结了引起数据质量问题的十个常见原因。

1、数据的多源性:当同一个数据有多个数据来源时,很可能会导致不同的值,这在系统设计和业务流程设计时都可能会引起这一问题。但是,很多企业往往会忽视数据多源性这个根源,因为企业内部的多个数据生产流程绝大部分时间依旧是独立运作,持续地产生着不同的数据值,导致这个根源很难被直接察觉。
2、数据生成过程中的主观判断:如果在数据的生成过程中包含主观判断结果,那么会导致数据中含有主观偏见因素。通常认为存储在数据库中的数据都是客观事实,却忽略了采集这些“事实”的过程可能存在主观的判断。
3、计算资源有限:缺乏足够的计算资源会限制相关数据的可访问性。
4、安全性和可访问性之间的权衡:数据的可访问性与数据的安全性、隐私和保密性本质上是矛盾的。对数据消费者而言,必须能够访问高质量的数据;同时,出于保护隐私、保密和安全性的考量,必须对访问设置权限。因此,高质量的数据可访问性与数据的安全性之间就产生了冲突。
5、跨学科的数据编码:由于缺乏不同专业领域的数据编码互相映射或缺乏可解释性,因此对于不同专业领域的编码总是难以辨识和理解,这也导致了数据采集的不全面和检索不到相应的信息。
6、复杂数据的表示方法:对于文本和图像数据等数据,其可分析性很差且没有定义属性,不能进行汇总、处理数据以及判断变化的趋势,为数据的处理带来不便。
7、数据量过大:过大数据量会使数据消费者难以在合理的时间内获得所需的数据。
8、输入规则过于严苛或被忽视:过于严苛的数据库编写规则或不必要的数据输入规则引入,都可能会导致某些重要数据的丢失,或者产生错误的数据。这是因为数据采集者可能为了遵守这些规则,随意改变某个或某些字段的值,或者由于某些值无法输入对应的字段而丢弃整条记录。
9、数据需求的改变:当数据消费者的任务和组织环境发生变化时,所谓“有用的”数据也随之改变,只有满足数据消费者需求的数据才是高质量的数据。
10、分布式异构系统:对于分布式、异构的数据系统,缺乏适当的整合机制会导致其内部出现数据定义、格式、规则和值的不一致性。跨系统的查询和汇总数据往往需要太多的时间,降低了数据的可访问性。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询