睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

大数据发展过程中的质量问题

时间:2022-01-14来源:互联网浏览数:350

要体现数据价值,前提就是数据质量的保障,质量没有得到 100% 保证的数据是很难体现出业务价值的,如果基于这些有问题的数据做决策支持,或做业务办理,将会得到灾难性的结果,让领导层和数据使用方对大数据失去信心。

根据哈工大王志宏先生在科技导报发表的研究表明,如果没有良好的数据质量,大数据将会对决策产生误导,甚至产生有害的结果。
在数仓建设上,50% 的数据仓库因数据质量而被取消或延迟。
在经济损失上,数据错误每年对美国工业界造成的经济损失约占 GDP 的 6%。
在医疗事故上,根据美国医疗委员会的统计,由于数据错误引起的医疗事故仅在美国每年就导致高达 98000 名患者丧生。
在电信产业上,数据错误经常导致故障排除的延误、多余设备租用和服务费收取错误,损害了企业信誉甚至会因此失去很多用户。
在商业上,美国零售业每年仅因标价错误就损失 25 亿美元。
在金融企业中:因数据质量问题导致的信用卡欺诈失察在 2008 年即造成 48 亿美元的损失。
被誉为“数据博士”的 Jim barker,用一个简单的医学概念来定义两种类型的数据质量问题:
第一类数据质量问题是比较简单而明显的问题,我们可以使用自动化工具检测到。
第二类数据质量问题是非常隐秘的问题,大家都知道它是存在的,但它看不见摸不着,更处理不了,因为它需要放在特殊情境才能被检测到。

它们之间的区别简而言之可归纳为如下几点:
第一类数据质量问题首先需要“know what”才能来检测数据的完整性、一致性、唯一性和有效性。这些属性靠数据质量软件甚至手动很好地找到。你不需要有很多的背景知识,或者数据分析经验。只要按照 4 个属性验证它的存在,就可以判定它错误的。例如,如果我们在性别领域插入一个 3,我们就可以判定它到底是不是一个有效值。
第二类数据质量问题需要“know why”来检测时效性、一致性和准确性属性。需要研究能力、洞察力和经验,而不是简简单单就可以找得出来的。这些数据集经常从表面上看起来没有问题。但是问题往往存在于细节中,需要时间去发现。Jim 举的例子就是一份退休人员的雇佣记录,如果我们不知道他们早已退休的话,是看不出来这个数据是错的。
所以,解决这些数据质量问题的关键就是需要一个复杂的、策略化的方法,而非孤立的、片面的来看问题。一旦数据质量不好,我们就需要寻求自动化与人工的双重方式才能解决这个问题了。

根据 Jim barker 的经验:
第一类基本涵盖了 80% 的数据质量问题,但只消耗了我们 20% 的经费成本。
第二类数据问题往往需要多方的输入,以便发现、标记和根除。虽然我们客户关系管理系统中的每个人都有购买日期,但购买日期可能不正确,或者与发票或发货清单不符。只有专家才能通过仔细核查其内容来解决问题并手动改进客户关系管理系统。
第一类数据质量的挑战可以快速解决,但第二类问题提出了一个挑战,必须依靠人类的专业知识才可以解决。事实上,我们可以简单地通过引入一些工具和规则就可以解决 80% 的问题,也可以引入一个复杂的系统工程来解决 100% 的质量问题,取决于我们希望达到什么样的质量标准。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询