睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

大数据环境下数据质量管理面临的挑战

时间:2019-12-27来源:CSDN浏览数:1372

随着三网融合、移动互联网、云计算、物联网的快速发展,数据的生产者、生产环节都在急速攀升,随之快速产生的数据呈指数级增长。在信息和网络技术飞速发展的今天,越来越多的企业业务和社会活动实现了数字化。全球最大的零售商沃尔玛,每天通过分布在世界各地的6000多家商店向全球客户销售超过2.67亿件商品,每小时获得2.5PB的交易数据。而物联网下的传感数据也慢慢发展成了大数据的主要来源之一。有研究估计,2015年全球数据量为8ZB,而到2020年则高达35.2ZB,是2015年数据量的44倍之多。此外,随着移动互联网、web2.0技术和电子商务技术的飞速发展,大量的多媒体内容在指数增长的数据量中发挥着重要作用。


大数据时代下的数据与传统数据呈现出了重大差别,直接影响到数据在流转环节中的各个方面,给数据存储处理分析性能、数据质量保障都带来了很大挑战。大数据与传统数据对比如表1所示。

由于以上特性,大数据的信息系统更容易产生数据质量问题:

(1)在数据收集方面,大数据的多样性决定了数据来源的复杂性。来源众多、结构各异、大量不同的数据源之间存在着冲突、不一致或相互矛盾的现象。在数据获取阶段保证数据定义的完整性、数据质量的可靠性尤为必要。

大数据与传统数据特点对比

理,远远处理不了大数据环境下的数据问题。

(3)由于高速性,数据的大量更新会导致过时数据迅速产生,也更易产生不一致数据。

(4)由于发展迅速,市场庞大,厂商众多,直接产生的数据或者产品产生的数据标准不完善,使得数据有更大的可能产生不一致和冲突。

(5)由于数据生产源头激增,产生的数据来源众多,结构各异,以及系统更新升级加快和应用技术更新换代频繁,使得不同的数据源之间、相同的数据源之间都可能存在着冲突、不一致或相互矛盾的现象,再加上数据收集与集成往往由多个团队协作完成,期间增大了数据处理过程中产生问题数据的概率。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询