世界正处于大数据时代。每次有人下载应用程序、发送电子邮件或文本、发送任何数量看似微不足道的事情时,都会创建数据,而数百万人的这些交互的复合数量造成了数据的爆炸式增长。每天大约产生2.5 万亿字节的数据。企业开始意识到数据质量管理的重要性。数据驱动型企业的一个共同特征是,他们都制定了数据质量管理计划,以确保使用最优质的数据源。麻省理工学院斯隆进行的一项惊人研究指出,不良数据的处理成本可能高达总收入的 15-25%,且是长期的无用成本损耗。哈佛商学院发布一项研究显示,47% 的新创建数据记录至少包含一个严重错误。推动数据质量需求的共同点有:将新数据源,尤其是非结构化数据与现有系统集成;利用所有可用的企业数据所需的财务投资和竞争压力以及从数据所在的孤岛中提取数据的难度等。一个可靠的数据质量管理计划将确保数据的高度完整性,并且任何需要它的人都可以以安全和受监管的方式随时获得数据。数据质量管理就是找到正确的组合,让合适的人员按照正确的方法配备正确的工具。本文将介绍到底什么是数据质量管理。
数据质量管理的定义
数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的原始信息的校验、操作规程、错误信息的矫正、反馈等一系列过程。也可以说是对数据从采集、存储、处理、传输、交互、销毁生命周期的每个阶段里可能引发的各类数据质量问题,进行监控、度量、识别、预警等一系列管理活动。通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。
数据质量评估
唯一性:用于度量哪些数据是重复数据或者数据的哪些属性是重复的。
规范性:用于度量哪些数据未按统一格式存储。
完整性:用于度量哪些数据丢失了或者哪些数据不可用。
准确性:用于度量哪些数据和信息是不正确的,或者数据是超期的。
一致性:用于度量哪些数据的值在信息含义上是冲突的。
关联性:用于度量哪些关联的数据缺失或者未建立索引。
影响数据质量因素
技术因素:由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据获取、数据创建、数据装载、数据传递、数据使用、数据维护等方面的内容。
管理因素:由于人员素质及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷。
信息因素:产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质得不到保证和变化频度不恰当等。
流程因素:由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节。
数据质量管理方法
企业组织应该如何解决数据质量问题? 可以映射到六西格玛管理方法,如下图
亿信华辰深耕大数据领域15年,凭借深厚的技术底蕴与开发经验,研发出了睿治智能数据治理平台。以下是该平台可以支持数据驱动型企业的方式:
管理数据生命周期: 数据管理是定义和维护数据模型、记录数据、清理数据以及定义其规则和策略的过程。它支持实施定义明确的数据治理流程,涵盖多项活动,包括监控、协调、优化、重复数据删除、清理和聚合,以帮助向应用程序和最终用户提供高质量的数据。
分析数据环境: 通过数据剖析,衡量整个企业中以各种形式存储的数据的特征和状况的,获得对企业数据的重要控制权。
快速准备和共享数据:睿治智能数据治理平台支持多种异构数据源接入,获得大量数据集,然后清理、标准化、转换或丰富数据。
安全共享质量数据:在不将机密信息暴露给未经授权的人员的前提下,支持使用本地或基于云的应用程序有选择地共享生产质量数据。