大数据时代数据的核心在于数据价值,而数据有价值的关键在于
数据质量。Collibra 一项调查发现,45% 的数据使用者称其报告基于的数据半数以上质量不够理想;Gartner 2016 年的一项研究发现,由于数据质量差,受访组织平均每年将损失960 万美元。本文从什么是数据质量管理,影响数据质量的因素等几个点详细讲解数据质量管理措施。
数据质量管理的定义
数据质量管理(Data Quality Management),是指对数据生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列循环管理活动,数据生命周期包括数据获取、存储、处理、传输、交换、销毁。数据质量管理通过改善和提高组织的管理水平使得数据质量获得进一步提高。最终目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。
影响数据质量的因素
信息因素
信息因素是由于对数据度量标准以及数据本身的描述理解的偏差而造成的数据质量问题。产生这部分数据质量问题的原因主要有:数据度量的各种性质得不到保证和变化频度不恰当、元数据描述及理解错误等。
流程因素
流程因素是指由于人工操作流程和系统作业流程设置不当造成的数据质量问题,主要来源于主题分析数据的创建流程、装载流程、传递流程、使用流程、维护流程和稽核流程等各环节。
管理因素
管理因素是指由于管理机制方面及人员素质的原因造成的数据质量问题,如培训和奖励、人员管理等方面的措施不当导致的管理缺失。
技术因素
技术类因素产生的直接原因是技术实现上的某种缺陷,由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据获取、数据创建、数据装载、数据传递、数据使用、数据维护等方面的内容。
数据质量管理措施
1、成立数据治理组织
数据治理组织应包括技术人员、管理人员和业务人员。数据治理组织可以设置三种角色,数据治理技术组、数据治理业务组、数据治理委员会。分别负责:1)系统数据录入功能符合数据校验标准和数据治理标准,开发数据质量检测规则,监控数据质量,批量修改数据等工作,系统数据的备份、恢复、安全、审计等工作;2)业务系统参数、基础数据维护,保证系统正常使用,审核、检查、整改业务数据,在数据产生源头提高数据质量;3)制定数据治理的目标、制度、规范、流程、标准等,沟通协调,解决相关人员责、权、利问题,推行数据治理文化。
2、提高全面思想认识
数据是企业的宝贵资产,各企业已经意识到数据质量的重要性。但各方人员没有意识到数据治理的重要性,对数据治理的认识还处于盲区。数据治理是一个系统工程,需要管理层、系统开发人员、系统使用人员、系统维护人员多方协作,从上到下全面提高思想认识,保证在系统建设、系统运行、系统维护各个环节都能重视数据治理。
3.、制定数据安全管理制度
安全管理制度主要用来规范员工在日常工作中安全地使用数据,并且指导技术人员如何实施数据安全工作。保障数据安全是企业信息化的首要工作,企业应该制定贯穿于数据生命周期的数据安全管理制度,包括数据生成及传输、数据存储、数据处理及应用、数据销毁四个方面。
4、制定数据质量管控规范
为了提高数据治理执行效率,有必要建立数据治理绩效考核,检验数据治理各个环节的效果。通过制定数据质量管控规范,使相关人员明确在数据产生、存储、应用整个生命周期中数据治理包含的工作内容和工作流程,形成校内统一管理体系。
5、建立数据标准体系
数据标准体系包括技术标准、数据标准、数据质量标准、管理标准等内容。信息化建设应遵循标准先行的原则,制定企业内部数据标准体系,保证各业务部门、各业务系统使用相同的数据标准,提高部门间、系统间数据共享能力,避免形成信息孤岛。企业可以成立由业务人员和技术人员组成的数据标准制定小组,负责数据标准体系的制定、维护、宣传、解释等工作。