大数据时代,基于数据的应用形式、相关技术在快速发展,数据产生的价值越来越大。目前数据应用项目非常多,但真正取得预期效果的项目却非常少。主要原因就是数据质量问题导致许多预期需求无法实现。
数据治理是保证数据质量的必需手段,从全球范围来看,加强数据治理提升数据质量已成为企业提升管理能力的重要任务。数据治理的最终目的就是挖掘数据价值,推动业务发展,实现盈利。如果没有数据治理,再多的业务和技术投入都是徒劳的。而数据治理的核心要素就是提升数据质量,也就是数据质量管理。
数据质量管理定义
数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。数据生命周期包含六个阶段:产生、获取、存储、处理、交换、传输、销毁。数据质量管理需要对数据生命周期每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。
数据质量问题分析
数据准确性:即可靠性,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。所以,数据质量管理需要分析和识别不准确的或无效的数据。
数据真实性:真实可靠的原始统计数据是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料,是企业统计工作的灵魂。数据必须真实准确的反映客观的实体存在或真实的业务。
数据完整性:不完整的数据是数据质量问题最为基础和常见的一类问题,会导致数据借鉴的价值大大降低。包括:数据属性不完整,例如:数据属性空值;数据条目不完整,例如:数据记录丢失或不可用;模型设计不完整,例如:唯一性约束不完整、参照不完整。
数据唯一性:重复数据是导致业务无法协同、流程无法追溯的重要因素。如何有效识别和度量重复数据、冗余数据是数据治理需要解决的最基本的数据问题。
数据及时性:指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
数据关联性:指存在数据关联的数据关系缺失或错误,例如:相关系数、函数关系、索引关系、主外键关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
数据一致性:数据实体不一致,例如:命名及含义不一致、数据编码不一致、生命周期不一致、分类层次不一致。多源数据的数据模型不一致,例如:数据结构不一致、命名不一致、约束规则不一致。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。