首页 行业百科 什么是数据质量管理系统?企业数据质量管理现状

什么是数据质量管理系统?企业数据质量管理现状

|亿信华辰大数据知识库2022-10-11

什么是数据质量管理系统?企业数据质量管理现状

对于一个公司来说,最重要的资产是数据,数据的核心价值可以理解为核心商业价值,我个人认为是体现在两方面,一是能为企业带来更多的盈利,二是能为企业规避风险。实现数据价值就需要进行业务数据分析和价值挖掘,对于大多数数据分析师来说,数据分析方法和技术都不存在问题,只要有干净完备的数据,数据价值都可以得到呈现,但是如果数据本身是错的,分析出来的结论未必有用,保证数据质量是大数据为企业带来价值的先决条件。

对于一个公司来说,最重要的资产是数据,数据的核心价值可以理解为核心商业价值,我个人认为是体现在两方面,一是能为企业带来更多的盈利,二是能为企业规避风险。实现数据价值就需要进行业务数据分析和价值挖掘,对于大多数数据分析师来说,数据分析方法和技术都不存在问题,只要有干净完备的数据,数据价值都可以得到呈现,但是如果数据本身是错的,分析出来的结论未必有用,保证数据质量是大数据为企业带来价值的先决条件。


一、什么是数据质量管理

数据质量(DataQuality)管理是贯穿数据生命周期的全过程,覆盖质量评估,数据去噪,数据监控,数据探查,数据清洗,数据诊断等方面。数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量主要包括完整性、唯一性、一致性、准确性、合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。数据质量管理准则包括测量、提高组织数据的质量和整合性的方法。数据质量处理包括数据标准化、匹配、生存和质量监测。数据必须具备适当的质量,以解决业务要求问题。


二、数据质量管理的目的

解决企业内部数据使用过程中遇到的数据质量问题,提升数据的完整性、准确性和真实性,为企业的日常经营、精准营销、管理决策、风险管控等提供坚实、可靠的数据基础。


三、数据质量问题根因分析

1、业务方面
1)业务需求不清晰,例如:数据的业务描述、业务规则不清晰,导致技术无法构建出合理、正确的数据模型。
2)业务需求的变更,这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。
3)业务端数据输入不规范,常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。
4)数据作假,操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。
2、管理方面
1)认知问题。企业管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。
2)没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到负责人。
3)缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。
4)数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。
5)缺乏有效的数据质量问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。
6)缺乏有效的数据管控机制,对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题无法考核。
3、技术方面
1)数据模型设计的质量问题,例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。
2)数据源存在数据质量问题,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等问题,而采集过程有没有对这些问题做清洗处理,这种情况也比较常见。
3)数据采集过程质量问题, 例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。
4)数据传输过程的问题,例如:数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。
5)数据装载过程的问题,例如:数据清洗规则、数据转换规则、数据装载规则配置有问题。
6)数据存储的质量问题,例如:数据存储设计不合理,数据的存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数据失真、记录重复。
7)业务系统各自为政,烟囱式建设,系统之间的数据不一致问题严重。


四、如何进行数据质量管理

1、数据分析
数据分析的两种方法;
数据挖掘:帮助在大型数据集中发现特定的数据模式,可以通过数据挖掘来发现属性间的一些完整性约束如函数依赖和商业规则。
数据派生:主要对单独的某个属性进行实例分析。数据派生可以得到关于属性的很多信息,比如数据类型,长度,取值空间,离散值,他们的出现频率和不同值的个数等,通过应用统计技术,可以得到属性间的平均值,中间值标准差等。
2、定义清洗转换规则与工作流
根据数据源中不一致数据和“脏数据”多少的程度,需要执行大量的数据转换和清洗步骤。
3、验证
定义的清洗规则和工作流的正确性和效率应该进行验证和评估,真正的数据清洗过程需多次迭代的进行分析设计和验证。
4、清洗数据中的错误
注意先备份源数据。
5、干净数据回流
干净的数据替换数据源中原来的“脏数据”
五、数据质量管理系统工具介绍
数据质量管理平台是亿信华辰自主研发的数据质量管理控制工具,用于解决业务系统运行、数据仓库建设及数据治理过程中的数据质量问题。它以标准化的数据质量规范为基础,运用数据挖掘、数据分析、工作流、评分卡、可视化等技术帮助组织建立数据质量管理体系,提升数据的完整性、规范性、及时性、一致性、逻辑性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。
数据质量管理是企业数据治理一个重要的组成部分,企业数据治理的所有工作都是围绕提升数据质量目标而开展的。要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型
customer

在线咨询