数据治理这项工作一直都是存在的,和数据库设计的三范式一样都是为了数据的管理。数据治理是一整套完整的组织、制度、技术管理行为。我们可以将
大数据治理定义:大数据治是广义信息化治理计划的一部分,即制定与大数据有关的管理优化、数据保护、数据变现的政策。
一、数据治理内容
1、数据资源梳理
从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
2、元数据管理
元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义。元数据管理一般是对基础库和主题库中的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
3、数据采集清洗
通过可视化的 ETL 工具将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
4、质量管理
数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。
5、数据共享交换
数据共享包括组织内部和组织之间的数据共享,可以以API 接口共享方式,让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
6、血缘追踪
数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。
二、数据治理规划
1、数据治理组织
数据治理的组织包括制度组织和服务组织。制度组织主要负责数据治理和数据管理制度。这些组织是跨职能的,通常企业会建立数据治理委员会、数据管理制度团队等组织,负责整体数据战略、数据政策、数据管理度量指标等数据治理规程问题。
2、制度章程
制度章程是确保对数据治理进行有效实施的认责制度,其中一些是数据治理职能的职责,也包括其他数据管理职能的职责。数据治理是最高层次的、规划性的数据管理制度活动。换句话说,数据治理是主要由数据管理人员和协调人员共同制定的高层次的数据管理制度决策。
3、发展战略目标
战略是选择和决策的集合,共同绘制出一个高层次的行动方案,以实现更高层次目标。数据战略是企业发展战略中的重要组成部分,是数据管理计划的战略,是保持和提高数据质量、完整性、安全性和存取的计划,是指导数据治理的最高原则。
4、流程管理
流程管理包括流程目标、流程任务、流程分级。根据数据治理的内容,建立相应的流程,且遵循本单位数据治理的规章制度。实际操作中可结合所使用的
数据治理工具,与数据治理工具供应商协商,建立符合企业业务的流程管理。
5、成熟度模型
CMMI协会发布了数据管理能力成熟度模型Data Management Maturity(DMM),可以用来评估和提升企业的数据管理水平,帮助企业跨越业务与IT之间的鸿沟。DMM模型可以帮助企业在管理数据资产上达成共识。
6技术应用
技术应用包括支撑核心领域的工具和平台,例如数据质量管理系统、
元数据管理系统等。他们是数据治理能够顺利开展的技术保障。只有建立丰富的数据治理工具和平台,才能从各个领域有效的进行数据的管理和治理,才能有效提高企业的数据价值。