寻求竞争优势的公司也在积极主动地利用数据治理,为公司业务增加价值。所有这些,都需要企业在合适的时间向合适的人提供合适的信息,并且使整个企业都获得新的机遇,而不是单单以一种被动的方式来管理数据。而今天我们就一起来了解一下,大数据技术中的数据治理流程是怎样的。
什么是数据治理?
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。
数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。
数据治理主要建设哪些内容?
(1)数据接入标准化:通过制定接口规范,数据治理接入支持多源头采集、多种形态的数形式,同时数据对账清晰明了,对账不仅是源头有多少、进了多少做一个对比,另外一个层面是应该进多少,而进了多少的对比,通过设置预警阈值,对源头的数据监控,及时发现源头采集问题。
(2)数据处理自动化:通过自动化对标、自动化作业等产品、工具,以机器算法代替人力劳动,大大提高生产力。
(3)数据监控智能化:整个数据治理体系监控点很多,通过定义多种接口规范,实现运维监控的统一管理,短信、邮箱等多种提醒方式,及时发现并解决问题。
(4)数据组织知识化:通过分析各部门共享数据集,提炼权威数据,形成主数据模型。通过主题域建模,掌握各主题的内在关系,深度整合,形成以实体为单位的复杂的关系网络,就是知识图谱。
(5)数据运行可视化:ETL工具、服务总线产品与数据治理平台有机结合,将数据治理实施流程各环节通过平台去实现,由平台驱动各产品协作完成整个数据治理过程。
(6)数据应用自助化:依托服务总线,建设统一的服务平台,服务大厅,通过服务权限和数据权限控制,用户可自助申请、自助使用、自助评价反馈。
如何进行数据治理?
一、 形成数据治理体系
大数据中心的建设需要通过数据治理体系来实施,主要包括以下几点:
(1)建立汇聚、服务、共享标准,统一规范。
(2)对数据汇聚、清洗整合,解决数据质量问题和系统之间数据资源的融合问题。
(3)创建资源账本,记录数据资源数量,数据来源,标准情况等。
(4)建设共享服务,提供给内部和第三方使用。
二、构建数据治理架构
数据治理平台的总体架构,设施和数据支撑层是基于政务云平台和大数据平台之上,主要是集中在数据资源层和资源服务层,包括数据中心、数据管理和数据服务。以亿信华辰睿治数据治理平台为例,数据治理架构如图:
三、数据梳理
数据治理的前提是数据梳理,需要对数据资源情况进行摸底排查,掌握各系统的建设情况,包括数据调研、数据整理和数据反馈。
四、充分利用ETl工具
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。利用ETL工具,与数据治理平台无缝融合。ETL产品含五大特点,可视化、集成化、管道化、集群化、模板化,同时支持多种数据类型,通过统一的运行和管理平台进行管理、平台为ETL工具提供元数据支撑;ETL工具为平台提供作业运行监控、数据对账以及作业自动生成的能力。
一款好的数据治理工具,可以让数据质量变得更好,发掘数据资产的商业价值,实现如下目标:对业务的支撑;降低经营风险、安全保障;对决策进行支持;满足风险控制和外部监管要求;可企业持续发展。这里推荐睿治数据治理平台,这款数据治理工具具备以下优势:
平台化:全面覆盖数据治理10大领域,采用微服务架构,融合度高,延展性强
可视化:实现数据从创建到消亡全生命周期的可视化,也实现全角色的可视化
智能化:丰富的智能元素和功能,大大缩短数据管理周期、减少成本浪费