迄今为止,大数据的概念一直有着不小的热度,随着企业信息化程度加深,企业内部数据出现“数据孤岛”,脏乱差等情况,亟需进行大数据治理。但想要做好大数据分析,需要有一套正确的理念和落地方案,结合自身,从实际情况出发,建立意识行动与数据思维。本文在假设企业已满足上述条件的基础上,详细介绍了大数据治理的概念、内容、要素以及核心技术。
一、大数据治理的概念
大数据治理通俗来讲就是对大数据进行治理。先来看看什么是大数据,大数据就是具备以下特征的数据:一是数据量大,持续快速增加;二是高速;三是数据类型和来源多样化。
而数据治理就是将数据作为公司资产管理,在组织范围内,协调和定义政策、流程、技术、标准和人员职能,保证数据的准确、一致、安全、及时、可用性和可控增长,以此制定更好的业务决策,降低风险并改善业务流程。
二、大数据治理的内容
1、元数据管理
所谓元数据,就是关于数据的数据。元数据主要记录数据从产生到消费的全过程,以及数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态与ETL 的任务运行状态等。元数据管理主要用于打通源数据、数据仓库、数据应用,从而帮助数据仓库管理员和开发人员快速找到数据,进行数据管理和开发工作,提高工作效率。
2、主数据管理
主数据管理就是基于数据仓库,对数据本身进行管理。包括数据域划分、数据分层、数据建模、命名规范、以及对需要共享的数据建立统一视图和集中管理等。
3、数据质量管理
数据质量管理,就是通过特定的规则对数据的完整性、唯一性、一致性、准确性、有效性,进行测试,检查,监控和告警。
4、数据标准管理
为了实现大数据平台数据的有效性、完整性、规范性、一致性、开放性和共享性管理。需要对企业数据进行标准管理,来提供全面完整的数据标准管理流程及办法。除此之外,数据标准管理还可以用于决定和建立单一、准确、权威的事实来源,并为数据质量检查、数据安全管理提供标准依据。
5、数据存储管理
数据存储管理的目的在于如何有效地降低数据爆炸式增长所带来的存储资源消耗问题,节省存储成本。
6、数据计算管理
数据计算管理就是对大数据集群的存储资源、计算资源消耗等进行监控、管理、优化。帮助企业降低计算资源的消耗,提高任务执行的性能与效率。
7、数据安全管理
数据安全管理提供对隐私数据的加密、脱敏、模糊化处理等多种数据安全管理措施。贯穿于数据治理全过程,全方位保障数据的安全运作。
三、大数据治理的核心技术
1、数据的结构化处理
在数据采集过程中,存在大量多源异构数据,为了更好地对数据进行共享、交互与应用,需要对数据进行结构化处理。首先要对原始数据进行解析,提取出需要的信息,再进一步将其转换成结构化数据。结构化处理的主要输出形式是二维表或者图数据,它需要用户确定数据在转换过程中采用的规则。
2、数据质量评估与数据清洗
由于数据质量问题的多样性和不可预测性,数据结构化之后,还需对数据进行质量评估,及时发现数据中存在问题,采取数据清洗措施。在这个过程中,用户可以定义数据清洗规则,批量化处理数据中存在的质量问题,提高数据清洗的效率。
3、数据规范化
自然语言表达上的差异性会造成同一实体存在多种表达形式,这也是数据准备中常见的问题,因此,数据规范化是一项重要的内容。数据的规范化处理需要根据应用的需求特点,确定数据粒度和表达方式,进而通过关联在数据集中不同地方出现的相同语义的实体,达到数据融合的目的。
4、数据融合与摘取
多源数据的融合,可使数据内容更丰富,更容易获得新的发现。但,由于缺少统一的数据设计,使得实现难度非常大。数据融合过程中,最为关键的操作就是是实体链指,有效利用实体上下文信息是实体链指的关键。
5、发布共享
数据共享常被应用于企业中复杂的数据分析任务,因此,数据整理操作也会被重复使用。企业需要以脚本的形式将这些操作物化出来,使其能被分享和重复利用。并且,为确保用户能够追溯数据的来源,利用索引技术检索需要的数据整理操作,经过数据整理过程的数据,其世袭关系也需要被记录下来。