一、元数据与元数据管理
元数据,主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。元数据是数据仓库管理系统的重要组成部分,一般会通过元数据资料库来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。
元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,帮助用户理解数据关系和相关属性。元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。
二、大数据元数据管理系统功能
元数据管理工具可以了解数据资产分布及产生过程。实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。
1、数据血缘分析
数据血缘是元数据的重要应用,数据血缘能够说明数据与数据之间的关系,比如说这张表是从某个系统抽取过来的,这个字段和那个字段有什么关系,包含了集群血缘关系、系统血缘关系、表级血缘关系和字段血缘关系,其指向数据的上游来源,向上游追根溯源。
2、影响分析
向下追溯元数据对象对下游的影响。从而帮助企业应对数据变更可能产生的影响,自动识别与其相关的依赖项和潜在的影响,还可以跟踪所有对象及其依赖关系,提供数据全生命周期的可视化显示。
3、指标一致性分析
定期分析指标定义是否和实际情况一致。
4、实体关联查询
事实表与维度表的代理键自动关联。
5、同步检查
检查源表到目标表的数据结构是否发生变更。
三、大数据元数据管理系统如何应用
1、统一数据标准,从源头保证数据质量
通过数据标准,定义政务数据技术规范,进行落地映射及评估,详细了解各政务系统物理模型建设是否正确。
2、协助梳理业务数据
通过元数据采集业务数据元数据信息,协助数统局梳理政务系统,了解数据含义。
3、实现数据采集交换共享
利用数据交换平台将政务各部门数据进行集中式管理,提供共享服务。
4、发现数据质量问题
定义数据质检规则,执行质检方案,发现质量问题,出具质量报告。