一、元数据的定义
元数据通常定义为”关于数据的数据”,包括物理数据的格式,技术和业务过程,数据的规则和约束以及企业所使用数据的结构。主要记录了数据仓库中各层级间的映射关系、模型的定义、ETL 的任务运行状态及监控数据仓库的数据状态。元数据贯穿了数据仓库的整个生命周期,打通了数据仓库、源数据、数据应用,记录了数据从产生到消费的全过程。
二、元数据价值
元数据是数据内容、数据应用、数据管理的基础,具有重要的应用价值:
1、实现数据仓库管理和维护的自动化和半自动化管理,控制并配置特定工具和进程运行;
2、描述系统的结构特征和静态特征;
3、定义进出数据仓库中的数据;
4、衡量数据质量;
5、描述哪些数据在数据仓库中;
三、元数据起到的作用
1、帮助用户理解数据 ;
元数据可以实现业务模型与数据模型之间的映射,帮助用户清晰地理解数据仓库中数据的含意,从而帮助用户理解和使用数据。
2、集成信息;
数据仓库的数据来自各种不同数据源,从这些数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中。如果忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。
3、提高系统的安全性与智能性;
4、支持需求变化
元数据管理系统可以有效地管理整个业务的工作流、数据流和信息流,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。
5、提高数据质量
借助元数据管理系统,用户可以很方便地得到各个数据的来龙去脉以及数据抽取和转换的规则,便捷地发现数据所存在的质量问题。
四、元数据管理核心功能
1、元数据采集
手动采集:选择本地文件上传到服务器来手动采集元数据。
自动采集:定义定时的、自动的采集任务,为元数据的采集提供自动化的、周期性的,或指定某个时间触发的机制。
2、元数据存储
元数据分为管理元数据、业务元数据和技术元数据。
技术元数据:主要指所在系统的表/字段、数据类型、数据处理逻辑等技术细节信息。
管理元数据:主要指数据访问权限,数据处理作业的结果等数据处理过程的元数据。
业务元数据:主要包含业务部门,业务定义,业务规则、管理部门等信息。是一种介于业务人员和系统之间的语义层。
获取元数据后,依照元数据管理制度及要求,根据规则进行元数据分类与定义,实现元数据的分类管理。
3、血缘分析
在
数据治理过程中,基于元数据的整合,血缘分析可以记录数据的血缘关系,进行以数据流向为主线的血缘追溯功能,一直追溯到数据的来源。
4、影响分析
元数据影响性分析是指通过评估数据变更,帮助用户掌握变更可能造成的影响,迅速了解分析当前元数据对象的下游数据信息,快速识别元数据的价值,以便更有效的评估变化带来的风险。