睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

在数据治理项目中如何做元数据管理?

时间:2022-01-07来源:亿信华辰浏览数:155

数据是企业的重要信息资产,面对浩如烟海的数据,企业管理者以什么为抓手来管理数据呢?答案是“元数据”。元数据管理作为数据治理的基石,有具体的项目中该如何做呢?

元数据相关概念介绍
元数据是什么?简单的来说:它是数据的数据。

有一个关于元数据的例子,元数据就像“户口本”,户口本中除了有姓名、出生日期、住址、民族等信息外,还有家庭的血缘关系,父子关系、兄弟关系等。这些信息就构成了对这个人的详细描述,那这些信息就是描述这个人的元数据。

元数据从数据的角度可以分为三类:业务元数据、技术元数据和管理元数据。

业务元数据是从业务的视角去描述数据,让不懂数据的人可以快速读懂数据,例如:表名称、表的血缘关系、表的字段说明、指标的统计口径等多种业务描述;
技术元数据自然就是从技术的角度去描述数据,例如:表的sql、字段长度、字段类型等多种技术描述;
管理元数据是包含数据管理的信息在里面,例如:表的业务属主、表的技术负责人。
元数据管理又是什么?它是对元数据的创建、存储、整合、控制的一整套流程,能够支持基于元数据的相关需求和应用。

那元数据管理的好处是什么?它能够让开发和业务人员快速的了解数据的上下游关系及本身的含义,精准定位需要查找的数据,减少数据研究的时间成本,提高效率。

如何进行元数据管理
通常一个数据治理项目的范围会包含:组织建设、数据安全、数据开发、数据质量、元数据管理、数据价值等几个模块。当然基于每家公司的数据治理的目标不一样,每家公司的数据治理实施关键路径也会不一样。元数据管理作为数据治理工作是重中之重,在数据治理项目中该如何做呢?

1、元数据范围
首先确定元数据来源范围,在实际的工作中,不是所有数据都是要做元数据管理,通常我们会选择业务数据做元数据管理,非业务数据(例如:备份数据、系统日志等)是不会纳入管理范围内,主要还是因为元数据管理是提供业务和开发人员快速掌握业务数据。

确定规则后,就要结合公司的实际情况去梳理出哪些业务系统、哪些数据库、哪些数据库用户、哪些表需要做元数据管理。当然也可以支持非结构化数据的元数据抽取,例如:word、pdf等。

2、元数据接入
元数据从哪接入,一般都是从源系统接入,假如公司已经存在数仓或者实时性要求不高,为了节约开发工作量,对于已有的元数据会从数仓接入,还未接入的会从源系统进行接入。

但这种方案也是存在风险,假如数仓的数据和源系统出现不一致,就会导致元数据出错。现在大部分的元数据抽取都是采用配置自动化的方式进行。

3、元数据标准
在梳理的过程中可能会出现有些数据库或者有些数据定义不规范的情况,导致元数据管理无法进行下去。那接下来需要建立元数据的管理规范,去反推前端的源数据进行整改,主要是保证元数据的完整性和一致性。

针对不同的类型的公司要求,元数据会开放给不同的人群,所以要对元数据进行权限管理,规范里面就需定义权限的管理流程:元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程等。

4、元数据维护
元数据维护主要是对已经发布的元数据进行维护管理,已经发布上线的元数据,如需调整、优化则必须重新走元数据发布流程,不准许对元数据进行直接修改。为了安全,元数据所有操作行为都要记录到元数据操作日志里面。

可以对元数据创建目录将不同的元数据挂在对应的目录下,按照业务流程、业务主题域、开发流程设计对应的目录,主要还是根据公司要求设计。

5、元数据查找、分析、报告
有单独的页面支持元数据的模糊或精准快速查找,通过输入关键信息查找对应的元数据。有些公司将元数据作为数据资产的一类,因此需要产出元数据资产报告,从报告中能够快速的了解元数据访问热度、数据价值、数据成本、数据分布等相关信息。

搭建元数据管理平台
工欲善其事,必先利其器。元数据管理可借助管理工具使管理工作变的相对快速和简单一些,如元数据的采集、元数据存储、数据血统、数据地图、元数据整合等都可以通过元数据工具来实现。

图:元数据管理平台架构

元数据系统整体分为接入层、存储层、功能层和应用层。

接入层:适配不同元数据生产方,转换成标准定义,输出全种类实体、关系变更消息。
存储层:基于元模型的实体、关系的存储与查询,支持统计与分析能力。
功能层:提供元模型管理、元数据分析应用、元数据管理、元数据检核等功能。
应用层:基于定板元数据提供单点、复杂查询服务,基于分析引擎提供面向不同角色的元数据分析服务。
作为企业数据治理的基础,元数据管理平台从功能上主要包括:元数据采集服务,元数据访问服务、元数据管理服务和元数据分析服务。

1、元数据采集服务:能够适应异构环境,支持从传统关系型数据库和大数据平台中采集从数据产生系统到数据加工处理系统到数据应用报表系统的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑。

亿信华辰睿治数据治理平台的元数据管理模块内置多种采集适配器,支持多种存储格式的元数据自动获取,如:数据库、报表工具、ETL工具、文件系统等,对于无法完成自动获取的元数据,提供了可自定义的元数据采集模版完成元数据的批量导入。

2、元数据访问服务:元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持REST或Webservice等接口协议。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。

3、元数据管理服务:实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。

亿信华辰睿治数据治理平台的元数据管理模块提供各类元数据管理,包括:业务元数据、技术元数据和管理元数据,支持元数据的基本信息、属性、依赖关系、组合关系的增删改查操作。最新元数据和定版元数据隔离,在最新元数据中的改动不影响定版元数据的正常使用,同时每次发布都有版本留痕,支持各版本的对比分析。

4、元数据分析服务:元数据的应用一般包括数据地图,数据的血缘、影响分析,全链分析等;

亿信华辰睿治数据治理平台的元数据管理模块提供了丰富的元数据分析功能,包括血缘分析、影响分析、全链分析、关联度分析、属性值差异分析等,分析出元数据的来龙去脉,快速识别元数据的价值,掌握元数据变更可能造成的影响,以便更有效的评估变化带来的风险,从而帮助用户高效准确的对数据资产进行清理、维护与使用。

总体而言,利用亿信华辰睿治数据治理工具构建元数据管理平台,实现集中化管理、自动化管理、版本管理,可为后续数据治理工作打下基础,基于统一的企业级元数据管理,为数据标准、数据质量、数据认责、数据全生命周期的数据管控提供支持。企业信息化管理者以元数据为抓手进行数据治理,有助于更加有效的发掘和利用信息资产的价值,实现精准高效的分析和决策。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询