1、影响分析
在开发中,我们经常会遇到以下问题:
如果我要改动某个表、ETL,会造成怎样的影响?
如果没有元数据,那我们可能需要遍历所有的脚本、数据。才能得到想要的答案;而如果有成熟的
元数据管理,那我们就可以直接得到答案,节省大量时间。
2、血缘分析
血缘分析是一种技术手段,用于对数据处理过程的全面追踪,从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系。
在
元数据管理系统成型后,我们便可以通过血缘分析来对
数据仓库中的数据健康、数据分布、集中度、数据热度等进行分析。
血缘分析是 data science 非常重要的应用,未来笔者会单独展开介绍。
3、ETL 自动化管理
在数仓中,很大一部分 ETL 都是枯燥重复的步骤。
例如源系统-ODS 层的:表输入——表输出。
又比如 ODS-DW:SQL 输入——
数据清洗——数据处理——表输出。
以上的规则其实就属于一部分元数据。
那理论上完全可以实现,写好固定脚本,然后通过前端选择——或 api 接口。
进而对重复的 ETL 实现自动化管理,降低 ETL 开发的时间成本。
4、
数据质量管理
数据清洗的逻辑,简单的说可以分为不同的数据类型和指定的特殊处理列。
我们只需指定不同数据类型的默认清洗规则,和部分特殊列的特殊处理逻辑,即可实现智能快捷的数据清洗。
数据质量管理,属于
数据治理 与 元数据管理 交集,更偏向数据治理方面。未来也会展开更详细介绍。
5、数据安全管理
在阿里推崇的数据中台中,一切数据接口指标,都会从数据仓库中出口。因此理论上,我们只需在此处的元数据中对管理元数据的权限进行配置,即可实现全公司的数据安全管理。
(部分内容来源网络,如有侵权请联系删除)