- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2022-05-25来源:他说她多情浏览数:191次
元数据的定义 如果按照传统的定义,元数据是关于数据的数据,是为了描述数据的相关信息而存在的数据,例如记录数据的存储位置、模型定义、生命周期、血缘关系等信息。例如我们看一部电影,电影本身就是数据,那么元数据就是用来描述这部电影的数据。
帮助数据平台了解自己本身的情况:例如我有哪些数据、我存储的数据有多大、如何找到我所需要的数据、我的数据何时产出等信息,当我们拿到这些信息后,就可以做对应的运维报警等工作;
帮助数据平台制定数据统计的标准:例如数据口径如何统一、计算指标如何统一、数据之间的关系如何、数据的上下游关联数据是什么等信息,打通了上下游数据之间的关联关系,就可以为数据质量及维护可视化奠定基础。
可以说,元数据有重要的应用价值,对于数据管理,提供诸如计算、存储、成本、质量、安全、模型等方面有重大的利用价值。阿里巴巴在OneData体系中,建设的相关平台是:数据地图。因为平台属于内部使用,因此不便于对外透露。但你可以设想一下,一个平台,拥有的数据表,在百万数量级,是一种怎样的体验。可以说,跨部门、跨平台之间的数据信息同步,基本上都是要数据地图平台来进行的,对于维护百万张临时表和几万张常用表来说,区分它们的安全级别、使用频率、重复性、数据质量等信息,真的需要一个团队去专门的维护。数据地图在整个数据体系中,承担的是一种管理者的角色,通过图形化的方式来展示数据信息,并标明数据计算中所必要的各种信息参数,不仅数据开发人员可以使用,对于产品和运营来说也是非常友好的。它包含的内容有如下几个部分:快速的搜索定位:通过搜索引擎的方式来查找相关数据,支持精确查询、模糊查询、表名查询、字段查询、备注查询等方式;
标准化的图形展示:采用图形化的方式来组织页面逻辑,例如采用类似Wifi图标的形式来标注数据质量级别,肉眼可见的便捷,方便使用者所需要的关键信息;
积累历史数据信息:在很多场景下,历史数据是不需要重复计算的,直接拉取能够极大的避免重复开发。例如针对新用户的统计,可以拉取历史用户信息,和每日用户登录日志进行关联,用于生产每日新增用户;
直接关联分析工具:因为数据的信息直接存储在平台上,因而可以调用报表插件来快速看到直观的报表信息,不需要二次加工开发,很大的提升了开发的效率。
数据平台本身仍在不断的完善和开发中,更多的功能和更强的能力会被开发出来,以上提到的是其中的几个场景。(三)元数据平台该如何搭建 标准的建设思路图如下: