睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

一文看懂企业数据资产目录

时间:2023-01-15来源:宝宝浏览数:2107

精益数据方法强调通过共享、开放、协同的方式,让企业的数据流动起来,共享起来,充分的协作起来,同时将数据治理融入业务场景中,在数据生产的全链路中实施数据治理工作。

为了实现这一个目标,企业需要对应的技术平台,也就是企业级数据资产目录。

数据资产目录的定义和价值

1. 数据资产目录的定义

数据资产目录是公司数据资产的清单,方便用户快速找到所需的信息。

该目录包含元数据,它提供其他数据的基本信息,结合数据治理和数据探索的相关工具,构成了企业级数据资产目录,如图 5-12 所示。

图 5-12 数据资产目录在企业中的定位

企业数据资产目录是对企业所有数据资产进行中心化管理的手段,企业通过元数据将数据源和数据产品等进行标准化的注册、管理等操作,让最终的数据用户可以方便地使用。

2. 数据资产目录的 4 个核心价值

数据资产目录是数据管理的核心抓手,企业通过数据资产目录能够提高数据使用和开发的效率。

数据资产目录主要有如下 4 个价值。

(1)统一数据管理

企业的 IT 团队无法为越来越多的业务人员和数据分析师提供所需的所有数据,导致业务人员和数据分析师无法了解企业现有的数据集数量、数据集的内容以及每个数据集的质量和实用性。他们花费太多时间来查找和理解数据,经常重新创建已经存在的数据集,经常使用不正确的数据集,导致分析不充分和不正确,这也是精益数据方法所提到的浪费的核心根源。

所以帮助业务人员和数据分析师实现自助式数据生产是数据治理的根本,为此,要先实现数据的统一管理。

数据资产目录应该是企业唯一且统一的数据资产管理工具,也是企业单一可信的数据出口。所以,数据资产目录应该清晰、结构化地将所有的数据资产按类别或标签进行管理,让所有的用户能够在一套数据体系下、一个平台上获取、分析和利用数据,让数据更容易被理解,从而减少错误,降低风险,提高数据分析效率,从而实现数据自助服务和分析。

(2)自助式探索分析

数据资产目录应该对不同角色的用户提供对应的数据探索、浏览和分析的功能,从而让用户方便地根据业务需要,用自己熟悉的方式浏览、查找、探索数据。

(3)安全合规保障

数据资产目录对所有的数据、数据产品和服务进行分级、分类、分权限管理,根据不同的身份对用户授权,满足企业的数据安全合规的要求。

(4)高效协同生产

数据资产目录是所有用户访问数据的唯一入口,要让所有用户能够高效协同,比如提供统一的知识库、数据自服务、数据标签以及协同开发等功能。

3. 数据资产目录优化企业数据生产全链路

在没有数据资产目录的时候,企业的数据生产全链路如图 5-13 所示。

图 5-13 没有数据资产目录时的企业数据生产全链路

由于没有统一的数据管理工具,所有的数据相关的文档、数据产品和数据都分散在企业不同的系统中,所以当需要数据的时候,工作人员就只能通过分散的文档和各种沟通会议来获得数据,然后评估数据是不是完整,再进行数据的探索和理解。如果数据不准确或者不是所需要的,则又要回到原点去寻找数据。

在数据处理和数据分析阶段,相关人员如果需要更多的数据,就要寻找更多的数据文档和组织更多的沟通会议。从寻找数据开始,到数据分析结果出来,再到数据产品构建好,这个过程费时费力,并且新的数据分析结果和数据产品又变成了数据孤岛,当别人利用数据的时候依然需要沟通。这样的过程低效、随机性很大,并且很容易导致数据质量问题。

当企业构建起数据资产目录后,数据生产的全链路就形成了,如图 5-14 所示。

数据资产目录支撑下的数据生产全链路

数据资产目录是企业所有数据产品和元数据的管理工具,能够集中地注册、管理数据资产,全面地监控数据生产的过程,让用户对数据进行探索分析,把数据治理的工作分散融入数据生产全链路中。这样从寻找数据、获取数据、评估数据、理解数据、数据处理、分析数据,到最后数据结果和数据产品的分享,所有工作人员都可以实时通过数据资产目录协作,而且所有的操作都会被记录下来,不同人可以对数据进行点评、打标签,分享自己对这个数据的理解,从而帮助其他人更好地查找和利用数据。数据资产目录的目标是提供快速且低成本的方式来盘点、分类和组织分散且杂乱无章的数据资产,让所有人用同一个工具进行数据的查找、访问和协作。数据资产目录帮助企业构建统一的一站式数据治理能力,是精益数据治理的典型实现方式。

数据资产目录的典型功能模块

企业数据资产目录是数据治理和利用的核心工具,主要由如图 5-15 所示的

功能模块构成。

数据资产目录的 8 个核心功能模块

1. 数据获取

数据资产目录要提供全面的数据连接、获取的功能,让企业的各类数据能够接入进来。在现在数据复杂度越来越高的情况下,企业数据资产目录要兼容数据仓库、数据湖、云上数据系统等多种数据源。但是,数据的存储并不是数据资产目录的核心功能,数据依然可以按业务需求以多种形式存储在不同的地方。数据资产目录要建立全面的数据注册、接入、管理的能力,从而管理好每一个数据的全生命周期。

2. 数据探索

数据探索是数据资产目录被使用最频繁的功能,能帮助用户缩短查找数据的时间,大幅度提升数据生产的效率。数据资产目录提供的数据探索功能主要

有以下几点作用。

● 帮助用户搜索到需要的数据和数据产品。

● 帮助用户查看数据,为用户提供全面的数据描述信息,也就是元数据,

帮助用户更好地理解数据。

● 帮助数据探索数据的全生命周期信息,也就是数据血缘,从而确认数据

的正确性。

所以,数据资产目录要提供多样化的数据探索功能,主要包括按关键词搜索、按标签搜索、按访问热度浏览、按相关性浏览等。数据运营人员要对用户的行为数据等进行深度挖掘分析,从而帮助用户快速定位到正确的数据,通过数据资产目录给用户推荐更匹配的数据。

3. 数据管理

数据资产目录是根据数据资产蓝图构建的,界面信息呈树状结构。企业所有的数据资产,包括源数据、数据集、数据产品等,都要归类并挂接到数据资产目录中。并且数据资产目录要通过丰富的业务和技术元数据对这些数据资产进行全面、清晰的描述,方便用户打标签和评论。

精益数据方法认为,数据资产目录不仅要管理好源数据,还要将所有二次加工的数据、报表、数据集等纳入管理。

4. 数据质量管理

数据资产目录不仅具备数据资产仓库的作用,还要依据元数据和数据质量标准规范,构建起数据质量管理的能力。数据资产目录要按业务需求对所有的数据资产进行扫描,然后将数据质量反馈记录下来,从而在管理数据的同时全面监控数据质量。数据资产目录要能够跟踪数据质量,生成数据日志,方便用户整理和准备数据。此外,数据资产目录使用人工智能来自动管理数据质量,主要管理工作包括检测最近更新的数据存储的异常情况,将业务术语和标签添加到新数据集,检测可能关联的数据集,改善搜索体验。

5. 异常监测和管理

数据资产目录要构建起自动的数据监测功能,通过将数据治理的规范标准嵌入脚本中,扫描数据资产实时获取数据资产和数据加工过程中的异常情况,起到监测重要数据问题的作用。

6. 数据可视化和分析

用户在找到数据后要进行数据可视化和数据分析,所以数据资产目录也需要将数据可视化和分析的功能集成进来,为用户提供流畅的使用体验。

7. 数据共享和协作

数据的生产、加工和利用是一个集体活动,所以数据资产目录也要提供一定的共享和协作功能,大幅减少用户在查找、生产和利用数据过程中的浪费。

具体的共享和协作功能如下。

● 用户可以共同编辑、维护元数据信息和数据知识库。

● 用户可以共享自己的数据探索、分析、生产、利用的成果,供其他用户使用。

● 用户可以给数据资产打标签,做评论,从而发现问题,提出问题,供他人参考。

● 每一个数据和数据产品都关联到具体的人或团队,方便用户之间进行交流。

● 用户可以协作开发、协作编辑、协作建模。

8. 元数据管理

元数据管理是数据资产目录最重要的功能,也是最基础的功能。数据资产目录的整体运作就是以元数据为基础的。数据资产目录应该全面地管理所有数据的两类元数据:技术元数据和业务元数据。数据资产目录不仅要实现对元数据的定义和管理,还要通过工具和技术手段对接入的数据源自动进行元数据的采集和生成,从而减少人工的工作量,提升数据治理的效率。


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询