睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

企业级数据目录实战:从组织、方法、流程到平台

时间:2023-10-17来源:英雄无敌战浏览数:82

自2021年启动企业级数据治理工作,做的第一个事情就是打造企业级数据目录,今天就来谈谈企业级数据目录的构建之路。


一、设立企业数据责任人是第一要务

大家都知道组织保障对于数据治理工作的重要性,但组织保障中最重要的工作是什么呢?

不是什么企业数据治理委员会,也不是什么数据治理办公室,而是企业要明确设立企业数据责任人,因为任何组织、机制、流程都会僵化,只有企业数据责任人才能灵活的应对变化。只要企业数据责任人在,就能够持续的给予数据团队业务方向的指引和实际资源的的支持,没有企业数据责任人,企业的数据治理工作就不可持续。

公司设立了企业数据责任人后,第一件事情就是定期召开数据治理跨部门联席会议,重点推进解决跨部门跨领域的数据痛点难点问题,当所有部门的人能被组织在一起就一个数据问题开展讨论,这就是巨大的成功,很多数据问题并不难,难的是有人决策拍板。

数据治理跨部门联席会议第一次会议的第一项任务,就是要求数据管理部门牵头,协同公司各部门进行系统与数据资产的梳理工作,这是企业级数据目录构建的起点。


二、配备专门人员负责数据目录工作

企业数据目录是非常专业性的工作,即使是小如数据目录梳理模板制定,数据目录到底是按照主题分类,领域分类,或者是系统分类,都需要仔细分析,因地制宜。

因此,企业数据目录是不可能靠外人帮忙打造的,咨询公司也许可以提供一些建议,但也仅此而已,公司一定是要有专业的数据团队人员来负责企业数据目录的构建工作。

那么这些人员从哪里来呢?

从当前各部门从事数据相关工作的人里抽调。我们可以少做点报表,少做点取数,但一定要有人专项从事数据目录的构建工作。

现在国家已经在考虑数据资产入表了,而企业如果连自己的数据资产家底都搞不清楚,怎么可能入表?试点都不可能。

想想一个公司财务部有多少人在搞现金、实物资产的管理,就应该能想明白企业应该有人去专门从事企业的数据资产的管理工作,这是全公司的事情,不是IT部门的事情。


三、构建企业级三大数据目录的方法

企业数据目录自底向上有三个层次,分别为数据资源目录数据资产目录数据开放目录,对应于数据处理生命周期不同的阶段。

数据资源目录用于纳管源端系统的所有资源,代表了一个企业的数据全景视图。

数据资产目录是数据资源入湖后加工完的全景数据视图,能够称为资产的数据一般要具备业务价值属性。

数据开放目录是指在数据资产目录基础上删选后进行开放的全景数据视图,一般要综合考虑数据安全性等因素确定,数据开放是数据价值进一步发挥的基础。

三大目录的关系如下图所示:


1、数据资源目录

每个企业都应该设计自己的数据目录盘点方法,首先要确立盘点步骤,以下是一个“五步法”的示例:

(1)现状调研:面向业务人员开展需求调研,明确范围、内容、质量等要求

(2)制定模板:制定盘点的标准化模板,以指导各领域开展盘点工作

(3)系统梳理:由各领域数据责任人开展所辖IT系统的梳理

(4)审核确认:由公司数据责任人对领域梳理的数据资源进行审核确认

(5)资产发布:经过审核确认之后在企业级数据资源目录上发布


其次是建立数据资源目录的架构,,以下是一个五级目录架构的示例:

(1)业务域:业务域以数据视角体现公司最高层面关注的业务领域

(2)业务子域:业务子域是互不重叠数据的高层面的业务分类

(3)业务系统:业务系统是信息架构的核心层,记录业务相关的人事物

(4)数据实体:数据实体是具有一定逻辑关系的属性的集合

(5)属性:属性是反映信息管理最小粒度,即表字段


最后是设计标准属性,以下是40个标准属性示例:

有了数据盘点方法这种顶层设计,才能让企业各个领域按照统一的标准完成自身领域数据资源资源的盘点,从而初步形成企业级数据资源目录。

在梳理的过程中,会涉及到填写不准确,不规范等大量问题,因此还要因地制宜的制定操作规范,比如明确字段业务含义的描述方法。

这种细化的规范不可能一开始就定义的很明确,往往是边做边细化,逐步迭代。最关键的就是一定要先做起来,有些成果了,大家有信心了,再继续完善。


2、数据资产目录

数据资产一般是基于业务需要进行数据仓库主题建模的结果,按照数据的加工程度自底向上可以分为为基础模型融合模型挖掘模型。

基础模型就是规范化后的数据,融合模型就是跨业务域整合后的数据,挖掘模型就是通过建模后获得的知识,比如标签等等。由这三类数据形成分层级的数据资产目录的第一层,然后在基础模型、融合模型、挖掘模型下还可以按需进行层级的进一步划分,具体如下所示:


3、数据开放目录

数据要素要充分流动起来才有价值,因此企业数据治理组织除了自己加工数据,还需要对外去开放数据,但对外开放数据不是越多越好,而是要在确保安全的条件下实现数据价值的最大化,这就需要在数据资产目录的基础上生成第三个数据目录,即对外开放目录,下面是一个示例:

不同的数据敏感程度不同,开放的对象和审批的要求也不一样,因此对外开放目录必须标识清楚每个数据的敏感等级,比如快捷开放、可控开放、严控开放等等,针对每个敏感等级数据要制定不同的开放流程,比如数据上架流程,数据等级标注流程等等。


四、实施企业数据目录动态闭环管理

完成了企业数据目录的制定只是第一步,最关键的还是要实现数据目录的闭环运营,即确保数据目录的常态化动态更新。

很多企业虽然建立了数据目录,但这些目录的构建往往是项目式的,一旦项目完成,关注点转移,数据目录就基本停止更新或者很少更新,这样的数据目录也就逐渐失去了价值。

我们需要围绕数据目录建立一套保障机制和流程,下面以数据资源目录动态更新为例说明,共分为四个步骤:


(1)数据自动发现

第一、要实现源端系统的元数据的自动采集和管理,这是实现数据资源目录动态更新的前提,依赖于企业系统资产的全量梳理和系统资产变更信息的及时同步,我们要能及时发现新增和变更的系统并获取连接的方式,如下所示:


第二、要实现针对源端数据资源的实时扫描,自动发现变更的数据资源并同步相关元数据信息,从而触发后续后续一系列的数据资源目录的变更流程,比如我们每月发现的变更数据资源超过800项,因此会触发800个任务单去进行审核确认。

(2)数据价值的判断

扫描到的新增数据资源并不一定要入湖,因为很多领域的数据资源没有现实的业务价值,采集进来并且维护这些数据的性价比非常低,这个时候就要由领域数据责任人对数据价值进行判断并进行标识,标识为价值数据资源则启动入湖流程。

(3)元数据补充录入

领域数据责任人需要基于数据标准对数据资源的元数据进行补录和完善,公司数据责任人进行审核,共同确保元数据的质量。

(4).数据目录审核发布

根据数据盘点结果,自动对数据资源目录进行动态更新,使得数据资源目录保持在最新状态,确保数据资源找得到,看得懂。

数据资源动态目录一旦建立起来,就可以基于数据资源动态目录实现一键入湖的能力,省去了传统ETL复杂的系统对接、需求确认、开发配置、部署上线等系列工作,大幅提升ETL的效率,这也算是实现了真正的数据编织能力,如下示例。

数据目录的闭环运营是个复杂的过程,比如数据资源目录需要领域责任人完善元数据,数据资产在上架到数据开放目录之前需要明确数据敏感等级,这些都需要建立相关的制度和流程才能保障。因此,一个企业是否具备数据编织能力,前提是管理到位,光吹技术是没有用的。


五、打造企业级的数据目录管理平台

系统是流程的保障,三大目录都要有相应的流程支撑平台,数据目录是跟着生产流程走的,千万不要打造什么专有的数据目录管理平台。

以数据资源目录为例。

公司需要打造企业级的数据资源管理平台,实现数据资源目录的线上化、自动化管理,确保数据资源能发现、能找到、能看懂,同时为数据入湖提供一站式支撑。

数据资源管理平台的功能架构如下所示,共分为数据盘点线上化、数据入湖配置化、数据资源可视化及后台管理配置化等功能。

数据盘点线上化主要是对源端系统进行自动化扫描,通过对元数据的采集形成数据资源目录。

数据入湖配置化主要基于数据资源目录对源端数据进行入湖。

后台管理配置化主要是实现对数据资源目录的配置管理及标准管理,数据资源可视化主要面向运维管理人员和资源运营人员,提供数据资源看板等功能。

数据资产目录的管理一般集成在数据开发管理平台,数据开放目录的管理则是在数据开放管理平台进行承载,这三大目录既相互联系,又分别为不同的业务目标服务。

数据目录往往是企业数据治理的起点,一个企业只有把数据当成账本那么管理,为其建立一套保障机制和流程,才有资格说我真的把数据当成了资产和资本,如果连这一点都做不到,就不要提什么重视数据诸如此类的话了。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询