睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据资产目录建设之数据分类全解

时间:2022-05-25来源:花落未央浏览数:2534

数据分类真的很复杂,绝对不是简简单单拖出来一个脑图就能解决问题的。其中最麻烦的地方,是对业务的深刻理解,以及各自管理范围和管理对象的梳理。

    关于数据资产目录的分类,这篇文章给了一个方法,即MS-MS-MO,就是管理主体(WHO)、管理范围”WHERE“、管理对象”WHAT",即谁,在哪些业务范围,具体管理那些数据,不过讲得有点复杂。

正好自己也在做企业数据资产目录,有一个不成熟的想法抛出来供大家讨论,就是分类要以“客户为中心”的原则,有两个要点,第一,要符合你的企业的业务人员使用习惯,第二,维护的成本要低,下面是三个建议:

1、管理主体可以按照业务部门分,也可以按照业务部门的类别分,这个应该是比较简单的。

2、管理范围就是业务子域,确定业务子域要么根据业务架构来,如果没搞过业务架构,那就基于现有业务组织的层级架构来定,有些行业虽然有领域划分的最佳实践,比如文中提到的证券等等,我觉得可以参考,但不要硬套,因为最终你的目录是给你的业务部门使用的,不是给一个理性人用的,同时要考虑目录运维的难度。

3、确定了业务子域后,可以再按照这个子域所辖的系统去划分,然后再到这个系统的表和字段,简单粗暴好管理。数据分类容易陷入理想化的困境,但其实业务人员根本不Care你的分类是不是严谨,它更关注的是好理解,方便使用,站在用户的角度思考问题,也许可以走出分类的困境。

数据治理“洗澡论”

其实他们之前做过数据一轮数据资产盘点,做了一个分类,也挂到系统上了,但是后来就没有后来了。治理做一半,等于啥也没干

我之前在群里开了一个玩笑,数据治理这种事情,就跟洗澡一样,首先得勤快点洗。一天不洗澡,身上就臭了。

另外,标准也很重要,南方和北方对“洗干净”的定义不一样。南方洗澡的时候,只要泡泡冲干净,就算洗干净了。北方洗澡的时候,身上不搓下来二斤泥都不叫洗干净了。

还有,洗澡得全面,有些人洗澡不洗头还说得过去,但是洗澡只洗左胳膊,这算咋回事?最后,洗完澡得维护,水得擦干啊,衣服得换干净的,不要到外面踩泥巴,要讲卫生啊!但是很多人认为数据治理就是弄个项目就完事的。这就像是中世纪的欧洲,一生就洗三次澡,出生一次,结婚一次,入殓一次。其他时间都靠香水度日

所以数据治理不是立一个项目就完事的,要么在家弄个浴室,要么定期去外面大众浴室,条件好可以再叫个搓澡的师傅,上个奶盐。

数据分类原则

这不,跟长时间没洗澡一样,长“数据虱子”了,各种指标爆炸数据质量低下等问题让数据部门的彭友非常难受,所以他们又要开始做数据治理了。

首先要做的就是数据资产盘点,建立数据资产目录。盘点的时候好说,就是各种整理呗。

但是到建立数据资产目录的时候就傻眼了,他们先是按照自己的理解整了一版目录结构。

但是在把数据资产装进去的时候就发现有些数据资源不属于现有的任何一个分类,然后又来调整,但是一会儿又发现有些数据资源放这里也行,放在那里也行,这就蒙圈了

这是因为没有把握住数据分类的原则。具体可以分为:

1、全量:能够容纳组织全量数据资产;

2、系统:数据分类必须系统化、体系化,层次清晰、逻辑鲜明,形成具有隶属和并列关系的分类体系,展示数据之间的联系和区别;

3、规范:目录名称要能准确的表达该类目的实际内涵和外延,在整个目录中保持规范;

4、唯一:目录体系内,各自界限分明,尽可能保证不重复、不交叉、相互独立且唯一;

5、稳定可扩展:建立的数据分类要保持一定的稳定性,保持一段时间内的可持续使用,并保留可扩展的余地。

数据分类方法

数据分类其实来源于信息分类法,一共有三种:线分类法、面分类法、混合分类法。

线分类法:简单来说,就是将数据按选定的若干个属性或特征,逐次分为若干层级, 每个层级又分为若干类别。

同一分支的同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。同层级类别互不重复,互不交叉。

线分类法适用于针对一个类别只选取单一分类维度进行分类的场景。最典型的线分类法就是生物分类系统,有一个学科专门研究这个,叫“生物分类学”。

你仔细看看上面的图,就知道线分类法有很大的局限:一个分类只能描述单一的逻辑复杂一点就没法弄了,比如集团中有好几个不同的业态...

面分类法:就是把数据依据各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。

还可以将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。

比如服装,有材料、颜色、款式等多个面,可以自由搭配组成任意内容。下面这个例子则是螺丝的面分类法,可以分为材料、直径、钉头、表面处理:

面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别同时选取多个分类维度进行分类的场景。

混合分类法:顾名思义,就是线分类+面分类结合咯。一般来说,还是得以某一个方法为主,另外一个为辅

这下就能集合两种方式的优点,规避它们各自的缺点了。比如用面分类法解决多业态的问题,再用线分类法细化;或者用线分类法搞定前面几层,再用面分类法进行细化。

数据分类的层次关系

会后,彭友还找我要PPT。讲真,不是老彭我小气,关键是我还真没有专门为这个事情做一个PPT。因为这些内容其实早就有很全的指导了,比如《证券期货数据分类分级指南》里就很全:

这张图把业务、数据和数据表现形态之间的关系表现的很清楚。我们需要从业务、数据和形态三个视角对数据分类进行理解。

其中,最先要了解的,就是业务。业务可以按条线和子类进行拆分,就算是集团公司,也能拆的很清晰。

然后从业务角度,向下再进行拆解,从数据角度进行分类。所以数据角度的第一个层级应该是业务主题域,而不是纯粹的数据角度

数据分类应该从主题域不断细分,直到最细颗粒度。一般来说,在数据资产目录里,是要能看到详细的样例数据,并能申请API访问权限的。在这个时候,我们需要对数据进行分级,便于进行权限分配和安全管控。

最下面,其实不是数据的分类,而是数据的展示形态。数据最终是要在系统中用业务流程、数据查询、报表分析、大屏展示等各种形态利用起来的。

先分类还是先分级?

一般来说,数据分类、分级会在两个领域出现,一个是数据资产目录建设,一个是数据安全管控。

数据资产目录这边偏分类多一些,因为数据资产太多了,需要归归堆,没有一个树形的目录体系,根本没办法查找。

当然,树形目录的弊端也很多,比如查找困难等。所以现在又出现了多分类、标签等方法,辅助进行数据资源的检索。

数据安全管控的方式一般是针对不同级别的数据,施行对应的管控手段,限制人数、可访问范围,所以安全这边主要是数据的分级。

比如《工业数据分类分级指南(试行)》把数据分为一、二、三级,也就是一般、重要、核心数据。《基础电信企业数据分类分级方法》中按重要敏感程度,把数据分为第四级、第三级、第二级、第一级,大概意思就是高敏感、敏感、不敏感、公开。

所以,分类和分级,是两个工作。根据其目的,侧重点不一样,先做那个,取决于当前主推那个任务。从老彭参与的项目上来看,一般来说,先做数据盘点,整理数据资产目录的较多。也就是先进行数据分类的情况较多。

数据分类案例

数据分类主要有线分类法、面分类法和混合分类法三种。但是线分法和面分法都有其局限性,所以我们常见的数据分类,还是采用折中的混合分类法较多。

同时,数据分类跟行业属性、业务也有非常大的关系。

政务数据分类为例,《贵州省政务数据分类分级指南》中建议政务数据可以采用主题分类、行业分类和服务分类三种分类方法。

本标准采用多维度和线分类法相结合的方法,在主题、行业和服务三个维度对贵州省政府数据进行 分类,对于每个维度采用线分类法将其分为大类、中类和小类三级。业务部门可以根据业务需要,对数据分类进行小类之后的细分。对小类的细分,各部门可以根据业务数据的性质、功能、技术手段等一系 列问题进行扩展细分。本标准采用面分类法将政府数据按照多个维度进行关键词的标签构造。

按主题分类的方法,可将贵州省政府数据分为以下大类:综合政务、经济管理、国土资源、能源、工业、交通、邮政、信息产业、城乡建设、环境保护、农业、水利、财政、商业、贸易、旅游、服务业、气象、水文、测绘、地震、对外事务、政法、监察、科技、教育、文化、卫生、体育、军事、国防、劳动、人事、民政、社区、文秘、行政、综合党团。

按行业分类的方法,则将贵州省政府数据分为以下大类:农、林、牧、渔业;采矿业;制造业;电力、热力、燃气及水生产和供应业;建筑业;批发和零售业;交通运输、仓储和邮政业;住宿和餐饮业;信息传输、软件和信息技术服务业;金融业;房地产业;租赁和商务服务业;科学研究和技术服务业;水利、环境和公共设施管理业;居民服务、修理和其他服务业;教育;卫生和社会工作;文化、体育和娱乐业;公共管理、社会保障和社会组织;国际组织。

电信数据分类为例,《基础电信数据分类分级方法》中主要采用线分类的方法,对电信数据进行完整的分类。

根据基础电信企业业务运营特点和企业内部管理方法,收集企业内所有部门的数据资源,梳理所有数据资源。按照线分类法,按照业务属性(或特征),将基础电信企业数据分为若干数据大类,然后按照大类内部的数据隶属逻辑关系,将每个大类的数据分为若干层级,每个层级分为若干子类,同一分支的同层级子类之间构成并列关系,不同层级子类之间构成隶属关系。所有数据类及数据子类构成数据资源目录树,如图1所示。目录树的所有叶子节点是最小数据类。最小数据类是指属性(或特征)相同或相似的一组数据。

电信的数据分类如下:

用户相关数据:

1.用户身份相关数据(用户身份相关数据、用户网络身份相关数据)2.用户服务内容数据3.用户服务衍生数据(用户服务使用数据、设备信息)

4.用户统计分析类数据(用户使用习惯和行为分析数据、用户上网行为相关统计分析数据)

企业自身相关数据:

1.网络与系统的建设与运行维护类数据(建设类数据、网络与系统资源类数据、网络与系统运维类数据、网络安全管理类)

2.业务运营类数据(业务运营服务数据、公开业务运营服务数据)

3.企业管理数据(发展战略与重大决策、业务发展、技术研发类、运行管理类、生产经营类、综合管理类)

4.其他数据(合作方提供数据)以证券数据分类为例,《证券期货数据分类分级指引》中主要采用线分类的方法,按照业务条线,对证券数据进行完整的分类。证券的数据分类如下:(以数据汇集型会管单位数据分类为例)1.交易(交易管理、结算管理、行情管理、发行管理、会员管理/机构管理、投资者管理、产品管理)2.监管(监察与评价管理、研究报告、信息披露管理)3.其他(标准化管理、业务管理、技术管理、综合管理)

数据分类方法论

其实上篇已经把数据分类的基本方法论说过一遍了。有些彭友觉得不太解渴。今天我们就好好学习一下《证券期货数据分类分级指引》中的内容。可参考性还是很大的。首先放一张体系图:

这张图上篇已经讲过了,这里就不复述一遍了。《指引》里还给出了具体的分类分级的流程:

参考上面的图,《指引》中把数据分类分为两个阶段,即业务细分阶段和数据归类阶段,每个阶段细分不同的步骤。在业务细分阶段,参考他们提出的MS-MS方法(管理主体-管理范围),将业务进行细分。

管理主体就是“WHO”,管理范围就是“WHERE”,这两个对象一确定,就说清楚了是“谁”具体负责“哪里”的事情,职责范围就清晰了,业务条线自然而然就划分出来了。

业务细分一共分为四个步骤:

步骤一:确定业务一级子类——基本业务条线。参考《证券期货行业数据模型》确定的业务条线作为基础。对!数据分类和模型是紧密关联的!!!

步骤二:确定每个业务条线下所有的业务管理主体(MS)。

步骤三:确定每个业务管理主体对应的管理范围,明确对应关系(MS-MS)

步骤四:命名映射关系——业务二级子类。

此方法可以在每一层都这么用,无限套娃,理论上可以把所有的业务细分到足够细的颗粒度,直到每个人。

但是我们分类的时候一般就分个3、4级就行了,在《指引》里,建议用MS-MS划分一次就行,剩下的层级放在数据归类阶段进行。

数据归类阶段,参考他们提出的MS-MO(管理范围、管理对象)方法,对数据进行归类。

MS-MO方法其实也很好理解。管理范围就是延续上面“MS-MS”后面的MS。汇总起来就是MS-MS-MO,就是管理主体(WHO)、管理范围”WHERE“、管理对象”WHAT",即谁,在哪些业务范围,具体管理那些数据。

数据归类总共也分为四步:

步骤一:明确各个业务二级子类的管理范围(MS)。

步骤二:确定业务二级子类的管理范围对应的管理对象(MS-MO),即找到业务二级子类下的全部数据。

步骤三:按照数据细分方法对各个“单类业务数据总和”分别细分,得到数据一级子类。

步骤四:命名数据一级子类。

然后,就是对已划分明确的数据一级子类进一步细分,细分后产生一个或者多个数据子集:

经过上面的两大阶段,8个小步骤,就能得到一个完整的数据分类目录:

小结

数据分类真的很复杂,绝对不是简简单单拖出来一个脑图就能解决问题的。其中最麻烦的地方,是对业务的深刻理解,以及各自管理范围和管理对象的梳理。这时候最容易陷入到企业组织本身的缺陷当中。比如A部门和B部门的职责不清晰,管理范围有交叉、对同一个管理对象都有管理权力,这时候我们就无法划分清楚数据的Owner,也无法确定某个指标的具体负责人到底是谁。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询