睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据资产如何进行有效分类?

时间:2022-03-14来源:冷色系浏览数:192

数据分类的目的是为了针对不同特性的数据采取不同的管理策略,以期实现最大的投入产出比,不同的企业或组织基于不同的目的,可以从多个角度对数据进行分类,今天就来聊一聊主流的分法。

1、按照结构特征划分

可以分为结构化数据、非结构化数据及半结构化数据。

(1)结构化数据

指数据元素之间具有统一且确定关系的数据,它由明确定义的数据类型组成,结构化数据一般特点是数据以行为单位,一行数据表示一个实体的信息。每一行数据的属性是相同的。结构化数据的分析更为便利,且存在成熟的分析工具。

(2)非结构化数据

指数据元素之间没有统一和确定关系的数据,它是具有内部结构,但不通过预定义的数据模型或模式进行结构化的数据,如各种格式的图片、视频等,直接分析非结构化数据需要很强的专业性。

(3)半结构化数据

指非关系模型的,具有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、E-mail等。

2、按照数据性质划分

可以分为参考数据、主数据、事务数据(或交易数据)、统计数据、观测数据(又叫时序数据),这在《华为数据之道》和《数据治理-工业企业数字化转型之道》都有提及,当然华为还提了规则数据,但这个跟参考数据有交叉。

(1)参考数据

指对其他数据进行分类和规范的数据,如国家、地区、货币等产业通用的数据及各产业特色基础配置数据,具有相对稳定、静态的数据,基本不会变化,往往通过系统配置文件给予规范并固化在信息管理系统中。

(2)主数据

指满足跨部门业务协同需要的、反映核心业务实体状态属性的基础信息。主数据是用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体,是在整个价值链上被重复或共享应用于多个业务流程、跨越多个业务部门和系统、高价值的基础数据,也是各业务应用和各系统之间进行数据交易的基础。从业务角度看,主数据是相对固定、变化缓慢的,但它是企业信息系统的神经中枢,是业务运行和决策分析的基础。

(3)事务数据

指在业务活动过程中产生的数据,是企业日常经营活动的直接体现,也是围绕主数据实体产生的业务行为和结果型数据,业务活动数据存在于联机事务处理系统中,就有瞬间生成和动态的特点。

(4)统计数据

是组织在经营分析过程中衡量某一个目标或事物的数据,一般由指标名称、时间和数值等组成。

(5)观测数据

指时间序列数据,它是按时间顺序记录的数据列,在同一个数据列中的各个数据必须是同口径的,要求具有可比性。在工业企业中,实时数据是时序数据的一种,如设备运行监测类数据、安全类监测类数据、环境监测类数据。

3、按照数据存储方式划分

可以分为关系型数据库存储数据、键值数据库存储数据、列式数据库存储数据、图数据库存储数据、文档数据库存储数据等。

(1)关系型数据库

采用关系数据模型的数据库系统,关系数据模型实际上是表示各类实体及其之间联系的由行和列构成的二维表结构。一个关系数据库由多个二维表组成。表中的每一行为一个元组,每一列为一个属性,对关系型数据库进行操作通常采用结构化查询语言。

(2)键值数据库

是一种非关系数据库,它使用简单的键值方法来存储数据。键值数据库将数据存储为键值对集合,其中键作为唯一标识符。键和值都可以是从简单对象到复杂复合对象的任何内容。键值数据库是高度可分区的,并且允许以其他类型的数据库无法实现的规模进行水平扩展。

(3)列式数据库

是一种非关系数据库,以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于小批量的数据处理,常用于联机事务型数据处理。

(4)图数据库

是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。最常见例子就是社会网络中人与人之间的关系。

(5)文档数据库

是 NoSQL 中非常重要的一个分支,它主要用来存储、索引并管理面向文档的数据或者类似的半结构化数据。

4、按照数据开放属性划分

可以分为禁止开放类、受限开放类、无条件开放类等。

(1)禁止开放类

开放后涉及国家安全、公共安全、经济安全和社会稳定的;涉及商业秘密、个人隐私的;因数据获取协议或者知识产权保护等禁止开放的;法律、法规规定不得开放的。

(2)受限开放类

涉及商业机密、个人隐私,其指向的特定公民、法人或者其它组织同意开放,且法律、法规未禁止的;开放将严重挤占公共基础设施资源,影响公共数据处理效率的;开放安全风险难以评估的;依法经脱敏、脱密等处理的禁止开放类公共数据,符合受限开放的,应列为受限开放类公共数据。

(3)无条件开放类

除禁止开放类与受限开放类公共数据以外的其他公共数据;已脱敏、脱密等处理的禁止开放类与受限开放类公共数据,符合无条件开放的,可列为无条件开放类公共数据

5、按照主题域划分

主题域是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类,并进行分析利用的抽象,主题域划分的方法有按业务、按系统、按部门等等。

(1)按系统划分,业务系统有几种,就划分为几类

下面是某MSS系统划分蓝图示例:

(2)按业务划分,比如业务系统中有商品、交易、物流等

下面是某证券行业业务主题域示例:

(3)按部门规划,比如公司内的生产、供应链、研发、销售等

下面某公共数据开放平台的单位目录示例:

数据分类在数据资产管理中的价值很大,但一定要以业务价值为导向,要么提升管理效率,要么能提升客户体验,不要为了分类而分类。



(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询