首页 行业百科 什么是数据血缘关系

什么是数据血缘关系

|亿信华辰大数据知识库2022-04-18

什么是数据血缘关系

数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据数据血缘是指数据产生的链路,直白点说,就是我们这个数据是怎么来的,经过了哪些过程和阶段。

一、数据血缘关系的概念
数据血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系。
数据血缘属于据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。
数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据数据血缘是指数据产生的链路,直白点说,就是我们这个数据是怎么来的,经过了哪些过程和阶段。
二、数据血缘的特征
与人类社会的血缘关系不同,数据间的血缘关系包含了一些独有的特征:
多源性:同一个数据可以有多个来源,即一个数据可以是经由多个数据加工而生成的,而且这种加工过程可以是多个;
归属性:一般来说,特定的数据会归属特定的组织或个人;
层次性:对数据的分类、归纳、总结等不同程度的描述信息形成了数据的层次。例如在数据库中的结构化数据血缘关系的层次结构,是最经典的一种血缘关系层次结构。不同类型的数据,其血缘关系的层次结构之间会有细微的差别。
可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。
三、数据血缘关系的作用
1、评估数据价值
数据的价值在数据交易领域非常重要,数据血缘关系,可以从数据受众、数据更新量级、数据更新频次几方面来给数据价值的评估提供依据。
2、数据溯源
数据的血缘关系,体现了数据的来龙去脉,能帮助我们追踪数据的来源,追踪数据处理过程。
3、数据归档、销毁的参考
从数据生命周期管理角度来看,数据的血缘关系有助于我们判断数据的生命周期,是数据的归档和销毁操作的参考。
4、数据质量评估
从数据质量评估角度来看,清晰的数据源和加工处理方法,可以明确每个节点数据质量的好坏。从数据的血缘关系图上,可以方便地看到数据清洗的标准清单。
四、数据血缘关系的可视化
对于数据之间的血缘关系,可以利用计算机图形学和图像处理技术,通过可视化来清晰地展现在用户面前,方便后续探讨信息间的关联关系、本质探索。
根据血缘关系的特点及所需要展现的表现含义,数据血缘关系的可视化元素可以包括数据流转线路、信息节点、转换规则节点、数据归档销毁规则节点、清洗规则节点。
1)数据流转线路:数据流转线路从数据流入节点出来往主节点汇聚,又从主节点流出往数据流出节点扩散。数据流转线路表现了三个维度的信息,分别是方向、数据更新量级、数据更新频次;
2)信息节点:用来表现信息的所有者、层次信息及终端信息。信息节点有三种类型:主节点,数据流出节点,数据流入节点;
3)转换规则节点:位于数据流转线路上,用来表现数据流转过程中发生的变化、变换;
4)数据归档销毁规则节点:当数据不再具备使用价值,就可以考虑对其进行归档或者直接销毁;

5)清洗规则节点:用来表现数据流转过程中的筛选标准。其简略图形一般会位于数据流转线路上,表示该线路上流转的数据符合这些标准才能继续流转下去。


五、关于睿治数据治理平台
睿治数据治理平台融合数据集成、数据交换、实时计算存储、元数据管理、数据标准管理、数据质量管理、主数据管理、数据资产管理、数据安全管理、数据生命周期管理十大产品模块,打通数据治理各个环节。十大产品模块可独立或任意组合使用,覆盖数据全生命周期管理的应用平台,快速满足政府、企业各类不同的数据治理场景,也是目前国内功能齐全的数据治理工具,助力数据标准落地,提升数据质量,实现数据资产融合。
其中,元数据管理元数据管理内置丰富的采集适配器,端到端的自动化采集,一键元数据分析,快速理清数据资源,了解数据来龙去脉,构建数据地图,为数据标准建设和数据质量提供基础支撑。致力于处理技术元数据、业务元数据、管理元数据,帮助各行各业用户获得更多的数据洞察力,进而挖掘出隐藏在资源中的价值。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型
customer

在线咨询

在线咨询

点击进入在线咨询