睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据血缘的管控方法及应用场景

时间:2022-04-23来源:捌月浏览数:936

数据血缘是在数据的加工、流转过程产生的数据与数据之间的关系。随着银行数字化转型的不断深入,数据量的爆发式增长为数据治理工作带来了巨大的挑战,加强对数据血缘的管控变得愈发重要。数据血缘管控贯穿于数据的全生命周期中,确保血缘管控的完整性与及时性,有助于追踪数据的上游来源和下游去向。同时,自动化工具提高了血缘管控的效率,在数据质量评估、个人信息追踪、应用程序迁移等应用场景中发挥着重要的作用。


01数据血缘概述

数据血缘的核心要素包括数据节点、流转路径、流转规则等,可分为水平数据血缘和垂直数据血缘。

1.数据血缘要素

数据血缘关系一般由数据节点、数据流转路径、数据流转规则构成,它们在血缘关系中以直接或间接可见的方式标志血缘信息。

1)数据节点

数据节点是有独立数据功能业务的载体,体现了数据的业务属性与存储位置。从广义上来说,数据库、数据表、数据字段都是数据节点;在实际运用中,一般使用元数据信息作为区分数据节点的依据,每个数据节点都有唯一的身份标识。同时,每个节点在血缘图中都占有一定的比重,比重越高的节点,对整个数据网络的影响越大。数据节点分为以下三类:

数据流出节点:用于提供最基础的数据,一般是底层源数据 中间节点:是数据血缘关系中类型最多的节点,既承接流入的数据,又向流入节点提供数据

数据流入节点:是整个数据血缘的终端节点,承接中间节点流入的数据后,不再往下流转。数据流入节点的数据一般即业务系统的输出,用作可视化报表或者仪表板展示;在少数情况下,会对其他业务系统进行数据反哺

2)数据流转路径

数据流转路径通过表现数据流动方向、数据更新量级、数据更新频率三个维度的信息,标明了数据的流入流出信息:

数据流动方向:通过箭头的方式表明数据流动方向 数据更新量级:数据更新的量级越大,说明数据的重要性越高

数据更新频率:数据更新的频率越高,说明数据的变化越频繁,重要性越高

3)数据流转规则

数据流转规则体现了数据流转在过程中发生的变化以及如何成为其他实体的构成部分,每一条数据流转路径都可以包含一个或者多个流转规则,用户通过查看流转路径,可查看该段流转路径的规则,规则可以是直接映射关系,也可以是复杂的规则,例如:

数据映射:不对数据做任何变动,直接抽取 数据清洗:由于各个节点对数据质量的要求不同,数据需要基于一定的数据标准流入实体,通过数据清洗的方式表现数据流转过程中的筛选标准。例如要求数据不能为空值、符合特定格式等 数据转换:数据流转过程中,流出实体的数据需要进行特殊处理才能接入到数据需求方

数据预警:针对数据检测规则,一旦触发预警阈值,就以特定方式进行报警,并对整条数据流转路径上的节点自动进行关联检测

数据血缘要素

2.水平数据血缘

数据血缘以手工记录入档的方式在系统之间流转,从抽象的维度来理解,即为水平数据血缘。水平数据血缘通常是数据集(系统)粒度,适用人群主要为业务用户与架构师。水平数据血缘通过提供大量图文,来展示客户数据在组织系统之间是如何流动,但无法实现从数据项切入并深入挖掘的需求。

3.垂直数据血缘

垂直数据血缘一般是由系统级、报表级、字段级三个不同层次组成的树形结构,描绘了数据自下而上层层汇集的过程中各个实体之间的血缘关系,体现了逐层分析数据细节与逐列分析数据在迁移过程中的转换处理逻辑,便于寻找报表中特定单元项数据值的来源,或者数据值在两列数据之间流转时的计算逻辑等问题。垂直数据血缘在出现数据报告指标异常、确认平台迁移时数据影响范围等场景应用较广,适用于业务分析人员,能够支持银行业务系统的开发、测试与运维工作。


02数据血缘管控思路

数据血缘管控的过程中,单纯对存量血缘的管控是治标不治本的,管控的重点在于对增量血缘的管控。同时,血缘管控应确保血缘的完整性与及时性,保证血缘分析与数据的同步。

1.增量血缘管控思路

由于数据之间的复杂关系与流动性,数据的细微变动会引起系统级别数据的变化,因此,增量血缘管控的核心在于从源头进行管控。数据血缘的分析通常按层级逐步推进,一般将分析层级分为系统级、表级与字段级,为了确保数据血缘的完整,需要将整个系统作为数据血缘的分析对象。通过增量数据血缘的源头管控,实现数据来源的精准追溯与准确还原,进而在排查问题时实现精准定位。

2.存量血缘管控思路

存量数据血缘通常基于统一的溯源模板,通过报表口径梳理的方式进行管控。以存量报表溯源模板为例,每一张目标表对应一个血缘文件。除目标表外,同文件的其他页签均为该文件的临时表,通过查看相关代码,寻找目标表的来源表,并完善加工逻辑与表之间的关联信息。

报表溯源模板实例

03数据血缘管控方式

通过数据血缘分析,针对数据流转过程中产生的各类信息进行采集、处理和分析,并对数据之间的血缘关系进行系统性梳理、关联,将梳理完成的信息进行存储。

1.增量血缘管控方式

血缘分析需要以实现业务需求为目标展开,针对增量数据血缘的管控,一般要求业务部门规范填写报表需求模板,明确新增指标项或标准项的数据内容,而开发部门应通过数据一体化开发平台的技术机制完善数据加工血缘,便于后续进行血缘管控与登记。业务部门新增报表主要包括以下内容:

报表属性:包括功能码、需求内容(新增整表/修改取数逻辑)、加工频率(按月加工/按日加工)等 报表说明:包括业务说明、数据时间跨度、取数来源、逻辑简述等 数据内容:包括字段名称、指标类型、业务口径等

其他内容:时效性要求、验证要求等

2.存量血缘管控方式

存量数据血缘的管控分为自动管控与人工管控,自动管控方式主要有自动解析、系统跟踪与机器学习。数据血缘的自动管控通过大规模扫描IT环境,快速生成数据血缘图谱,处理大量的数据列和ETL流程,进而节省追踪数据血缘的工作的人力成本,在复杂场景下能够实现记录数据血缘口径一致,但数据血缘自动化工具往往缺少业务场景需求,开发人员缺乏对数据血缘使用场景的理解与自动化工具落地的思维。

1)自动解析

自动解析通过对SQL语句、存储过程、ETL过程等文件进行分析,从而收集数据血缘,是当前应用最普遍的血缘收集方法。自动解析血缘具有自动化、及时性、程度高的优点,但根据国际厂商的经验,当代码复杂或应用环境不适配时,自动解析可以覆盖到企业数据的70-95%,目前无法做到100%全面覆盖。

2)系统跟踪

系统跟踪是在数据加工流动过程中,加工主体工具发送数据映射的过程,一般适用于统一的、能够管理自身全数据血缘周期的平台。系统跟踪具备更高的准确性与及时性、更细的颗粒度,但系统跟踪一般适用于统一的加工平台,并不能集成所有工具。

3)机器学习

机器学习的方法能够基于数据集之间的依赖关系,计算数据的相似度,对工具和业务的依赖性较低,但需要人工确认准确率。

4)人工管控

通过人工的方式对数据血缘进行梳理适用于特定业务需求的场景,相比自动化的梳理方式,具备更高的准确性,但及时性不足,处理速度较慢。

人工、自动血缘管控方式优缺点对比


04数据血缘应用场景

数据血缘能够解读并体现一个组织中的大多数业务流程,通过数据血缘挖掘业务价值链,是完善业务流程最有效或最高效的处理方式,以下为数据血缘的几种应用场景:

1.保证报告数据的完整性

开发人员可以通过检查数据血缘链中的每个节点,追溯异常数据元素的血缘,以确认数据的计算处理方式,并分析与该异常数据有交互的业务用户行为,实现异常数据元素的排查,确认数据变更影响的下游数据对象,保证数据的完整性。

2.追踪个人信息,控制传播范围

数据血缘可以将追踪个人信息扩展到数据报告层和数据库层,如果将报表中的特定数据元素进行标识,则能够在涉及该数据元素的所有血缘路径中找到标识元素所在列,并使用数据血缘工具控制数据传播范围。

3.迁移应用程序和报告

数据血缘不仅仅是数据流的简单映射,更体现了对如何实现业务流程的理解。在迁移应用程序和报告时,能持续监控未使用到的数据表和ETL流程,发现并纠正在数据迁移过程中的不兼容性问题,实现可疑数据的提取,协助企业梳理并合理重构业务流程。


参考文献[1]朱金宝:数据血缘的那些事儿. Datablau. 2019.[2]李俊杰:数据血缘基本指南. DAMA数据管理. 2022.[3]李旭风, 罗强:面向数据字段的血缘关系分析[J]. 中国金融电脑, 2016,07:14-21.[4]金泳:基于数据仓库的数据血缘管理研究[J]. 轻工科技, 2019,35(4):81-93.
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询