睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据血缘是什么?有什么用?

时间:2023-09-03来源:盛夏天浏览数:187

1 数据血缘是什么?有什么用?

在数据量不断增长、数据生态系统复杂的时代,追踪数据从源头到目的地,及其经过的各种流程和系统的信息,对确保数据质量、合规性和决策来说至关重要。这些信息被称为数据血缘

数据血缘既能回答“这些数据从哪里来,到哪里去”这样的哲学问题,也能回答“数据是如何进行加工转换的”这样的技术问题,帮助我们深入了解数据资产的可靠性、可信度。

数据血缘的重要性超出了传统的数据治理和合规性。它在智能数据分析、数据集成、数据质量管理和数据驱动决策方面发挥着至关重要的作用。了解数据血缘,能够使组织识别数据异常、解决问题、跟踪数据转换,并确保遵守 GDPR、CCPA 等法规。


数据血缘是企业最重要的数据资产之一,而且未来它将充当更加重要的角色。

一方面,完整的数据血缘信息可以有效跟踪敏感数据的全链路生命周期,实现数据安全合规

例如:源端系统中的PII(个人身份识别信息)在数仓、大数据平台、数据湖中是否得到有效的脱敏?哪些数据服务可能泄露机密?哪些数据可能被消费者获取?

另一方面,数据血缘可以进行变更影响分析,即分析数据的变更对相关业务的影响。例如:当源端业务系统的数据结构发生变化时,要及时分析其对后端数据应用的影响,以便在源业务系统升级前给出合适的应对措施,保障后端应用的连续性。这种影响就如同在制造业中,上游原材料的价格波动对下游产品成本的影响。


数据血缘是元数据管理的重要手段之一。

在建设数据仓库数据集市商业智能及大数据系统的过程中,国内许多组织对配套元数据模块进行了多年探索,研发了许多数据血缘处理技术,试图构建一套准确、完整、实用的数据血缘图,以满足业务需要。让用户在“管理数据、使用数据”的工作中,能够了解数据的来龙去脉,做到心中有“数”。然而在实践过程中,即使经过长期的持续建设,配套元数据模块的实际效果仍会大打折扣,不尽如人意。

2 讲了什么内容?

第一篇 数据血缘的概念

统一数据血缘的定义、元模型及数据血缘类型。

划重点:数据血缘的层级、数据血缘的多种类型及其相关性。


第二篇 如何实现数据血缘

关于实现数据血缘的可行性见解和建议。

划重点:“构建数据血缘的九步方法论”、数据血缘项目的“企业”范围、记录数据血缘的多种解决方案。


第三篇 如何使用数据血缘

利用数据血缘结果实现不同的业务目的。

划重点:使用数据血缘实现数据质量检查和控制、实施影响分析和根因分析。


第四篇 构建数据血缘业务案例

将数据血缘落地到业务案例中。

划重点:实现数据血缘的具体步骤,实际可用的方法论工作模板。

下图是本书提到的数据血缘的元模型,可以看到数据血缘涉及业务、概念、逻辑、物理四层。

通常讲的“技术层面的数据血缘”指“物理层的数据流血缘”,主要是数据在大数据平台中的数据加工逻辑。事实上技术上的数据血缘一定要与业务上的数据血缘相结合。才能形成立体的数据血缘关系,可以从技术血缘追溯到业务对象、业务流程,也可以通过技术血缘洞察业务流程上的关系。

3 适合谁看?怎么看?

数据管理和业务专业人员,可以针对数据血缘及其应用领域拓宽思路。

与数据血缘概念有关的资源很少,主要是互联网上的文章和数据血缘解决方案供应商网站。目前,数据血缘还缺乏统一的定义,这给初学者带来了挑战。本书深入分析了数据血缘,并提出了数据血缘元模型和相应的术语,有助于不同的利益相关者针对数据血缘进行交流。


具有技术背景的专业人员,可以更好地理解业务需要和数据血缘需求。

不同的利益相关者对数据血缘的理解、要求和需求明显不同。技术专业人员主要关注实现物理层面上的元数据血缘,但术语对业务专业人员来说毫无意义。本书未涵盖不同数据血缘解决方案的技术细节,而是帮助技术专业人员和业务人员在针对数据血缘的不同观点之间搭建起一座桥梁。


项目管理专业人员,可以熟悉数据血缘实现的最佳实践。

合适的实施范围和适当的实施方法是项目成功的关键因素,许多因素都会影响项目范围、方法和方案的选择。项目管理专业人员可以从本书中获得实用的建议,并熟悉开发数据血缘业务案例的技术,以及一些数据血缘解决方案。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询