睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一，入选IDC企业数据治理实施部署指南。同时，在IDC发布的《中国数据治理市场份额》报告中，连续四年蝉联数据治理解决方案市场份额领先。

在线免费试用 DEMO体验视频介绍

睿治智能数据治理平台

IDC蝉联数据治理解决方案市场领先

元数据：数据治理的燃料

时间：2019-08-02来源：知乎浏览数：816次

实现数据质量的最佳方法是组合或混合这三种技术：解码后的谱系，数据相似性谱系和手动谱系映射。
企业渴望从可提供竞争优势的数据中获取洞察力。实现这一目标的最常见障碍是数据质量差。如果输入到预测算法的数据是“脏的”（具有丢失或无效的值），则该算法产生的任何见解都不可信。

要实现数据质量，仅清理现有的历史数据是不够的。您还需要通过建立一组称为数据治理的功能和流程来确保所有新生成的数据都是干净的。在受管数据环境中，每种类型的数据都有一名数据管理员，负责定义和实施数据清洁标准。并且，每个数据值都有一个明确定义的谱系：我们知道它来自何处，它在此过程中经历了哪些转换，以及从该数据值派生的其他数据项。

数据沿袭为企业提供了许多好处：

通过向后追踪谱系（以查找影响当前数据的所有数据）或转发（以识别受当前数据影响的所有其他数据）从给定数据项执行影响分析和根本原因分析的能力;
业务词汇和术语的标准化，有助于跨业务部门的清晰通信;
归功于对数据所做的任何更改的所有权，责任和可追溯性，这归功于谱系全面记录了谁做出了哪些更改以及何时更改。
听起来不错，但数据沿袭信息来自哪里？查看数据库中的特定数据值会告诉我们其当前值，但它不会提供有关数据如何演变为其当前值的信息。缺少的是有关数据的数据（沿袭元数据），它自动记住每个数据项所做的每次更改的时间和来源，无论是由软件还是由人工数据库管理员进行的更改。

收集沿袭元数据有三种竞争技术，每种技术都有其优点和缺点：

1.解码后的血统

该方法不是检查模式的数据值以寻找相似性，而是专注于操纵数据的代码。此类工具（MANTA，Octopai，Spline）扫描所有逻辑以理解它并对其进行反向工程，以了解数据如何变化以及哪些数据用作计算其他数据的输入。这种方法提供最准确，完整和详细的沿袭元数据，因为每一条逻辑都被处理。但它有一些缺点：

为数十种语言开发足够的支持可能并不容易，这些语言必须进行分析才能涵盖环境的基础知识。它也可能会阻止您采用新技术，因为您的已解码的沿袭引擎尚不支持它。
代码版本会随着时间的推移而发生变化，因此您对当前代码数据流的分析可能会错过已被取代的重要流程。
当代码是动态的（您根据程序输入，表中的数据，环境变量等）动态构建表达式时，您需要一种方法来解码动态代码。
并非所有数据更改都是由代码生成的。例如，假设您的网站发生紧急中断，您的DBA会通过直接在生产数据库上执行一系列SQL命令来手动修复。Decoded Lineage工具永远不会检测到这些更改，因为它们是由DBA而不是代码生成的。
代码可能对数据做错了。例如，假设您的代码存储违反GDPR的个人识别信息，并且产品经理明确要求相反。解码的血统工具将忠实地捕获代码所做的事情，而不会引发红旗。
假设两个独立进程中的两段代码执行相同的计算，以在数据库中创建相同的重复数据。代码分析无法发现这种情况，因为每段代码都表现得很好。只有通过检查数据库才能发现并消除重复。

2.数据相似性谱系

此方法通过检查数据和模式而无需访问代码来构建沿袭信息。此类别中的工具（Tamr，Paxata，Trifacta）会在表中分析数据并读取有关表，列等的数据库元数据，然后使用所有这些信息根据相似性创建沿袭。一方面，无论您的编码技术如何，这种方法都将始终有效，因为无论哪种技术生成数据，它都会分析结果数据。但它有几个明显的弱点：

检测大型数据库中的数据相似性需要花费大量时间和处理能力。
结果元数据将缺少许多细节，例如转换逻辑。
它无法检测尚未执行的沿袭元数据。例如，假设您有一个年终会计流程来调整收入和库存。在该流程于12月31日运行之前，您将无法获得有关它的沿袭元数据。

3.手动谱系映射

这种方法通过映射和记录人们头脑中的业务知识来构建沿袭元数据（例如，与应用程序所有者，数据管理员和数据集成专家交谈）。这种方法的优点是它提供了规范的数据沿袭（数据应该如何流动，而不是在实现错误后如何流动）。但是，因为元数据是基于人类的知识，它可能是矛盾的（因为两个人不同意所需的数据流）或部分（如果你不知道数据集的存在，你不会问任何人它）。

正如你所看到的，没有灵丹妙药 - 每种方法都有其优点和缺点。最佳解决方案结合了所有三种方法。

使用MANTA，Octopai或Spline等工具从解码后的血统开始。
使用Tamr，Paxata或Trifacta等工具增加数据相似性谱系，以发现数据库中的模式。
使用手动沿袭映射进行扩充，以捕获规定的沿袭规则（例如，应该如何实现数据流）。
成功组合这些技术后，您可以收集开始享受受管数据优势所需的全面血统元数据。

（部分内容来源网络，如有侵权请联系删除）

立即申请数据分析/数据治理产品免费试用我要试用

上一篇：企业数据治理框架...

下一篇：并非所有数据都是平等的：为什么公司需要数据治理战略才能成功...