睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据湖治理最佳实践

时间:2019-03-11来源:亿信华辰浏览数:783


Data Lakes正在成为一种越来越可行的解决方案,用于在企业级从大数据中提取价值,并为早期采用者和新移民提供合乎逻辑的下一步。在隔离的逻辑区域中提供结构化,非结构化和历史数据的灵活性,灵活性和安全性为企业带来了一系列转型功能。然而,许多潜在用户无法理解的是定义可用数据湖的原因。通常,那些刚接触大数据的人,甚至是精通Hadoop的老手,都会尝试使用不同的脚本,工具和第三方供应商来组建几个集群并将它们拼凑在一起; 这既不符合成本效益,也不可持续。在本文中,我们将描述Data Lake如何比拼凑在一起的几个服务器更多:它需要规划,纪律。

在Data Lake中,区域允许数据的逻辑和/或物理分离,从而保护环境的安全,有序和敏捷。通常,鼓励使用3或4个区域,但可以使用更少或更多区域。通用的4区系统可能包括以下内容:

  1. 瞬态区域 - 用于在摄取之前保存短暂数据,例如临时副本,流式线轴或其他短期数据。

  2. 原始区域 - 将维护原始数据的区域。这也是敏感数据必须加密,标记化或以其他方式保护的区域。

  3. 受信任区域 - 对原始区域中的数据执行数据质量,验证或其他处理后,它将成为此区域中下游系统的“真实来源”。

  4. 精制区域  - 操作和丰富的数据保留在此区域中。这用于存储来自Hive或外部工具等工具的输出,这些工具将写入Data Lake。

这种安排可以根据需要适应业务的规模,成熟度和独特用例,但将通过专用服务器/集群实现物理隔离,通过故意构建目录和访问权限进行逻辑分离,或者两者的某种组合。在视觉上,这种架构类似于下面的架构。

建立和维护定义明确的区域是创建健康湖泊的最重要的活动,并促进本文中的其他概念。同时,重要的是要了解哪些区域不提供 - 即区域不是灾难恢复或数据冗余策略。虽然可以在DR中考虑区域,但仍然需要投资于可靠的底层基础架构以确保冗余和恢复力。

血统

随着新数据源的添加以及现有数据源的更新或修改,维护数据集内部和之间关系的记录变得更加重要。这些关系可能像重命名列一样简单,也可能像连接来自不同源的多个表一样复杂,每个表本身可能有多个上游转换。在此上下文中,lineage有助于提供可跟踪性以了解字段或数据集的来源以及审计跟踪,以了解更改的位置,时间和原因。这可能听起来很简单,但是当数据在湖中移动时捕获有关数据的细节非常困难,即使今天部署了一些专门构建的软件。跟踪沿袭的整个过程涉及在事务级别(访问数据和他们做了什么?)以及结构或文件系统级别(数据集和字段之间的关系是什么?)聚合日志。在Data Lake的上下文中,这将包括任何接触数据的批处理和流工具(例如MapReduce和Spark),以及可能操纵数据的任何外部系统,例如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。这将包括任何触摸数据的批处理和流媒体工具(如MapReduce和Spark),以及任何可能操纵数据的外部系统,如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。这将包括任何触摸数据的批处理和流媒体工具(如MapReduce和Spark),以及任何可能操纵数据的外部系统,如RDBMS系统。这是一项艰巨的任务,但即使是部分血统图也可以填补传统系统的空白,特别是随着GDPR等新法规的出现; 灵活性和可扩展性是管理未来变化的关键。

数据质量

在Data Lake中,欢迎所有数据,但并非所有数据都相同。因此,定义数据源以及如何管理和使用数据至关重要。严格的清理和数据质量规则可能需要应用于需要合规性,最终用户消耗或可审计性的数据。另一方面,通过清理来自各种物联网设备的社交媒体数据或数据,可以获得很多价值。人们还可以考虑在消费方而不是在采购方应用数据质量检查。因此,单个数据质量体系结构可能不适用于所有类型的数据。必须注意的是,如果数据被“清理”,用于分析的结果可能会产生影响。'固定数据集中的值的字段级数据质量规则可以影响预测模型的结果,因为这些修复可能会影响异常值。通过比较“数据集的预期与接收大小”或“空值阈值”来衡量数据集可用性的数据质量规则可能更适合此类情况。通常,所需验证的级别受传统限制或已经存在的内部流程的影响,因此在设置新规则之前评估公司的现有流程是个好主意。

隐私与安全

健康Data Lake的一个关键组成部分是隐私和安全性,包括基于角色的访问控制,身份验证,授权以及静态和动态数据加密等主题。从纯数据湖和数据管理的角度来看,主要主题往往是数据混淆,包括标记化和数据屏蔽。应该使用这两个概念来帮助数据本身遵守最小特权的安全概念。限制数据访问也对许多希望遵守国家和国际垂直法规的企业具有法律意义。限制访问有几种形式; 最明显的是存储层中区域的大量使用。简而言之,可以配置存储层中的权限,使得以最原始格式访问数据非常有限。

DLM

企业必须努力发展其数据管理战略的重点,以更有效地保护,保护和服务其数字资产。这涉及投入时间和资源来完全创建生命周期管理策略,并确定是使用扁平结构还是利用分层保护。数据生命周期管理的传统前提是基于数据的创建,使用和存档这一事实。今天,这个前提可能适用于某些交易数据,但许多数据源现在从阅读角度保持活跃,无论是持续的还是半可预测的时间间隔。了解并了解其信息,数据和存储介质的异同的企业,

结论

就像它们处于起步阶段的关系数据库一样,近年来Hadoop的一些实现因缺乏最佳实践而受到影响。在考虑将Hadoop用作Data Lake时,需要考虑许多最佳实践。利用区域和适当的授权作为数据工作流框架的一部分,为数据转换提供了高度可扩展的并行系统。 


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询