睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

一文详解数据湖及其搭建方法论

时间:2022-04-12来源:小亿浏览数:395

数据湖作为新一代大数据基础设施,近年来持续火热。市场调研机构Research and Markets发布的报告显示,2020年,全球数据湖市场的价值为37.4亿美元,预计到2026年将达到176亿美元,在2021年至2026年的预测期间的复合年增长率为29.9%。到底什么是数据湖?近几年来为何突然大热?企业应如何搭建数据湖?本文将会一一探讨解读以上问题。

01、什么是数据湖?

“数据湖”并不是一个新兴概念。

它最早是由一家开源BI公司Pentaho的CTO詹姆斯·迪克森于2010年提出,他认为:“如果你认为一个数据集市可以看作是桶装水店——提供了清洗、包装和组织等服务以方便用户消费,那‘数据湖’就是一个拥有更自然状态的大的水体。来自源头的内容流补充到湖中,各类客户可以来湖中检测探索以及获取样本。” 

“数据湖”之所以被命名为“湖”,形象地反映了其一些在数据存储以及数据应用方面的一些特点:
沉淀性:数据湖是为了满足企业建设统一中心、存放管理数据的需求演进而来的,数据湖包罗万象,不管结构化数据还是非结构化数据都被囊括其中。
边界性:“湖”不同于“海”,它是有边界的,数据湖也是一样,在企业/组织的业务边界下,需要更多的数据管理和权限管理能力。
精细治理: 数据湖需要具备完善的数据管理能力,可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。

关于数据湖更简洁明了的定义我们可以参考AWS,它将数据湖定义为一个集中式存储库,允许你以任意规模存储所有结构化和非结构化数据。

随着大数据技术的融合发展,数据湖不断演变,成为了一个“平台级”的方案。需要注意的是,到目前为止,“数据湖”依旧是一个架构概念,而不是特定的产品或实施方法。其所要达成的目标囊括了不止一种数据技术,它汇集了包括数据仓库、实时和高速数据流技术、数据挖掘、深度学习、分布式存储等技术在内的多种技术,已经从当初的一种“大数据存算方案”进阶到了“大数据存算+处理分析+资产治理+安全隐私+数据变现”的一揽子方案。

02、数据湖为何火热? 

1.企业数据建设面临新的挑战
(1)数据复杂化
当前企业纷纷迈入全面数字化阶段,以前因为成本、技术和环境限制的需求也得到释放,越来越需要从不断增长的数据量中进行分析从而获得更深入的内容,企业数据规模进一步扩大,要治理的数据也越来越庞杂,企业的数据来源和数据格式也日趋多样化。
数据来源多样:包含了事务数据(MySQL, SqlServer)、搜索数据 (SOLR)和批处理数据 (SPARK, HIVE)等。
数据格式多样化:包含Parquet / Orc / Avro / Csv / Json / Text等格式。

(2)数据应用多元化
数据驱动下,企业内的数据应用场景和数据应用的用户角色,也日趋多元。
数据分析场景多样化:不仅有基于语义的搜索分析,还包括随机/近实时 OLAP 分析。
数据分析用户多元化:数据的分析应用不再仅仅是技术团队的工作,各业务方也需要对的数据进行及时的分析以及应用,而这并不能完全依赖于技术团队;除此之外,数据应用的用户角色的多样性,也对于用户数据访问合规管控提出了更高的诉求。

(3)数据建设新要求
数据的复杂化和数据应用的多元化,驱使企业对于数据建设提出了新的要求。
一是全面。全面完整的数据是用户丰富应用场景和挖掘数据资产价值的重要前提。
二是敏捷。业务环境复杂多变,只有帮助用户快速定位并查找数据位置、高效便捷地开展数据提取,才能快速迭代开发、创建适应变化需求的敏捷业务模型,促进业务创新。
三是准确。准确且高质量的数据是让数据充分发挥价值的根基保障。对此,需要统一数据标准,且保障数据质量问题可度量、可监控。

2.数据湖应运而生

对于企业数据建设的这些新问题、新需求,数据湖应运而生,成为了一套能存储全量数据,快速实现洞察的方案。
作为“湖”,它具有着与传统的数据仓库、数据集市不同的优势。

(1)数据规模弹性大
数据湖技术支持超大规模存储及可扩展的大规模数据处理能力,可根据企业的业务需求提供可大可小的弹性扩充。

(2)数据类型丰富
数据湖可以存储海量的任意类型的数据,包括结构化、半结构化、非结构化和二进制数据。

(3)数据模式灵活
数据湖无需任何预处理即可对数据进行采集、存储和分析,还能消除数据采集和存储的复杂性,加速应用数据,赋能广大研发者、数据分析师,实现对跨平台、跨语言、跨领域的所有数据进行高效分析和处理。

(4)数据时效性提升
数据湖支持流批一体架构,能够兼顾流处理的及时性和批处理的可靠性。当前多种开源数据湖框架均可以实现流批一体,既可以摄取增量数据,提升数据加载速度,为实时场景需求提供支撑;也可以提取全量数据,进行全量的数据加工,提供稳定的数据服务。

03、企业如何搭建数据湖?

1.数据入湖
(1)数据盘点
数据湖的数据盘点相对简单,因为它是对原始数据做全量的保存,所以无需进行预设计和建模。数据入湖前的盘点范围主要是:数据来源、数据类型、数据形态、数据模式、数据总量、数据增量等。

(2)技术选型
有关数据湖建设的技术选型需要根据数据盘点的情况来看。关于数据湖的技术选型,业界有很多的通行的做法:通常建议的存储选型是分布式对象存储系统(如S3/OSS/OBS);计算引擎上重点考虑批处理需求和SQL处理能力,因为在实践中,这两类能力是数据处理的关键;无论是计算还是存储,建议优先考虑serverless的形式;后续可以在应用中逐步演进,真的需要独立资源池了,再考虑构建专属集群。

(3)数据接入
确定要接入的数据源,通过统一的数据接入平台,按数据的不同类型进行智能的数据接入,完成数据的全量抽取与增量接入。

2.湖中治理

数据湖存储的是未经转换的数据,任何需要支持分析的数据都是需要治理的。比如从合规层面来看,数据湖负责全域数据采集,其中往往包括消费者的个人可识别信息。这些敏感数据必须经过合规处理,以确保系统遵守隐私法律和法规。因此,从最开始就应将数据治理纳入数据湖的设计中。

数据湖中的数据治理主要涵盖以下领域。

(1)数据目录
数据湖中数据量庞大,要让数据不被淹没,能随时得到追踪,我们需要维护好数据目录。
数据湖中的数据目录是元数据的集合。好的数据湖系统,计算引擎在处理数据时,能从元数据中直接获取数据存储位置、数据格式、数据模式、数据分布等信息,然后直接进行数据处理,而无需进行人工/编程干预。更进一步,好的数据湖系统还可以对数据湖中的数据进行访问控制,控制的力度可以做到“库表列行”等不同级别。
数据目录充当可用数据的清单,并提供信息以评估适用数据的预期用途。一个有效的方法是维护中央数据目录,并在各种处理框架(如Hadoop、Spark以及其他可用工具)中使用,这样可以应用简单的数据治理规则来确保元数据的完整性。

(2)数据质量
要保证数据湖中的数据能够可靠地支撑应用,数据的完整性、准确性、一致性以及标准化应得到保障。
企业需要从一开始就制定相关数据质量标准与流程,从而维护湖中数据质量。数据湖相关的数据质量标准可以从以下几个维度来考虑:
权限管理:确定各角色权限,包括数据管理员和数据用户。
数据发现:了解数据的来龙去脉,并集中精力治理最有价值和最常用的数据。
标准化:在统一数据标准的指导下验证,清理和转换数据。
数据核对:确认数据已正确迁移。
自动化:确定机器学习在数据质量过程中可以提供哪些帮助,例如重复数据删除。
监控和管理:动态监测与反馈数据,提出数据质量衡量指标并加以改进。

(3) 数据合规
根据所运营的业务领域,数据湖必须满足一些合规要求,例如GDPR(《通用数据保护条例》)、HIPAA(《健康保险便利和责任法案》)和ISO等标准和规范。对于很多企业而言,数据合规是很重要的工作,数据合规一旦出问题,可能导致巨额罚款或者数据泄露,损害企业的信誉。

3.业务支撑

数据湖技术使得数据的处理与建模,保留了极大的敏捷性,能快速适应业务的发展与变化。在通用模型基础上,各个业务部门可以定制自己的细化数据模型、数据使用流程、数据访问服务。

04、数据湖搭建案例

农业银行搭建数据湖的过程,对于有着建湖需求的企业来说值得借鉴。

农业银行选择在企业级大数据平台的基础上,围绕“采、建、管、用”四个关键环节进行数据湖建设。从源头上丰富数据种类,在建设中提升海量数据存储计算能力,在管理上加强数据资产线上化和规范化水平,在消费端通过租户管理、资源开放和自助服务,实现数据应用的快速构建。农业银行数据湖一体化与自服务建设如图所示。

现已通过立机制、建工具、落实施,实现了海量内外部数据的快速入湖,为全行各业务领域百余个应用场景提供数据支撑。同时正在积极开展数据湖新技术架构的建设落地,通过开源软件和国产商用产品融合的方式,完成了异构存储管理、元数据管理、计算引擎上云及实时数据处理等关键技术攻关和重点场景验证。数据湖全流程建设如图所示。

后续农业银行拟按照“试点落地,湖仓一体,全面上云”三步走的路线,持续推进数据湖建设。近期在数据湖新技术架构的基础上,上线各类新业务场景;中期打通数据湖与现有数仓,实现湖仓架构融合,并推进大数据与云计算的融合,进一步提升资源管理和服务能力;最终,建成云数据湖,实现集团数据一体化管理,形成行业领先的大数据基础架构,全面夯实企业级数据底座,为集团提供更丰富、更及时、更开放、更融合的数据支撑。

05、小结

无论在功能目标还是项目建设方面,数据湖总体仍处于不断发展的阶段。它由业务诉求催生出,又随着业务需求的不断变化而不断演进。数据湖作为现代化的支持数据管理、数据分析、应用创新的“新基建”,能凭借其敏捷、全面且弹性的特性,来为企业的数字化战略赋能。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询