睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

什么是仓湖一体架构?如何搭建仓湖一体大数据中心?

时间:2022-09-09来源:小亿浏览数:295

伴随5G、大数据、AI、物联网的飞速发展,数据呈现大规模、多样性的极速增长,为了应对多变的业务诉求,企业对数据处理分析的实时性和融合性提出了更高的要求,“仓湖一体(Lake House)”的概念应运而生。无论在技术圈还是资本圈,仓湖一体都受到了前所未有的关注度。那么什么是仓湖一体,仓湖一体架构是否会成为企业的必选项?又如何进行仓湖一体架构设计呢?

湖仓对比,各有千秋

一直以来,我们都在使用两种数据存储方式来架构数据:

1、数据仓库
主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,并导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。

2、数据湖:
存储任何类型的数据,包括像图片、文档这样的非结构化数据。数据湖通常更大,其存储成本也更为廉价。存储其中的数据不需要满足特定的schema,数据湖也不会尝试去将特定的schema施行其上。相反的是,数据的拥有者通常会在读取数据的时候解析schema,当处理相应的数据时,将转换施加其上。

纵观数据湖与数据仓库的技术发展,不难发现两者有着各自的优劣,具体表现如下:

而今企业在进行系统架构设计选型时,需要从具体的分析场景出发,单一的模式已经无法满足企业发展的业务诉求,集中表现在以下两个痛点:
数据湖主要以离线批量计算为主,因为不支持数据仓库的数据管理能力,难以提高数据质量;数据入湖时效差不支持实时更新,数据无法强一致性;主题建模不友好,无法直接历史拉链建模;同时交互分析通常将数据搬迁到数据仓库平台,造成分析链路长,数据冗余存储;批&流等场景融合不够,无法满足企业的海量数据处理诉求。
数据仓库满足不了非结构化数据的分析需求,性价比不高;同时仓&湖间难以互联互通,数据协同效率较低,无法支持跨平台透明访问,形成了事实上的数据孤岛,找数困难;缺乏全局数据视图,不同平台接口差异和不同开发管理工具,造成用户开发使用复杂,数据分别管理维护代价高体验差。

数据湖和数据仓库在企业数据分析场景分别承担一湖一仓的重要角色,形成了完整的数据分析生态系统,上述企业场景面临的2个关键痛点也在驱动数据湖和数据仓库在技术演进上走向融合。想了解更多可看查看前文《数据仓库、数据集市、数据湖、数据中台这些概念,终于整明白了》

下一代演进方向:仓湖一体


现在许多公司往往会同时搭建数仓、数据湖这两种存储架构,如一个大的数仓和多个小的数据湖,但这样数据在这两种存储中就会有一定的冗余。而“仓湖一体”这一概念的出现试图去融合数仓和数据湖这两者之间的差异,通过将数仓构建在数据湖上,使得存储变得更为廉价和具有弹性,同时能有效地提升数据质量,减小数据冗余。
可以说,仓湖一体是一种结合了数据湖和数据仓库优势的新范式,解决了数据湖的局限性。其最重要的一点,是实现"湖里"和"仓里"的数据、元数据能够无缝打通,并且“自由”流动。仓湖一体使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。
有人把“仓湖一体”做了形象的比喻,就好像湖边搭建了很多小房子,有的可以负责数据分析,有的来运转机器学习,有的来检索音视频等等,而这些数据源流,都可以从数据湖里轻松取得。


仓湖一体具有以下特点:

统一的数据管理:仓湖一体提供完善的数据管理能力。数据湖中会存在两类数据:原始数据和处理后的数据。数据湖中的数据会不断的积累、演化,因此包含以下数据管理能力:数据源、数据连接、数据格式、数据schema(库/表/列/行)。同时,数据湖是单个企业中统一的数据存放场所,因此,还具有一定的权限管理能力。 
多模态的存储引擎: 仓湖一体本身内置多模态的存储引擎,以满足不同的应用对于数据访问需求(综合考虑响应时间/并发/访问频次/成本等因素)。但是,在实际的使用过程中,为了达到可接受的性价比,仓湖一体解决方案提供可插拔式存储框架,支持的类型有HDFS/S3等, 并且在必要时还可以与外置存储引擎协同工作,满足多样化的应用需求。 
丰富的计算引擎:提供从批处理、流式计算、交互式分析到机器学习等各类计算引擎。一般情况下,数据的加载、转换、处理会使用批处理计算引擎;需要实时计算的部分,会使用流式计算引擎;对于一些探索式的分析场景,可能又需要引入交互式分析引擎。因此,仓湖一体解决方案提供计算引擎的可扩展/可插拔。 
数据全生命周期管理:仓湖一体提供一个企业中全量数据的存储场所,需要对数据的全生命周期进行管理,包括数据的定义、接入、存储、处理、分析、应用的全过程。一个强大的数据湖实现,需要能做到对其间的任意一条数据的接入、存储、处理、消费过程是可追溯的,能够清楚的重现数据完整的产生过程和流动过程。

亿信华辰仓湖一体解决方案

亿信华辰结合多年的BI和数仓实施经验,综合传统数据仓库和现代数据湖两种技术特点,推出了仓湖一体解决方案。该建设方案涵盖数据存储、数据集成、数据交换、数据共享等多个方面,综合数据湖、数据仓库两种技术演进方向,为企业用户提供云原生仓湖一体解决方案,构建企业数字化新基座。

△技术架构

△应用架构
采集层:从数据源接入数据后,仓湖一体平台支持oracle/sqlserver/mysql等主流RDBMS迁库,进行跨平台的文件实时交换,以及实时捕获各类应用系统日志内容的变化。同时支持基于业务数据库日志的增量同步,完成IOT实时采集;
存储层:平台支持HDFS文件存储和S3/OSS对象存储,支持结构化/时序/文档/图像数据存储,可按需冷热分级存储,数据在湖和仓之间可自由流动;
计算层:内置Hive/Spark/Flink/Impala引擎,为数据集成和开发提供多种计算环境,可按需自由选择;
服务层:提供存储、查询、访问、共享、开发等数据服务功能和通用接口,第三方应用可无缝对接。
亿信华辰仓湖一体数据中心定位于为企业提供易于部署、开发、运维的数据底座平台,平台提供的能力包括:数据的统一分类存储,数据采集加工的流程自动化,可视化的数据开发,提供多样化的数据共享访问标准接口等等。建设内容包括数据采集、数据处理、数据建模、数据交换四大方面。     

△建设内容

方案优势  

01、批流一体
提供批&流、交互分析、机器学习等多种计算引擎,一份数据可同时应用于各类分析场景,湖&仓数据协同计算,数据免搬迁
02、混合存储
内置多模态、多级混合存储引擎,支持HDFS/S3/OSS存储系统的可插拔式管理,结构化/非结构化数据可在湖&仓中统一存储,满足集中式管理和可扩展的双向需求
03、快速集成
支持数据以批/流/实时等多种方式接入,基于“批&流” 双计算引擎的数据交换,从传统数据迁移到工业物联设备、日志、事件流实时捕获,多源异构数据皆可高效入湖
04、敏捷开发
提供可视化数据开发平台,丰富的输入、输出、加工、清洗、转换等开发组件,自动化的作业调度和运维监控,支持多人在线协同开发,帮助用户快速实现湖仓集成


△核心功能展示
从发展趋势来看,仓湖一体必将在数字经济建设中发挥非常重要的作用。亿信华辰将基于客户需求和技术演进趋势持续创新,为企业客户提供仓湖一体解决方案,致力于构建企业数据资源共享池,让企业业务的创新更敏捷,业务洞察更准确,加速释放数据价值
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询