首页 亿信华辰大数据知识库 数据仓库、数据湖、数据中台的定义和关系

数据仓库、数据湖、数据中台的定义和关系

|亿信华辰大数据知识库2021-09-06

数据仓库、数据湖、数据中台的定义和关系

对大数据有所了解的人可能都听过数据仓库、数据湖和数据中台。但是它们的概念到底是什么,它们之间有什么样的关系,下面我们将分别介绍数据仓库、数据湖和数据中台。

数据仓库

数据仓库(Data Warehouse),为企业提供决策制定过程和所有类型数据支持的战略集合。它是一个过程而不是项目,是一个环境而不是产品。数据仓库为企业的决策提供当前和历史数据,而这些数据在传统数据库中并不能得到。数据仓库中的数据是在对原有分散的数据库数据抽取、清洗、加工、汇总和整理得到的,消除了源数据中的不一致性,得到标准统一,质量较高的数据。具有以下特点:

1、面向主题

数据仓库中的数据是按照一定的主题进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

2、集成的

数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库。

3、稳定的

数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询,通常只需要定期加载和刷新

4、反映历史变化

数据仓库中的数据通常包含企业过去某一时间点到目前的各个阶段的信息,通过这些信息企业可以对发展历程和未来趋势做出定量分析和预测。


数据湖

数据湖是一种在系统或存储库中以原始数据格式存储任何类型数据的方法,可以存储任意规模的结构化和非结构化数据。数据湖的开发是为了提供可存取、处理、分析及传输的数据。在数据湖中,不需要对其进行结构化,这样就可以运行不同类型的分析。数据湖的价值在于:


1、数据湖对数据的写入没有限制,可以更轻松收集数据;

2、数据湖存储的是原始的、未被处理过的数据,因此包含更多的信息,能挖据出更多的价值;

3、数据中汇集了来自各个系统中的数据,这就消除了数据孤岛的问题;

4、数据湖可以利用分布式文件系统来存储数据,因此具备很高扩展性。使用开源技术还降低了存储成本。由于数据湖的结构没有那么严谨,因此灵活性高、敏捷性高。


数据中台

数据中台是一种让企业可持续利用数据,把数据变为资产并服务于业务的机制。在政企数字化转型过程中,对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据运营等数据建设、管理、使用体系,实现数据赋能。数据中台,是新型信息化应用框架体系中的核心,通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。数据中台具备对数据汇聚整合、提纯加工、使数据可视化、让数据价值变现等核心能力。



数据湖 VS 数据仓库

从数据类型上看,数据湖能存储任何形式,比如结构化、半结构化和非结构化和任何格式,比如文本、音频、视频和图像的原始数据;而数据仓库主要处理历史的、结构化的数据,这些数据必须与数据仓库事先定义的模型吻合;


从作用上看,数据湖适合于深度分析,拥有足够强的计算能力用于处理和分析所有类型数据,然后这些数据被存储起来供用户使用;数据仓库则将结构化数据转化为多维数据或者报表,以满足后续分析需求;

从特点上看,数据湖便于探索、创新、灵活性高;数据仓库则具有很高的性能,可重复、持续使用。


数据中台 VS 数据仓库

数据中台的目的是为业务提供服务,因此对数据的计算、加工都是以满足业务需求为目标。脱离使用场景的数据中台是没有意义的。而数据仓库是一个支撑性的技术系统,首先考虑有什么数据,能做什么,因此特别强调数据质量和元数据管理,而数据中台是以业务为出发点,考虑有什么业务问题,需要什么样的数据。简单来讲,数据中台以业务为驱动,自上向下;数据仓库以数据为驱动,自下向上。这两者的服务方式也有所不同,数据中台提供API化(或其他共享方式)的数据服务,加速企业从数据到业务价值的过程;数据仓库提供相关数据集或分析报表用于支持管理决策分析,业务价值无法直接体现。总的来说数据仓库主要用于分析型场景,数据中台不仅适用于分析型,也适用于交易型等场景。


数据湖 VS 数据中台

数据中台从技术的层面承接了数据湖的技术,为满足前台业务的需求,通过数据技术,对海量、多源、多样的数据进行采集、处理、存储、计算,同时统一标准和口径,把数据统一之后,以标准形式存储,形成大数据资产层。

数据湖更强调应用,离业务更近,强调服务于前台的能力,实现逻辑、算法、标签、模型、数据资产的沉淀和复用,能更快速的相应业务和应用开发的需求,可追溯,更精准。


总结

根据以上数据平台、数据仓库、数据湖和数据中台的概念论述和对比我们不难发现,数据治理对数据应用的重要性。而在数据治理领域就不得不提到亿信华辰,亿信华辰深耕商务智能和大数据领域15年,着眼于打造数据全生命周期的智能化产品线,致力于帮助企业和政府解决数据应用难题,实现企业生产力和政府治理能力的数字化转型,让数据驱动进步。亿信华辰公司自主研发的睿治数据治理平台实现了对实时大数据管理、元数据管理、数据标准管理、数据质量管理、主数据管理、数据安全管理等方面全方位的管理与维护,真正走在了大数据领域的最前沿。

认为本内容有帮助
2
您可能需要的数据产品
亿信华辰助力政企数字化转型