首页 行业百科 BI、数据仓库、数据湖和数据中台的定义与差异

BI、数据仓库、数据湖和数据中台的定义与差异

|亿信华辰大数据知识库2021-08-27

BI、数据仓库、数据湖和数据中台的定义与差异

随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,下面我们将围绕BI、数据仓库、数据湖和数据中台的区别进行介绍。

商业智能(BI)

商业BI是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。一般包括数据仓库、报表查询、数据分析、数据挖掘、数据可视化等部分。

首先从业务系统数据中提取有用的数据并进行清理,以保证数据的正确性,然后经过抽取、转换和装载,合并到数据仓库,得到企业数据全局视图,再利用合适工具等对其进行分析和处理,最后将知识呈现给管理者,为管理者的决策过程提供支持。


数据仓库

数据仓库(Data Warehouse),也称为企业数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的包含多种数据的存储库,并且是高度建模的数据集合存储系统。它将来自不同业务、系统的结构化数据聚合起来,帮助公司把运营数据转化成为高价值的可以获取的信息,为管理分析和业务决策提供统一的数据支持,帮助建构商业智能(BI)。


数据湖

数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。


数据仓库与数据湖差异

1、在储存方面上,数据湖中数据为非结构化的,所有数据都保持原始形式。存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取。

2、在将数据加载到数据仓库之前,会对数据进行清理与转换。在数据抓取中数据湖就是捕获半结构化和非结构化数据。而数据仓库则是捕获结构化数据并将其按模式组织。

3、数据湖的目的就是数据湖非常适合深入分析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就是数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化。

4、在架构中数据湖通常,在存储数据之后定义架构。使用较少的初始工作并提供更大的灵活性。在数据仓库中存储数据之前定义架构。


数据中台

数据中台是指通过企业内外部多源异构的数据采集、治理、建模、分析,应用,使数据对内优化管理提高业务,对外可以数据合作价值释放,成为企业数据资产管理中枢。数据中台建立后,会形成数据API,为企业和客户提供高效各种数据服务。

数据中台整体技术架构上采用云计算架构模式,将数据资源、计算资源、存储资源充分云化,并通过多租户技术进行资源打包整合,并进行开放,为用户提供“一站式”数据服务。利用大数据技术,对海量数据进行统一采集、计算、存储,并使用统一的数据规范进行管理,将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,提供一致的、高质量的大数据服务。

数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义,基于能力定义利用数据组件搭建自己的数据中台。


数据仓库与数据中台的差异

计算存储上

传统的数据仓库基于OLAP类型的数据库,后续发展为MPP、Hadoop、GreenPlum混合架构。数据中台从一诞生起,就使用Hadoop、MPP、RDS、Flink等混合架构,随需搭配,满足各类数据计算的要求。

应用场景和价值体系

数据中台的应用场景比传统的数据仓库应用场景广泛得多。传统的数仓只是满足领导和业务人员数据决策的需要,因此更多的体现在报表输出,使用者以小部分的业务人员和决策层为主,新需求的开发周期以月甚至到年为计。而数据中台由于起家于互联网企业,其使用对象扩大到一线服务人员和商家企业,其业务需求更繁杂,包含商品推荐、精准广告展示、客户满意度评价等等诸多不确定性的应用场景,很难用传统的报表系统满足需求,因此必须要使用随需应变的数据服务来快速满足不断变化的业务需求。

体系架构

数据中台是由多个组件构成,除了计算平台外,其方案由多个分布式服务系统提供,满足不同业务需求和高并发和系统自动扩容需求,除了大数据存储和计算平台外,还包含数仓建设、数据开发IDE、任务调度、数据同步服务、数据治理、对外统一数据服务、资产管理系统、实时流计算平台和开发平台,敏捷BI报表开发等多个组件,通过多个组件组成一整套方案。这一点传统的数据仓库是远远达不到的。


数据仓库与BI差异

商业智能BI相比于数据仓库,它是一个更大的概念。商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金。数据仓库就像是 BI 这个房子的地基,搭建好 DW 这个地基之后,才能进行分析使用,最后产生价值。

关于亿信华辰

亿信华辰作为中国专业的商业智能BI和数据治理软件提供商,一直致力于为政企用户提供从数据采集、存储、治理、分析到智能应用的智能数据全生命周期管理方案,帮助企业实现数据驱动、数据智能,已积累了8000多家用户的服务和客户成功经验,为客户提供数据分析平台、数据治理系统搭建等专业的产品咨询、实施和技术支持服务。其在2021中国数据智能/ 数据中台生态图谱的商业智能领域榜上有名。
认为本内容有帮助
1
您可能需要的数据产品
亿信华辰助力政企数字化转型
customer

在线咨询