睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据仓库的定义,它有什么作用?

时间:2018-12-20来源:数据治理浏览数:6976

最简单的数据仓库是用于存储和报告数据的系统。数据通常源自多个系统,然后将其移入数据仓库以进行长期存储和分析。该存储的结构使得组织内的许多部门或部门的用户可以根据他们的需要访问和分析数据。


数据仓库包含来自许多操作源的数据。它用于分析数据。

数据仓库是分析工具,旨在支持跨多个部门的用户的决策和报告。它们也是档案,包含未在操作系统中维护的历史数据。

数据仓库致力于为整个组织创建单一,统一的真实系统。不幸的是,正如您可能想象的那样,尝试在这样的系统中保持准确性和彻底性是非常困难的。

为什么使用数据仓库?

因此,如果数据仓库的构建和维护非常复杂,那么组织为什么要这么做呢?

数据仓库可以提供:

  •             所有数据的单一访问点,而不是要求用户单独连接数十个甚至数百个系统
  •             保证数据质量
  •             他们存储的数据的历史记录
  •             出于安全原因,在日常操作系统和分析系统之间进行分离
  •             围绕数据的标准语义集,例如:命名约定的一致性,不同类型的产品,语言和货币的代码等等


在结构化关系中存储全面的数据意味着数据仓库还可以提供各种复杂问题的答案,例如:

  •             在过去十年中,我们的每个产品线每月带来多少收入,按城市分类?
  •             我们的其中一台ATM的平均交易规模是多少,按时间和客户资产总额分列?
  •             在已开业至少三年的商店中,过去一年的员工营业额百分比是多少?这些员工每周工作多少小时?


数据仓库架构

数据仓库以多种不同的形式构建,试图考虑并构建使用它们的组织的复杂性。

但基本架构非常一致:

首先,原始数据被格式化,有时称为清理和规范化。您可以将此视为将源数据从源移动到仓库的管道,确保数据被适当地命名和格式化,并与存储的其余数据保持准确的关系。这通常称为集成层,不一定被视为数据仓库本身的一部分。

然后将格式化的数据存储在数据仓库中。访问层允许工具和应用程序以适合其需要的格式检索数据。

数据仓库架构还有另一个方面,它管理称为元数据的整个结构。元数据是有关数据的数据。维护数据仓库的数据工程师和数据科学家收集有关数据源,命名约定,刷新计划等的信息,并使用此信息来维护数据质量并确保数据仓库满足其预期目的。

关键概念

提取,转换,加载(ETL)

ETL系统管理源数据系统和数据仓库系统之间的数据移动(即:数据仓库架构部分中提到的管道),以及从数据仓库到数据集市的移动。首先必须从源中提取数据,然后根据下一层存储的标准进行转换,最后必须将格式化的数据正确加载到下一层。

数据仓库与数据库

严格地说,数据库是任何结构化数据集合。Excel电子表格,Rolodex或地址簿都是非常简单的数据库示例。Excel,Oracle或MongoDB等软件是一个数据库管理系统(DBMS),允许用户访问和管理数据库。人们通常将DBMS称为数据库。然后,数据仓库是一种数据库。它专门用于存储的数据 - 来自多个来源的历史数据 - 以及它所服务的目的分析。

数据仓库与数据湖

数据库和数据仓库的关键属性是它们包含结构化数据。存储数据的方式 - 从可用的字段到日期格式,以及介于两者之间的所有内容 - 事先达成一致,整个数据库严格遵循此结构或模式。它们的相对一致性和稳定性意味着数据仓库可以为组织中的多种类型的角色提供查询。这个过程非常有条理,非常可预测,而且效率很高,但也很难做得很好。

围绕数据湖的精确定义仍然形成共识。但是,一般来说,数据湖是另一种存储数据的方法,但没有严格的数据仓库模式。与数据仓库相比,查询应用数据湖中的模式。这意味着将数据加载到数据湖中要容易得多,但构建查询要复杂得多,这限制了数据湖对数据工程师和数据科学家等复杂角色的使用。与数据仓库相比,数据湖通常需要更长的时间才能返回结果。大多数数据湖都是基于Hadoop构建的。

数据仓库与数据集市

如果数据仓库保存并集成来自整个组织的数据,则数据集市是数据的较小子集,专门用于使用给定的部门或部门。数据集市通常由单个部门构建和控制,使用中央数据仓库以及内部操作系统和外部数据。数据集市通常仅包含一个主题领域,例如营销或销售。因为它们更小且更具体,所以它们通常更易于管理和维护,并且具有更灵活的结构。

OLAP多维数据集

OLAP系统通常包含大量数据,这会使运行特定查询的速度变慢。为了加速和简化查询,可以将OLAP系统进一步细分为称为多维数据集的子数据库,这些子数据库包含一组有限的维度,因此可以提供更快的查询时间。

商业智能工具

商业智能软件是数据仓库之上的关键层,允许其中的信息用于制定业务决策。商业智能软件具有许多不同类型的功能,但它通常包括用于构建和执行查询的某种引擎,以及存储和可视化结果以便合并到包含业务分析的文档中的方法。

数据仓库技术

在考虑使用哪些工具时,重要的是确保它们在可扩展性方面满足您的要求(可以根据您的需求增长),访问权限(用户以及需要访问仓库和从哪些位置访问的数量)以及集成(此系统是否与您的数据源和BI工具集成)。

关系数据库

关系数据库是存储大多数业务数据的系统。他们已经存在了几十年并且非常成熟。存在用于OLTP和OLAP用例的关系数据库。他们非常了解并为管理和数据访问提供了广泛的互补技术生态系统。流行的关系数据库包括:

  •             IBM DB2。IBM将其核心关系数据库DB2与其应用程序服务器,数据挖掘技术,用于多维数据集和BI的Cognos以及其他技术捆绑在一起。他们称之为DB2 Warehouse。DB2最受IBM使用IBM硬件,软件和服务的商店的欢迎。
  •             Microsoft SQL Server。Microsoft已在许多版本中构建其核心关系数据库的功能,以支持大型数据仓库部署。他们还构建了与云产品和Hadoop的集成,为结构化和非结构化数据提供更全面的产品。Microsoft还拥有最好的管理工具和与其他Microsoft产品(包括Windows)的集成。SQL Server最受微软商店欢迎,并且往往更具成本竞争力。
  •             Oracle Exadata。与IBM一样,Oracle也是硬件供应商。Exadata是一种基于核心Oracle数据库的设备,其硬件和软件已针对大规模,高性能系统进行了优化。Oracle是市场上最受欢迎的数据库。Exadata非常昂贵。


MPP(大规模并行处理)分析数据库

MPP数据库是一种数据仓库技术,专注于支持并行处理的硬件和软件。也就是说,查询处理被分解为跨多个服务器一起执行的许多较小的并行任务。这种方法可以大大加快查询和摄取时间。但是,MPP数据库可能很昂贵,因为最受欢迎的供应商都有闭源产品。

流行的MPP数据库包括:

  •             Teradata的。Teradata是黄金标准。它是使用最广泛,最成熟的。与上面列出的关系供应商不同,Teradata一直专注于数据仓库。它仅作为设备提供,而且非常昂贵。
  •             IBM Netezza。Netezza是另一种数据仓库设备,由于价格昂贵且易于使用而迅速增长。该软件部分基于开源关系数据库PostgreSQL。Netezza的一项重要创新是使用现场可编程门阵列(FPGA)来加速查询处理。Netezza于2010年被IBM收购。
  •             HP Vertica。Vertica是一个创新的面向列的MPP数据库,来自麻省理工学院的研究。与当时的竞争产品不同,Vertica可作为支持多种硬件平台的软件提供,并且由于新颖的SQL执行引擎和强大的压缩功能而提供了引人注目的性能。Vertica于2011年被惠普收购。
  •             Pivotal Greenplum。Greenplum是一个基于PostgreSQL的MPP数据库。因为它基于PostgreSQL,所以它具有更广泛的互补工具生态系统。而且因为它是面向行的,所以与面向列的产品相比,它会产生不同的权衡。它于2010年被EMC收购,随后于2015年由Pivotal开源。
  •             SAP Sybase IQ。Sybase IQ是最早的面向列的数据库之一,并于20世纪90年代末进入市场。它有着悠久的历史记录,特别是在以金融服务等以Sybase为中心的市场中。IQ因其强劲的表现而闻名,但被认为价格昂贵且难以管理和扩展。Sybase于2010年被SAP收购。


Hadoop的

与MPP方法类似,Hadoop还能够在计算机集群中分配计算任务。但是,Hadoop是开源的,因此企业采用它更容易,也更便宜。大多数数据湖都使用Hadoop,因为它能够廉价快速地处理大量结构化和非结构化数据,并且因为它非常适合以原生格式存储数据,因此分析师可以应用他们需要的任何转换。Hadoop在技术上不是一个数据库,但它在许多功能区域都有重叠。

数据仓库的替代品

每家公司都管理着一个数据仓库,以捕获其业务历史。但是,当涉及到通用分析时,经常使用数据仓库,因为它们是唯一可用的工具。数据仓库功能强大且有用,但需要在前期和持续的基础上进行大量工作才能使用和维护。由于数据仓库必须集中和标准化才能为整个组织中的许多用户提供服务,因此它们始终包含对应存储的内容以及如何对所有用户不是最佳的假设。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询