- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2018-12-20来源:数据治理浏览数:7124次
最简单的数据仓库是用于存储和报告数据的系统。数据通常源自多个系统,然后将其移入数据仓库以进行长期存储和分析。该存储的结构使得组织内的许多部门或部门的用户可以根据他们的需要访问和分析数据。
数据仓库包含来自许多操作源的数据。它用于分析数据。
数据仓库是分析工具,旨在支持跨多个部门的用户的决策和报告。它们也是档案,包含未在操作系统中维护的历史数据。
数据仓库致力于为整个组织创建单一,统一的真实系统。不幸的是,正如您可能想象的那样,尝试在这样的系统中保持准确性和彻底性是非常困难的。
因此,如果数据仓库的构建和维护非常复杂,那么组织为什么要这么做呢?
数据仓库可以提供:
在结构化关系中存储全面的数据意味着数据仓库还可以提供各种复杂问题的答案,例如:
数据仓库以多种不同的形式构建,试图考虑并构建使用它们的组织的复杂性。
但基本架构非常一致:
首先,原始数据被格式化,有时称为清理和规范化。您可以将此视为将源数据从源移动到仓库的管道,确保数据被适当地命名和格式化,并与存储的其余数据保持准确的关系。这通常称为集成层,不一定被视为数据仓库本身的一部分。
然后将格式化的数据存储在数据仓库中。访问层允许工具和应用程序以适合其需要的格式检索数据。
数据仓库架构还有另一个方面,它管理称为元数据的整个结构。元数据是有关数据的数据。维护数据仓库的数据工程师和数据科学家收集有关数据源,命名约定,刷新计划等的信息,并使用此信息来维护数据质量并确保数据仓库满足其预期目的。
提取,转换,加载(ETL)
ETL系统管理源数据系统和数据仓库系统之间的数据移动(即:数据仓库架构部分中提到的管道),以及从数据仓库到数据集市的移动。首先必须从源中提取数据,然后根据下一层存储的标准进行转换,最后必须将格式化的数据正确加载到下一层。
严格地说,数据库是任何结构化数据集合。Excel电子表格,Rolodex或地址簿都是非常简单的数据库示例。Excel,Oracle或MongoDB等软件是一个数据库管理系统(DBMS),允许用户访问和管理数据库。人们通常将DBMS称为数据库。然后,数据仓库是一种数据库。它专门用于存储的数据 - 来自多个来源的历史数据 - 以及它所服务的目的分析。
数据库和数据仓库的关键属性是它们包含结构化数据。存储数据的方式 - 从可用的字段到日期格式,以及介于两者之间的所有内容 - 事先达成一致,整个数据库严格遵循此结构或模式。它们的相对一致性和稳定性意味着数据仓库可以为组织中的多种类型的角色提供查询。这个过程非常有条理,非常可预测,而且效率很高,但也很难做得很好。
围绕数据湖的精确定义仍然形成共识。但是,一般来说,数据湖是另一种存储数据的方法,但没有严格的数据仓库模式。与数据仓库相比,查询应用数据湖中的模式。这意味着将数据加载到数据湖中要容易得多,但构建查询要复杂得多,这限制了数据湖对数据工程师和数据科学家等复杂角色的使用。与数据仓库相比,数据湖通常需要更长的时间才能返回结果。大多数数据湖都是基于Hadoop构建的。
如果数据仓库保存并集成来自整个组织的数据,则数据集市是数据的较小子集,专门用于使用给定的部门或部门。数据集市通常由单个部门构建和控制,使用中央数据仓库以及内部操作系统和外部数据。数据集市通常仅包含一个主题领域,例如营销或销售。因为它们更小且更具体,所以它们通常更易于管理和维护,并且具有更灵活的结构。
OLAP系统通常包含大量数据,这会使运行特定查询的速度变慢。为了加速和简化查询,可以将OLAP系统进一步细分为称为多维数据集的子数据库,这些子数据库包含一组有限的维度,因此可以提供更快的查询时间。
商业智能软件是数据仓库之上的关键层,允许其中的信息用于制定业务决策。商业智能软件具有许多不同类型的功能,但它通常包括用于构建和执行查询的某种引擎,以及存储和可视化结果以便合并到包含业务分析的文档中的方法。
在考虑使用哪些工具时,重要的是确保它们在可扩展性方面满足您的要求(可以根据您的需求增长),访问权限(用户以及需要访问仓库和从哪些位置访问的数量)以及集成(此系统是否与您的数据源和BI工具集成)。
关系数据库是存储大多数业务数据的系统。他们已经存在了几十年并且非常成熟。存在用于OLTP和OLAP用例的关系数据库。他们非常了解并为管理和数据访问提供了广泛的互补技术生态系统。流行的关系数据库包括:
MPP数据库是一种数据仓库技术,专注于支持并行处理的硬件和软件。也就是说,查询处理被分解为跨多个服务器一起执行的许多较小的并行任务。这种方法可以大大加快查询和摄取时间。但是,MPP数据库可能很昂贵,因为最受欢迎的供应商都有闭源产品。
流行的MPP数据库包括:
与MPP方法类似,Hadoop还能够在计算机集群中分配计算任务。但是,Hadoop是开源的,因此企业采用它更容易,也更便宜。大多数数据湖都使用Hadoop,因为它能够廉价快速地处理大量结构化和非结构化数据,并且因为它非常适合以原生格式存储数据,因此分析师可以应用他们需要的任何转换。Hadoop在技术上不是一个数据库,但它在许多功能区域都有重叠。
每家公司都管理着一个数据仓库,以捕获其业务历史。但是,当涉及到通用分析时,经常使用数据仓库,因为它们是唯一可用的工具。数据仓库功能强大且有用,但需要在前期和持续的基础上进行大量工作才能使用和维护。由于数据仓库必须集中和标准化才能为整个组织中的许多用户提供服务,因此它们始终包含对应存储的内容以及如何对所有用户不是最佳的假设。