什么是数据仓库
数据仓库(Data Warehouse),是为企业所有级别的决策提供所有类型数据支持的战略集合。它是出于分析性报告和决策支持目的而创建的一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库具备以下特点:
1、面向主题:数据仓库中的数据是按照用户使用数据仓库进行决策时所关心的重点方面进行组织。通常与多个操作型信息系统相关。
2、数据集成:由于数据源有脏数据或者代码不严谨,可能会导致数据失真,客户看到错误的信息就可能分析出错误的决策,造成损失。因此,数据仓库中的数据必须保证全局信息的一致性,需要对原有分散的数据库数据抽取、清理、系统加工、汇总和整理。
3、不可更新:数据仓库所涉及的操作主要是查询数据,为决策分析提供数据;
4、历史性:数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
5、扩展性:建立合理的数据仓库模型共同点是,数据仓库方案中需要增加中间层,使海量数据流有足够的缓冲,不至于数据量过大,导致运行失败。大型数据仓库系统架构设计复杂,有新需求或技术更新时不需要重建数据仓库系统,就能很稳定运行。
什么是数据库
数据库即存放数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。也可看作成一个按数据结构来组织、存储和管理数据的计算机软件系统。一方面,可以把数据库看作是一个能够合理保管数据的“仓库”,用户可以在其中存放要管理的事务数据;另一方面,数据库是数据管理的新方法和技术,它能更方便的维护数据、更合适的组织数据、更有效的利用数据和更严密的控制数据。
数据仓库与数据库的区别
数据仓库与数据库的区别实际讲的是OLAP与OLTP的区别。
联机分析处理(OLAP),则是一种分析型处理,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。具有FASMI特征,即快速性(Fast),可分析性(Analysis),多维性(Multi—dimensional)和信息性(Information)。一般针对某些主题历史数据进行分析,支持管理决策。
联机事务处理(OLTP),是面向交易的一种操作型处理系统。基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。主要用于具体业务在数据库联机的日常操作,比如对数据记录进行查询、修改。用户较为关心数据的安全性、操作的响应时间、并发的支持用户数和完整性等问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理。
数据仓库与数据库具体区别如下:
1、数据仓库是为分析数据而设计,数据库是为捕获数据而设计。
2、数据仓库是面向主题设计的,数据库是面向事务的设计。
3、数据仓库在设计一般有意引入冗余,依照分析需求,分析维度、分析指标进行设计,数据库设计需要避免冗余,一般针对某一业务应用进行设计,比如记录用户名、密码等简单数据即可。
4、数据库一般存储业务数据,数据仓库存储的一般是历史数据。
PetaBase-V作为Vertica基于亿信分析产品的定制版,提供面向海量数据的秒级分析服务,采用无共享大规模并行架构(MPP),可线性扩展集群的计算能力和数据处理容量,基于列式数据库技术,使 PetaBase-V 拥有高性能、高扩展性、高压缩率、高健壮性等特点,可完美解决报表计算慢和明细数据查询等性能问题,实时数据仓库平台主要面向结构化实时存储的应用场景,适合保险,金融等电子化依赖程度高的行业。