首页 行业百科 如何构建数据仓库

如何构建数据仓库

|亿信华辰大数据知识库2022-04-20

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。它是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。

一、数据仓库的定义
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。它是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库管理存储的是数据以及数据结构,本质上是一种特殊的数据组织形式:
1、集成性,是指将企业中各大业务系统进行数据集中、整合、加工从而形成全局统一的数据视图;
2、面向主题,即数据仓库中表的设计是按照一个个主题进行组织的而非按照业务流程设计;
3、反应历史变化,表明数据仓库通常会保存数据的历史备份,因此就可以从中获取数据历史变化情况;
4、相对稳定,则是指数据仓库中的数据不会做频繁的增删改操作,相对于业务系统中频繁的事务处理,其数据变化相对稳定。
二、数据仓库的价值
1、时间价值
数据仓库作为数据的集合,所有的信息都可以从数据仓库直接获取,数据仓库的最大优势在于一旦底层从各类数据源到数据仓库的ETL流程构建成型,那么每天就会有来自各方面的信息通过自动任务调度的形式流入数据仓库,从而使一切基于这些底层信息的数据获取的效率达到迅速提升。
2、高效的数据组织形式
所有数据在进入数据仓库之前都经过清洗和过滤,使原始数据不再杂乱无章,基于优化查询的组织形式,有效提高数据获取、统计和分析的效率。
3、历史数据
数据仓库能够还原历史时间点上的产品状态、用户状态、用户行为等,以便于能更好的回溯历史,分析历史,跟踪用户的历史行为,更好地比较历史和总结历史,同时根据历史预测未来。
4、集成价值
数据仓库是所有数据的集合,包括日志信息、数据库数据、文本数据、外部数据等都集成在数据仓库中,对于应用来说,实现各种不同数据的关联并使多维分析更加方便,为从多角度多层次地数据分析和决策制定提供的可能。
三、如何搭建数据仓库
1、模板调研
找出实际存在的业务问题,领导的KPI问题,现在没有提出未来可能出现的问题,这是数据仓库建立的核心所在。
2、主题域模型设计
主题域的界定、每个主题主实体的准入原则、数据处理规范、核心的分类决定了数据模型的主体框架,保持主体框架的稳定性确保了仓库的稳定性。
3、概念模型设计
详细的实体属性的设计,大量数据分析业务规则验证的工作,模型设计的同时完成到逻辑 数据模型的简要数据映射
4、逻辑模型数据设计
提供与生产一致版本的数据结构,准确完善的数据字典,符合分析需求的样本数据;并能对样本数据分析中的 问题进行及时准确的回复跟踪
5、物理存储模型设计
协调仓库数据的相关方达成共识,既包容当前数据满足现有需求,又具备一定的前瞻性便于扩展,还必须具备操作性
6、模型优化设计回顾

模型设计是多人协同的团队工作,是一项持续不断地扩展演化完善的过程,遵循模型设计规范、沿用一致的模型客户化方式是至关重要的。

四、数据仓库建设工具
数据仓库诞生已久,在此过程中,涌现了诸多优秀的数仓建设工具,有国内外的,有开源的有商业的,如常用建模工具有Erwin、PowerDesigner等,还有一些国内建模ETL工具,比如亿信华辰的数据工厂系统EsDataFactory。
EsDataFactory集建模和ETL于一体,内置经典的数仓分层理念和丰富的数据处理组件,同时结合十多年的数仓实施经验,开发了批量建模、ETL快捷建模等多种建模方式,有效提升开发效率,更贴近实际数仓建设场景,可以快速帮助企业搭建数仓模型,完成 ETL敏捷开发。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型
customer

在线咨询

在线咨询

点击进入在线咨询