首页 行业百科 数据仓库系统建设中的工作流及优化

数据仓库系统建设中的工作流及优化

|亿信华辰大数据知识库2022-04-18

数据仓库系统建设中的工作流及优化

数据仓库它是数据库技术发展到一定阶段的产物。数据仓库是面向主题的、集成的、稳定的和随时间变化的数据集合,是一个数据分析处理过程,而不仅仅是一个数据存储软件或产品。

一、数据仓库基本概念

数据仓库它是数据库技术发展到一定阶段的产物。数据仓库是面向主题的、集成的、稳定的和随时间变化的数据集合,是一个数据分析处理过程,而不仅仅是一个数据存储软件或产品。

二、数据仓库分层
数据仓库主要分为 STG、ODS、DWD、DWS、ADS 和 DIM 共 6 个层次,数据从底层开始,向上层进行传递、转换、重组等操作。
STG原始数据层:用来表示原始数据在数据仓库的落地,数据结构和原始系统发送上来的保持一致。
ODS数据操作层:用于原始数据在数据平台的落地。
DWD数据明细层:用于源系统数据在数据平台中的永久存储。
DWS数据服务层:数据汇总层,该层会在 DWD 层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。
ADS应用数据层:该层存放数据产品个性化的统计指标数据,一般以某个业务应用为出发点进行建设, ADS 层只关心自己需要的数据,不会全盘考虑企业整体的数据架构和应用。
DIM维度层:主要存储公共的属性数据,比如产品类别、地理位置、时间详情等信息。
在数据仓库系统内部,对数据进行分层,主要有如下好处:
1)将复杂问题简单化,将复杂任务的多个步骤分解到各个层次中,每一层只处理较少的步骤,使单个任务更容易理解;
2)防止烟囱式开发,减少重复开发,开发通用中间层数据,减少重复计算;
3)整个数据层次清晰,每个层次的数据都有职责定位,便于使用和理解;
4)可进行数据血缘追踪,便于快速定位问题。
三、工作流概述
工作流是指一类能够完全自动执行的经营过程,根据一系列过程规则,将文档、信息或任务在不同的执行者之间进行传递与执行。简单来说,工作流是通过计算机软件进行定义、执行并监控的经营过程,而这种计 算机软件就是工作流管理系统。
四、工作流当前应用状况
目前应用于数据仓库建设场景的工作流管理系统,主要存在以下几个问题:
1、针对一些复杂的任务依赖,比如两个任务都是小时调度,小时调度之间存在某种对应关系,现有工作流管理系统都是按任务进行依赖配置,不能做到每个任务不同调度时间之间的依赖配置,或者要写大量的辅助代码实现,给用户带来极大的使用不便。
2、对于新增或修改 ( 如发现某个统计指标计算有错 ) 的任务节点,经常需要针对这样的任务节点及其子任务节点进行历史数据修补,以工作流为单位进行调度的系统,不太适合这种场景的处理。
3、都是以工作流为单位进行编辑、管理和发布部署,但是在实际的数据仓库建设过程中,经常是多个数据开发工程师协同完成整个工作流的开发部署工作,每个人只负责部分工作流任务节点,不同开发者的任务相互依赖,现有的工作流管理系统不能很好满足多人的开发协同工作。
五、工作流在数据仓库建设中应用优化
将数据仓库建设中的工作流节点,抽象成任务和实例两个层次,可达到以下的优化效果:
1)通过任务的周期和依赖属性,可以生成复杂的实例依赖关系,降低工作流节点依赖配置的复杂度;
2)能够以某个任务节点为根节点,构造子工作流 ( 包含此任务节点,及其子任务节点、孙子任务节点等 ),覆盖历史数据修复等场景。
3)配置工作流任务节点时,无需变更整个工作流配置信息,只需配置当前任务节点的周期和依赖属性等内容,提升工作流配置灵活性;
六、关于PetaBase-V实时数据仓库平台
PetaBase-V作为Vertica基于亿信华辰分析产品的定制版,提供面向海量数据的秒级分析服务,采用无共享大规模并行架构(MPP),可线性扩展集群的计算能力和数据处理容量,基于列式数据库技术,使 PetaBase-V 拥有高性能、高扩展性、高压缩率、高健壮性等特点,可完美解决报表计算慢和明细数据查询等性能问题,实时数据仓库平台主要面向结构化实时存储的应用场景,适合保险,金融等电子化依赖程度高的行业。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型
customer

在线咨询