- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2024-05-12来源:可能否浏览数:292次
了解数据架构之前首先需要了解到底什么是架构?
把一个整体(完成人类生存的所有工作)切分成不同的部分(分工),由不同角色来完成这些分工,并通过建立不同部分相互沟通的机制,使得这些部分能够有机的结合为一个整体,并完成这个整体所需要的所有活动,这就是架构。
举例理解:最开始人类是住在山洞里,住在树上的,主要是为了躲避其他猛兽的攻击,以及减少自然环境的变化。为了完成这些目标,人类开始学会在平地上用树木和树叶来建立隔离空间的设施,这就是建筑的开始。但是完全隔离也有很多坏处,慢慢就产生了门窗等设施。建筑的本质就是从自然环境中,划出一块独占的空间,但是仍然能够通过门窗等和自然环境保持沟通。这个时候架构就已经开始了。
人们对建筑的需求慢慢的越来越多,空间的切分也会变成很多种,组合的方式也会有很多种,比如每个人住的房子,需要区分厨房、洗手间、书房、卧室等等,这个时候人们就开始有意识的去设计房子,架构师就慢慢的出现了。一切都是为了满足人的越来越高的需求,提升质量,减少时间,更有效率的切分空间,并且让空间之间更加有机的进行沟通。这就是建筑的架构以及建筑的架构的演变。
内容概要:此部分内容重点回答数据架构包含什么内容以及数据架构基本内容输出示例
数据架构可以让管理者从企业的全局视角了解企业、客户和市场,通过数据更好地支撑企业运营。企业数据架构规划的目标是打破信息孤岛,实现企业信息数据共享。
TOGAF由国际标准权威组织The Open Group制定。The Open Group于1993年开始应客户要求制定系统架构的标准。TOGAF是一个架构框架,它是事实上的全球标准,可用来规划、开发、实现、治理和维护一个架构。
国际数据管理协会(DAMA)是一个全球性数据管理和业务专业志愿人士组成的非营利协会,致力于数据管理的研究和实践。DAMA国际自1980年成立以来,一直致力于数据管理的理论研究、实践、教训及相关知识体系的建设,在数据管理领域累积了极为深厚的知识沉淀和丰富经验。
数据架构是什么有多重解读和方案,但是随着业界理论体系的不断完善,以及企业级数据治理工作的不断深入,目前的领先企业、数据治理组织的理论准备工作已经逐步收敛到四个方向,即:数据资产目录、数据标准、数据模型、数据分布。
以上,可以称为数据架构体系的“四个基本内容”,具体而言应该包括:梳理企业的数据资产、制定数据标准并持续维护、建立数据模型,包括概念模型、逻辑模型和物理模型、管控数据分布,包括数据源头和流向。
业务视角:数据资产目录、数据标准 。
IT视角:数据模型、数据分布。
数据资产目录:通过分层结构的表达,实现对数据的分类和定义,建立数据模型的输入,形成完善的企业业务数据资产地图。通过数据资产目录,可以解决数据在哪里、数据谁负责,数据如何用等一系列问题。从数据本身出发,按对象进行数据全生命周期管理。
数据标准:数据标准定义公司层面需共同遵守的属性层数据含义和业务规则,是公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。业务视角而言用于统一业务侧语言和理解,明确定义每个属性,所遵从的业务定义和用途、业务规则、同义词,并对名称进行统一定义,避免重复。
数据模型:是从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反映业务信息(对象)之间的关联关系。数据模型不仅能比较真实地模拟业务(场景),同时也是对重要业务模式和规则的固化。具体包括概念模型、逻辑模型和物理模型。
信息链:表达数据在业务流程的流转。
数据流:表达数据在IT系统的流转。
在说清数据架构的组件之后,更加实际的问题是如何设计数据架构,实现理论的落地。无疑,数据架构的设计因行业而异,也因企业而异,但是也有一些共性和原则。总结而言无非是:面向业务对象进行架构设计,以及面向业务对象实现架构落地。
所谓面向业务对象进行架构设计,即是企业数据架构的设计应当以业务对象为基石,展现业务对象的属性特征,描摹业务对象间的关联关系。面向业务对象实现架构落地则是针对数据模型而言的,因为数据架构最为重要的交付产物就是数据模型。
内容概要:此部分内容重点回答数据仓库的精髓是什么,为什么会出现ODS以及数据集市,为什么在ODS-DW-DM架构之上还要对数据仓库再进行分层。
传统数仓架构:(ODS-数据仓库-数据集市)ODS
需要ODS的理由:业务系统是非集成且难以处理的。当组织需要集成数据并且无法修改或者改造已有的系统环境时,就需要用到ODS。ODS出现的动因还源自于组织有时需要对集成数据进行在线更新。同时ODS保留原始数据,与业务系统基本同构(可能会增加管理字段), ODS集成了所有(有入仓的)的数据 。
随着计算机使用的爆炸式增长,人们创建的数据量和数据类型也都有了爆炸性增长,人们开始希望拥有集成化数据,而不仅仅满足于从某个应用程序获取数据,人们需要以一种内聚式的方式看待数据。于是,数据仓库诞生了。
数据仓库的精髓就在于颗粒化的数据。数据仓库中颗粒化的数据为商业智能和许多其它形式的分析奠定了基础。它就像一桶满满的沙粒,可以采用多种方式重塑这些沙粒的形态。数据仓库是所有数据的集合,包括日志信息、数据库数据、文本数据、外部数据等都集成在数据仓库中。
分析师能够很快获取数据。数据已经存在于数据仓库之中静待分析。而且在开始分析之前无需再做集成工作。 对于所有分析师而言,数据的集成都是一致的。不会出现一个分析师这样来集成数据,而另一个分析师那样来集成数据的情况。 数据协调具有了现实的可行性。如果两个分析师得到的结果出现了差异,进行数据协调工作也只是一个简单问题。 如果需要建立全新的分析,数据仓库能够为之提供数据基础。 如果有必要进行合规性检查或者审计,会有可信的数据基础来支持分析。
为了满足各种独特视角对汇总数据和合计数据的不同需求,人们采用了一种不同的数据结构-数据集市。不同的组织都有其自己的数据视角。所有的数据都源自数据仓库中的颗粒化数据。
数仓为何分层?
其核心都是为了让数据仓库在应对分析场景、业务应用场景时更高效。数仓分层保障了数据在进入数据仓库之前都经过清洗和过滤,使原始数据不再杂乱无章,优化了查询过程,有效的提高了数据获取、统计和分析的效率。同时,数仓分层实现了各种不同维度数据的关联,使多维分析更加方便,为从多角度、多层次地数据分析和决策制定提供便捷。
作为一名数据的规划者,我们肯定希望自己的数据能够有秩序地流转,数据的整个生命周期能够清晰明确被设计者和使用者感知到。直观来讲就是如图这般层次清晰、依赖关系直观。
但是,大多数情况下,我们的数据体系是复杂、层级混乱的。因此,我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。
1.不要在意分层的命名,也可以叫做:1、2、3层,但为了与别人的理解保持一致,还是需要跟各自公司的数据开发同事沟通清楚,明确各层的数据含义。
2. 有些公司的实践中,会在数据仓库中分三层以上,比如会将DW层分解为两层,分别为轻度汇总层、中度汇总层。这是跟着业务需要走了,理解分层的目的即可。
常见数仓分层如下: