睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

终于有人把数据架构讲明白了!

时间:2025-05-24来源:谈数据浏览数:11

数据架构是指组织和管理数据的方式,包括数据的存储、处理、流动和使用方式。它涉及到如何设计和构建数据模型、数据库系统、数据交换机制等,以确保数据的有效性、安全性和可用性。数据架构的目标是支持业务需求、提高数据的质量和一致性,并促进数据的共享和集成。


01 什么是数据架构?

数据架构描述如何管理从收集到转换、分发和使用的数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。它是数据处理操作和人工智能 (AI) 应用程序的基础。

数据架构的设计应该由业务需求驱动,数据架构师和数据工程师使用这些需求来定义相应的数据模型以及支持它的底层数据结构。这些设计通常有助于满足业务需求,例如报告或数据科学计划。

随着物联网 (IoT) 等新兴技术的出现,新的数据源不断涌现,良好的数据架构可以确保数据易于管理且具有利用价值,从而支持数据生命周期管理。更具体地说,它可以避免冗余数据存储,通过清理和重复数据删除来提高数据质量,并支持新的应用程序。现代数据架构还提供了跨域(例如部门或地理区域之间)集成数据的机制,打破了数据孤岛,因而消除了将所有数据存储在同一地方所带来的巨大复杂性。

现代数据架构经常利用云平台来管理和处理数据。虽然它的成本更高,但它的计算可扩展性使重要数据处理任务能够快速完成。存储可扩展性还有助于应对不断增长的数据量,并确保所有相关数据都可用。


02 数据架构的发展历程

1. 早期阶段(1960年代-1970年代)

文件系统时代:早期的数据存储主要依赖于文件系统,数据存储在平面文件中。数据管理和处理通常是应用程序内部的一部分,这种方式很难实现数据共享和整合。

层次模型和网状模型:1960年代末和1970年代初,出现了层次数据模型(如IBM的Information Management System)和网状数据模型(如CODASYL DBTG模型)。这些模型允许更复杂的数据关系,但仍然较为复杂且不够灵活。

2. 关系数据库的兴起(1970年代-1980年代)

关系模型:1970年,Edgar Codd提出了关系模型,它用数学理论来描述数据结构和操作方法。关系模型使得数据组织更加灵活,并支持使用结构化查询语言(SQL)来进行数据操作。

数据库管理系统(DBMS):随着关系模型的普及,关系数据库管理系统(如IBM的DB2、Oracle、MySQL)迅速发展,成为企业数据管理的主要工具。

3. 数据仓库和数据挖掘(1980年代-1990年代)

数据仓库:数据仓库概念由Bill Inmon和Ralph Kimball在1990年代提出,它涉及将来自不同数据源的数据整合到一个中央仓库中,以支持决策分析。数据仓库设计强调数据整合、历史数据的保存以及查询和报告的高效性。

数据挖掘:数据挖掘技术开始得到关注,用于从大量数据中提取有价值的信息和模式。

4. 大数据和NoSQL(2000年代)

大数据:随着互联网和社交媒体的兴起,数据的规模和多样性大幅增加,传统的关系数据库面临挑战。大数据技术(如Hadoop、Spark)应运而生,用于处理和分析海量数据。

NoSQL数据库:为了处理非结构化数据和高并发请求,NoSQL数据库(如MongoDB、Cassandra)获得了广泛应用。NoSQL数据库不依赖于传统的关系模型,支持更灵活的数据存储和访问模式。

5. 数据湖和云计算(2010年代至今)

数据湖:数据湖的概念强调将各种类型的数据(结构化、半结构化、非结构化)以原始格式存储在一个集中式存储系统中。数据湖支持灵活的数据访问和分析,常与大数据技术结合使用。

云数据架构:云计算的普及使得数据存储和处理的模式发生了变化。云数据库(如Amazon RDS、Google BigQuery)和数据仓库服务(如Snowflake)提供了弹性、可扩展的解决方案,使得企业能够以更低的成本管理和分析数据。

数据架构的发展反映了技术的进步和业务需求的变化。从最初的简单文件存储,到复杂的关系模型、数据仓库、大数据技术,再到现代的云计算和数据湖架构,数据架构不断演变,以应对不断增长的数据量和复杂的数据处理需求。


03 流行的企业架构

数据架构可以借鉴流行的企业架构框架,包括 TOGAF、DAMA-DMBOK 2 和 Zachman 企业架构框架。

1.TOGAF

这个企业架构方法由 The Open Group 于 1995 年开发,IBM 是该组织的白金会员。

该架构有四大支柱:

业务架构,它定义企业的组织结构、业务策略和流程。

数据架构,它描述概念、逻辑和物理数据资产,以及这些资产在整个生命周期中的存储和管理方式。

应用程序架构,它代表应用程序系统,以及这些系统与关键业务流程以及相互之间的关系。

技术架构,它描述支持任务关键型应用程序所需的技术基础架构(硬件、软件和网络)。

因此,TOGAF 为设计和实现企业的 IT 架构(包括其数据架构)提供了一个完整的框架。


2.DAMA-DMBOK 2

《DAMA数据管理知识体系指南 第二版》的定义:识别企业的数据需求,并设计和维护总蓝图以满足需求,使用总蓝图来指导数据集成、控制数据资产、并使数据投资与业务战略保持一致。主要由2部分构成:

(1)数据模型:企业数据模型是一个整体的、企业级的、独立实施的概念或逻辑数据模型,为企业提供通用的、一致的数据视图。企业数据模型包括数据实体(如业务概念),数据实体间的关系、关键业务规则和一些关键属性,它为所有数据和数据相关的项目奠定了基础。

(2)数据流设计:定义数据库、应用、平台和网络(组件)之间的需求和主蓝图。这些数据流展示了数据在业务流程、不同存储位置、业务角色和技术组件间的流动。

详见:DAMA数据管理之数据架构

3.Zachman 企业架构框架

该框架最初由 IBM 的 John Zachman 于 1987 年开发,使用一个从上下文到详细信息的六层矩阵,映射了诸如为什么、怎么做和是什么等六个问题。

六行(视点):分别代表不同利益相关者的角度,包括计划者视图(范围上下文)、所有者视图(业务概念)、设计者视图(系统逻辑)、实现者视图(技术物理)、子构造函数视图(组件组装)和用户视图(操作类)。

六列(W5H):基于英语疑问句“什么”、“哪里”、“谁”、“何时”、“为什么”和“如何”(称为W5H),代表向企业提出的疑问或问题。


Zachman 企业架构框架优势如下:

全面覆盖:Zachman框架提供了对企业的全面视图,包括数据、流程、技术和组织关系,确保企业没有任何方面被忽视。

改善对齐:桥接了业务目标和IT计划之间的差距,确保技术支持战略目标。

增强沟通:建立了讨论复杂系统和促进业务与IT利益相关者之间更好沟通的共同语言。

风险管理:通过全面理解所有架构组件及其相互依赖性,识别和缓解风险。

操作效率:通过识别效率低下和优化流程和系统,提高资源管理。

战略规划和转型:指导战略规划过程,确保与长期业务目标的对齐,并为组织转型计划提供清晰的路线图。

一致性和标准化:确保组织内架构实践和方法论的一致性,并标准化文档和架构实践,使系统更易于维护和更新。

与其他框架集成:可以与TOGAF、敏捷或ITIL等其他实践相结合,增强它们的有效性。

另外,在《华为数据之道》一书以及华为很多公开材料中,并没有明确给出数据架构,而是给出了信息架构的概念:“是指以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。”从定义上看,华为给出的信息架构和我们所说的数据架构是十分相识的,它包括了数据资产目录、数据标准、数据模型、数据分布四个部分。

▲图:信息架构,来源《华为数据治理之旅》 


数据资产目录:通过分层结构的表达,实现对数据的分类和定义,建立数据模型的输入,形成完善的企业资产地图,也在一定程度上为企业数据治理、业务变革提供了指引。基于数据资产目录可以识别数据管理责任,解决数据问题争议,帮助企业更好地对业务变革进行规划设计,避免重复建设。 数据标准:数据标准定义公司层面需共同遵守的属性层数据含义和业务规则,是公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。 数据模型:是从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反映业务信息(对象)之间的关联关系。 数据分布:定义了数据产生的源头及在各流程和IT系统间的流动情况。

04 数据管理系统及数据架构的类型

1.  数据仓库

数据仓库将来自企业内不同关系数据源的数据聚合到单个集中的统一存储库中。提取后,数据流经 ETL 数据管道,经过各种数据转换,才能满足预定义数据模型的需求。一旦加载到数据仓库中,数据就可以支持不同的商业智能 (BI) 和数据科学应用程序。

2.数据集市

数据集市是一个有针对性的数据仓库版本,它包含一个较小的数据子集,这些数据对组织内的单个团队或选定用户组很重要且是必需的。由于数据集市包含较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部门或业务线能够更快地发现更有针对性的洞察。

最初创建数据集市的目的是应对组织在 20 世纪 90 年代建立数据仓库的困难。当时集成来自整个组织的数据需要进行大量手动编码,而且非常耗时。与集中式数据仓库相比,数据集市的范围更有限,使其实现起来更容易且更快速。

3.  数据湖

数据仓库存储已处理的数据,而数据湖存储原始数据,通常为 PB 级别。数据湖可以存储结构化和非结构化数据,这使其与其他数据存储库不同。这种灵活的存储需求对于数据科学家、数据工程师和开发人员尤其有用。

最初创建数据湖的目的是应对数据仓库无法处理数量、速度和种类不断增加的大数据的情况。虽然数据湖比数据仓库慢,但它们的价格也更低廉,因为在采集之前几乎不需要数据准备。

4.数据结构

数据结构是一种架构,它侧重于数据提供者和数据使用者之间的数据价值链中的数据集成、数据工程和治理的自动化 数据结构基于“活动元数据”的概念,使用知识图、语义、数据挖掘和机器学习 (AI) 技术来发现各种类型元数据(例如系统日志、社交等)中的模式。然后,将这种洞察应用于自动化并编排数据价值链。

例如,它可以使数据使用者能够找到数据产品,然后自动向他们提供该数据产品。数据产品和数据使用者之间数据访问的增加减少了数据孤岛,并提供了更完整的组织数据视图。数据结构是一种具有巨大潜力的新兴技术,可用于增强客户概要分析、欺诈检测和预防性维护。根据 Gartner 的数据,数据结构使集成设计时间减少 30%,部署时间减少 30%,维护时间减少 70%。

5.数据网格

数据网格是一种去中心化的数据架构,按业务领域来组织数据。使用数据网格时,组织需要不再将数据视为流程的副产品,而是开始将其视为产品本身。数据生产者充当数据产品所有者。作为主题专家,数据生产者可以利用他们对数据主要使用者的理解为他们设计 API。这些 API 也可以从组织的其他部分访问,提供了更广泛的受管数据访问渠道。

数据湖、数据仓库等相对传统的存储系统可以作为多个去中心化的数据存储库来实现数据网格。数据网格还可以与数据结构一起使用,借助数据结构的自动化,可以更快地创建新的数据产品或执行全球治理。

05 数据架构的优势

结构完善的数据架构可以为企业提供许多关键优势,其中包括:

1.减少冗余:不同来源中可能存在重叠的数据字段,从而会导致不一致、数据不准确和错失数据集成机会的风险。良好的数据架构可以使数据存储方式标准化,并且可能减少重复,从而改善质量和整体分析。

2.提高数据质量:精心设计的数据架构可以解决管理不善的数据湖(也称为“数据沼泽”)所带来的一些挑战。数据沼泽缺乏适当的数据质量和数据治理实践来提供有洞察力的学习。数据架构可以帮助实施数据治理和数据安全标准,从而对数据管道进行适当的监督,使其按预期运行。通过改进数据质量和治理,数据架构可以确保数据以一种现在和将来都具有价值的方式存储。

3.支持集成:由于数据存储的技术限制和企业内部的组织障碍,数据经常孤立存在。当今的数据架构应该旨在促进跨域数据集成,以便不同的地理区域和业务部门可以访问彼此的数据。这有助于对常用指标(例如费用、收入以及相关驱动因素)形成更准确、更一致的理解。它还支持更全面地了解客户、产品和地理位置,从而更好地为决策提供信息。

4.数据生命周期管理:现代数据架构可以解决如何随时间推移管理数据的问题。随着存在时间的增加和访问频率的降低,数据的使用价值通常会减少。随着时间的推移,可以将数据迁移到成本更低、速度更慢的存储类型,这样就可以继续用于报告和审计,但无需使用高性能存储。

架构的本质是不断减少系统的“熵”,数据架构也一样。数据架构的底层逻辑具有一定的数据资源规划的内涵,是对企业数据进行结构化、有序化治理,让企业从数据孤岛走向数据共享,让企业数据能够更好的被管理、流动和使用,充分释放数据价值。在企业的数据项目实践中,数据架构连接了企业的数据管理现状和未来要实现的目标,不必纠结哪套体系的数据架构理论更严谨、逻辑更合理,而要将重点放在数据目标的实现上,“能抓住老鼠的那只猫就是好猫!”下面这份材料说明了数据架构概念、重点介绍了数据架构为企业带来的价值与收益及数据架构规划方法论,最后列举了案例分析,供参考借鉴。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询

在线咨询

点击进入在线咨询