睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额》报告中,连续四年蝉联数据治理解决方案市场份额第一。

现代通用数据架构图全解

时间:2025-12-08来源:与数据同行浏览数:4

01 经典的数据架构图

大家看到的数据架构图一般长这样,这是非常经典的大数据 1.0/2.0 时代(约 2015-2018 年)的标准架构图:

但这类数据架构图与现代架构相比,存在显著的代际缺陷

1. 核心架构缺陷:陷入“Lambda 架构”的复杂陷阱

在“数据处理”层,采取典型的 Lambda 架构像切西瓜一样,明确将批处理(Hadoop/MPP)实时处理(流处理/内存库)在物理上割裂开来。这种架构存在逻辑割裂、数据打架以及运维复杂问题。


2. 治理模式缺陷:旁路式管理,缺乏“控制平面”

右侧的“管理平台”(开发、数据管理、运维)被画成了一个独立的竖条(Sidecar 模式),与左侧的数据流是平行的。这种画法暗示治理是“被动辅助”的,而非“主动管控”。比如挂在旁边的管理平台,通常只能事后看日志,无法在数据质量出问题时实时熔断任务。


3. 组件“烟囱式”堆砌:缺乏能力抽象

图中直接画出了具体的过时组件,如 HBase、Kylin、Flume。MPP(做报表)是独立存储,Hadoop(做批处理)是独立存储,HBase(做点查)又是另一套。数据需要在这些组件之间疯狂 ETL(搬运),每一次搬运都是延迟和故障点。


4. AI/ML 被降级为“普通消费者”:缺乏工程化闭环

在“数据分析”层,“机器学习”仅仅被视为一个并列的功能方块,这严重低估了 AI 在现代企业中的复杂性,比如没有 Feature Store (特征存储)。导致训练和推理的数据流是断开的,没有体现 MLOps,无法支撑大规模智能化应用。


5. 单向“开环”系统:缺乏价值反馈

所有的箭头都是自下而上的(采集 -> 处理 -> 分析 -> 访问 -> 应用),是一个单向管道。这忽略了数据价值的反向赋能和系统的自适应性。比如当上层应用发现数据质量下降或 SLA 未达标时,没有一条自上而下的反馈链路去自动触发底层的资源扩容或策略调整。


02 现代架构:构建“智能有机体”

这里,我重新画了一张逻辑相对严谨的现代通用数据架构图。

它引入了系统工程中“控制平面与数据平面分离”的核心思想,构建了一个高度自动化、具备自我感知能力的“智能有机体”:

决策与执行解耦:就像大脑(控制平面)与四肢(数据平面)在物理上分离,管理策略不应干扰数据生产。 全链路可观测:系统像拥有神经末梢一样,能感知每一个管道的延迟、质量与成本。 控制论闭环:通过下发的“指令流”和上报的“反馈流”,实现系统的自动纠偏与自愈。

 

该架构蓝图在逻辑上严谨地划分为三大部分:

第一部分:架构图上下两端的治理体系(L1)与基础设施(L4),分别代表了企业的“顶层宪法”与“物理基石”。 第二部分:架构图核心区域的控制平面(L2)与数据平面(L3),体现了“管干分离”的现代架构美学。 第三部分:贯穿中部的红绿双向通道,代表控制流与反馈流,这是赋予系统生命力的“神经脉络”。

下面对以上架构图进行详细解构。


03 核心解构:宪法、大脑与神经

L1 数据治理体系

位于架构最顶端,是企业的“立法机构”。这里不运行一行代码,但决定了数据的命运。

战略与组织:确立“数据即资产”的战略地位,建立数据认责制度。 标准与规范:制定数据的“度量衡”(如统一用户ID定义),避免“鸡同鸭讲”。 合规与伦理:划定隐私保护的红线(如个保法),是系统的安全底线。


L4 基础设施层

位于最底层,是企业的“物理基座”。 基于云原生技术,利用 K8s 和对象存储实现存算分离,为上层提供可无限弹性的算力与存储资源。

这是现代架构与传统架构最大的分水岭。

L2 控制平面—— [大脑]


架构图中浅绿色区域。它不存储任何业务数据,只处理元数据和规则,这一层其实可以映射到传统架构的数据管理模块。它包含六大中枢:

元数据与质量中心:全域资产的“高德地图”与全自动“质检员”。 安全与合规:统一的权限管控中心,负责发放“通行证”。 DataOps与MLOps:自动化的研发流水线,管理代码版本与AI模型生命周期。 数据可观测性:系统的“仪表盘”,实时监控SLA、数据新鲜度与异常波动。


L3 数据平面—— [躯干]

架构图中浅蓝色区域。这是数据真正流淌和加工的工厂,采用湖仓一体 (Lakehouse) 架构:

集成/摄取:无论是离线搬运 (ETL) 还是实时采集 (CDC),统一入口。 奖牌架构Bronze (青铜层):原汁原味的贴源数据。 Silver (白银层):清洗、标准化后的明细数据。 Gold (黄金层):聚合后可直接消费的高价值指标。 服务与分析:引入 Feature Store (特征存储) 和 Model Serving,标志着架构从“看报表”向“AI决策”进化。

这是架构图中最科学、最严谨的设计,体现了控制论中的闭环控制思想:

红色控制流:

自上而下的指令

控制平面将治理层的策略转化为机器指令,下发给数据平面。

例如:“拦截这批质量不达标的数据”、“给张三开通A表权限”、“扩容计算节点”。

绿色反馈流:

自下而上的感知

数据平面在运行时,实时将状态上报给控制平面。

例如:“任务T-100延迟超过5分钟”、“发现大量空值字段”、“计算资源占用率达到90%”。


04 实战案例:电商大促的“实时风控拦截”

为了让你看懂这张图是如何“活”起来的,我们还原一个高压场景:

场景目标

在双11大促流量洪峰中,系统需要在 50毫秒 内识别并拦截一笔欺诈交易,同时确保系统不崩溃。

流程图配色说明在此案例中,请关注图中的三种线条颜色:

蓝色实线 = 数据流(Data Flow,真正的数据搬运) 红色虚线 = 控制流(Control Flow,指令下发) 绿色虚线 = 反馈流(Feedback Loop,状态监控)

Step 1:立法与策略定义 (Governance)


L1 治理层制定规则:“大促期间,单笔超过5万元且异地登录的交易,需进行二次验证;所有手机号必须脱敏。” L2 控制平面(安全中心 & 质量中心)将此规则编译为策略配置。

Step 2:指令下发 (Red Control Flow )

安全中心通过红色通道,向数据平面的 Flink 计算引擎下发“脱敏与拦截策略”。 调度中心通过红色通道,向 L4 基础设施下发“预扩容”指令,提前准备好算力。

Step 3:实时流转与加工 (Blue Data Flow )

摄取:用户下单,交易日志通过 Kafka 涌入 L3 数据平面。 计算 (Silver层):Flink 引擎读取数据,实时执行步骤2下发的脱敏指令,并从 Feature Store 读取该用户的历史画像。 推理:数据流向 Model Serving,AI 模型判断欺诈概率为 98%。 执行:API 网关直接阻断交易。 注意:整个过程数据都在 L3 闭环高速运转,完全遵循 L2 的策略。

Step 4:异常感知 (Green Feedback Loop )

突然,流量激增。 数据可观测性模块通过绿色通道收到警报:“实时计算任务延迟从 20ms 飙升至 200ms,违反 SLA!”

Step 5:自动闭环治理 (Red Control Flow )


L2 控制平面收到反馈后,触发自动运维预案。 再次通过红色通道向 L4 基础设施 (K8s) 发送“紧急扩容”指令。 30秒内,新增 50 个 Pod 就位,延迟恢复正常,无需人工干预。 05 核心价值:四个“化”

通过这五步,现代通用数据架构实现了:

管理自动化:不再依赖文档,所有规则通过红色控制流自动执行。

状态透明化:不再是黑盒,绿色反馈流让系统状态实时可见。

加工敏捷化:湖仓一体与 DataOps,让数据加工像流水线一样高效。

系统韧性化:红绿双向交互构成了完整的控制闭环,系统具备了自我修复的能力。

看懂了这张图,你就看懂了企业数字化转型的技术底座。它不再是工具的简单堆砌,而是一个具备感知、决策、执行能力的智能生命体。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询

在线咨询

点击进入在线咨询