首页 亿信华辰大数据知识库 如何搭建通用数据中台体系架构

如何搭建通用数据中台体系架构

|亿信华辰大数据知识库2022-01-11

如何搭建通用数据中台体系架构

在信息化时代,随着各种数据服务需求不断涌现,企业数字化转型建设如火如荼。“数字中国”、“互联网+”等国家战略工程在资源、可持续发展、环境、行政办公等方面均取得了良好成效。

    在传统IT建设方式下,企业的各种信息系统和数据库大多是独立采购或者独立建设的,新旧IT系统中沉淀的数据之间难以打通,导致企业内部形成一个个“数据孤岛”“数据烟囱”,分散割裂且不易形成可共享的数据服务,无法满足企业降本增效、高质量发展的诉求,因而成为企业在数字化转型过程中的一个最大痛点。而且,随着互联网技术和移动通信技术的蓬勃发展,企业和政府获得的数据呈指数级增长。同时,数据类型也从原来的结构化数据扩展到视图声等非结构化数据。为了解决海量异构数据带来的上层应用问题,数据中台的定义应运而生。数据中台的出现,弥补了数据开发与应用开发因开发速度不匹配而缺乏反应的问题。目前,组织和企业采用集中式的数据采集、存储和应用分层建设。一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理和运行,体现了数据的资产和资源属性。在满足日常数据分析需求的同时,也为业务创新提供了坚实的基础。
阿里自从2014年从芬兰Supercell公司取经中台的理念后,在阿里集团内部开始积极实践,提出了"大中台,小前台"的组织架构和业务架构。阿里的中台是从管理的角度出发,其中台事业部包括搜索事业部、共享业务平台、数据技术及产品部,数据技术及产品部应是数据中台建设的核心部门。其他组织或企业建设数据中台不一定需要成立中台事业部,但是数据集中治理与提升数据价值转换效率的思路是一致的。有学者认为数据中台是一种大数据治理平台 ;也有学者认为数据中台并非指大数据平台,是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。数据中台的作用已经在生产实践中得到普遍认可。阿里的线上商城离不开数据中台,运营商的项目投资建设、销售品管理及用户管理也离不开数据中台。

1 数据中台系统定位

数据中台是一种大数据架构,用来完成数据治理,进而支撑线上应用系统建设,挖掘数据隐含价值。根据数据治理协会的定义,数据治理指的是对数据相关事宜的决策制定与权力控制。数据治理的目标是提高数据的准确性、及时性、完整性、唯一性、一致性和有效性,确保数据的保密性、完整性及可用性,推进数据资源的整合、服务和共享,从而提升组织机构信息化建设水平,充分发挥数据资产作用,在商业竞争中取得先机。
数据中台是组织机构需要建设的位于数据源与数据应用系统之间的一个中间平台。数据中台先将采集到的低质量的数据汇集成大数据,再治理成高质量、具备商业价值的数据资产。作为数据结构中的中间层,数据中台主要负责数据采集、数据治理和提供数据服务。这里的数据中台是指通过数据技术对海量的数据进行采集、计算、存储和加工,并统一标准和口径。数据中台完成数据统一后会形成标准数据,然后再对数据进行存储,进而形成大数据资产层,为用户提供高效的优质服务。
数据中台是众多数据应用系统中可集中建设与维护的一个共享数据平台,是数据生产系统中的一环。数据治理是数据中台及大数据平台不可或缺的核心功能,数据中台一定具有大数据平台的功能,但大数据平台不需要具备数据中台的功能。以亿信华辰为例,数据中台框架如图 1 所示。

图 1 数据中台的系统定位


2 数据中台总体架构


可以将数据中台定义为一个集成了数据集成、数据治理、数据管理和数据分析的完整平台,为业务应用提供数据服务,促进业务创新。笔者认为,数据中台可以分为四层:大数据技术平台、数据管理平台、数据挖掘分析平台、以及数据服务平台这四个层次。

大数据技术平台
大数据技术平台为数据管理平台提供了技术支持,可以解决基于Hadoop架构的异源、异构的海量数据的收集、储存和分析计算。数据中台所要用到的大数据技术体系结构不仅限于单一体系结构,而且是复杂多样,需要高度兼容的体系结构,并在国内外得到广泛融合。

数据管理平台
数据管理平台主要是为了将数据进行资产化,主要是利用数据开发引擎以及大数据平台进行数据上的交互。数据生命周期管理是数据中台的核心步骤,所有的数据都应经过采集、存储、处理、应用、归档、销毁这一流程。组织机构可通过多种智能工具来对各个阶段进行管控。面向分析挖掘的数据仓库是搭建数据中台的基础,数据中台所需的数据仓库不仅包括结构化数据和非结构化数据,还包括实时业务数据。因此,企业需要了解数据仓库的设计概念,管理全局业务数据并构建新的数据仓库以支持更高级别的应用程序的需求。实现数据资产化,是现在数据中台建设过程中周期最长的一个环节,也是数据管理平台在数据中台中解决的关键问题。

数据分析挖掘平台
数据分析挖掘平台是一个架构在数据管理平台之上,为数据研究者提供稳定、安全、高质量的数据资源以及一组易于使用的分析工具集合。如果想满足大数据时代下政府和企业的各种数据挖掘需求,就必须基于数据挖掘分析平台。比如:
1.自然语言分析处理,通过机器学习以及深度学习这些技术的开发应用,能够从文档中快速提取信息,构建出各种实体及其所映射的关系,形成知识图谱,支撑商业智能决策。
2.基于动态知识图谱的智能标签管理,动态知识图是一个由知识本体和业务领域中数据的方法和分类相关联的知识网络,用于支持复杂分析场景中的知识发现和数据挖掘。核心是组成“Something-RelationshipLabel”的三个业务元素。实体包括人、物体、地方、组织等。 对于复杂业务场景中的知识图,使用不同的存储介质将不同类型的数据储存于不一样的储存介质中,并且在数据融合之后,把来自不同介质的数据进行连接并关联起来,以实现相关的访 问和挖掘效果。
3.交互式机器学习,交互式机器学习包括从建模到上线的一站式、全方位流程,包括数据导入、预处理、模型学习、评估、预测、发布、管理、任务管理、作业监视等。内置多种算法模型利用拖放组件的可视化建模方式降低了科学建模技术的门槛,使数据科学家可以最大 化其数据中心的数据资源,以实现智能业务。与大数据相比,机器学习中的数据分析和挖掘是一个未知的领域,实现基于场景的服务是直接的挑战。随着人工智能概念的飞速发展,用户突飞猛进,阐明业务需求,结合机器学习和深度 运行方法逐步解决业务问题,并将人工智能带入真实的业务和场景。基于以上数据处理技术,成就了数据中台系统。

数据服务平台
数据服务平台以数据服务的形式向外界提供数据处理和分析结果,前端应用程序更清楚地使用数据中心中的所有类型的数据,从而满足核心业务的要求并促进了前端的发展。

3 数据中台通用体系架构

不同的企业信息化建设程度不一,对数据有不同的需求。而且企业数据应用不断更新迭代,企业的中台系统也需要不断变化。 因此,笔者认为有必要创建统一、规范的数据中台模板供其他企业借鉴与使用。从数字系统的核心任务分析,数据中台一方面对大量上层数据应用系统公共数据处理的部分功能集中建设,另一方面对数据进行治理,利用算法挖掘数据中的隐藏价值,提升数据质量并开放给其他数据应用系统,因此一个通用的数据中台至少应满足数据应用的中间处理与数据治理。从数据处理与数据治理两个维度出发,通用数据中台体系架构需要具有一定的柔性,可按照企业应用需求进行组合,或者对单个模块进行扩充,能满足大多数企业数据中台建设的需求。
数据中台的通用体系架构如图 2 所示。该中台体系架构以减少功能冗余和提高功能复用为原则,把数据中台解耦为5个可以分别独立建设、演进的 功能子系统。数据治理系统是数据中台体系架构的核心,数据治理是提升数据价值的重要手段。该数据中台体系架构的通用性表现在以下几点。
(1)该数据中台体系架构综合考虑了数据中台的各种要素,参考这个架构进行建设可以有效提升数据资产价值,提供数据及服务的共享。
(2)参考这个数据中台体系架构,企业可以一次规划、分步实施。首先建设数据存储计算系统以及数据治理系统,然后根据业务发展需求,逐步补充数据集成、数据服务。
(3)该数据中台由5个系统组成。 企业在立项建设时可以灵活组合,每个系统单独 招标建设,也可以把多个系统合并招标建设。

图 2 数据中台体系架构示例


数据中台通用体系架构包含数据源采集框架、数据集成框架、数据计算存储框架、数据治理框架以及数据服务框架等5大部分。


3.1数据源采集框架

数据中台的采集框架应对纳入数据中台的各种源数据进行统一采集管理。采集框架中应提供多种数据采集方式,如文件传输协议(File Transfer Protocol,FTP)采集、数据库采集、接口应用程序 (Application Programming Interface,API)接入采集、流式采集及网络爬虫采集。同时采集框架应按照数据采集规范对源数据进行预处理,从而去除明显不需要的数据及多余数据,并对采集过程进行管理。虽然数据中台的体系架构没有统一模板,但各企业数据采集框架基本一致。


3.2数据集成框架
数据集成管理可实现跨部门数据的传输、加载、清洗、转换和整合,支持自定义调度和图形化监控,实现统一调度、统一监控,满足运维可视化需求,提高运维管理工作效率。其结构功能如图3所示

图 3 数据集成框架


3.3数据计算存储框架
数据计算存储需要支持海量数据的高效储存和统一管理,为企业决策提供实时的数据支撑。主要解决结构化,非结构化融合存储的混合应用场景。应该具备以下特点:
  • 多源数据接入:支持多种传输协议,实现结构化、半结构化、非结构化数据的统一接入。
  • 实时数据处理:对资源做统一管理,可同时进行离线计算和流式处理,满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。
  • 海量数据存储:要有很高的容错性、稳定性和可用性,可支持TB、PB级以上结构化与非结构化数据存储。
  • 数据敏捷计算:实现TB级数据查询秒级响应。
  • 智能学习库:提供聚类、回归、分类等丰富的算法库分析等。
  • 统一运维管理:支持对集群、节点、服务、组件等诸多对象的管理,帮助用户及时了解整个平台系统运行状态,并且提供健康预警和实时监测,实现大数据平台的极简管理。以亿信华辰为例,数据计算存储框架如图4所示

图4 数据计算存储框架


3.4 数据治理框架

广义的数据治理不仅包含提升数据价值的内容,如数据标准管理、数据质量管理、数据资产管理等,也包含数据安全管理及数据交换。首先建设全面完整的数据标准管理流程及办法,保证数据的完整性、有效性、一致性、规范性、开放性和共享性管理,再以数据标准为数据检核依据,以元数据为数据检核对象,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环。对共享的数据建立统一视图和集中管理,为各业务系统数据调用提供黄金数据。然后数据交换服务将若干个业务子系统之间进行数据或者文字的传输和共享,提高信息资源的利用率。最后数据资产服务可以帮助我们更好的支撑各种数据的应用,丰富的服务接口拓展,支撑数据资产的多渠道应用,如数据共享、决策支持等,最终实现数据资产价值最大化。数据安全管理贯穿于数据治理全过程,提供对隐私数据的加密、脱敏、模糊化处理、数据库授权监控等多种数据安全管理措施,全方位保障数据的安全运作。以亿信华辰为例,数据治理框架如图5。

图5 数据治理框架


3.5数据服务框架
数据中台的最终目的还是为业务提供数据服务,由于数据服务功能将直接面向不确定的外部对象。因此单独建设数据运营,一方面有利于针对外部用户提供针对性功能;另一方面,数据运营模块作为用户与数据中台核心数据服务之间的中间层,可以有效隔离外部用户直接控制、接触核心数据及应用,可保护数据中台的安全性及内部功能的稳定性。综合以上因素, 数据运营应配置运营门户、能力开放、数据开放及运营监控等功能。
  1. 运营门户:对数据中台管理者提供管理门户,对开发者提供开发者门户。对内部应用提供内部应用门户,对外部应用提供外部应用门户。运营门户针对不同的用户提供不同的通道并开放不同的数据中台能力。
  2. 能力开放:把数据中台的数据处理能力、 数据分析能力等经过适当的封装后对用户提供服务,可以是微服务,也可以是API 接口,或者直接提供二次开发能力。
  3. 数据开放:通过数据目录,数据模型展示(可视化、数据视图等)为其他数据应用系统提供数据服务。
  4. 运营监控:对数据中台的总体运营情况 进行监控管理,包括硬件环境、软件环境,并且确定监控指标,按需求提供运营日报,处理告警信息。

4 结语

    数据中台旨在利用数据技术对海量数据进行采集、存储、计算、加工、统一表示,形成规范后的数据API,进而提高数据的共享能力,做好数据治理的前提是建设数据中台。通用数据中台的建设,能实现企业或机构数据资产的高效管理和数据价值最大化,为机构带来了数据平台化的运营机制,有望解决应用开发与数据开发速度不匹配的问题。利用数据中台,可以将机构的核心技术或团队凝聚在一起,建设机构内强大的数据开发、运营等团队,提升机构的团队的硬实力和软实力。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型