睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据资产中心架构设计

时间:2022-03-23来源:巴黎恋浏览数:642

数据治理第3期 | 数据资产中心架构设计

一、前言

在数据治理系列文章的第1期,我们聊了数据治理的基本概念、治理目标和治理策略(详情见:https://mp.weixin.qq.com/s/199EEw_JX3i3e_yq_R8YPg),这一期,我们来聊聊数据治理最最核心的部分——数据资产治理,本文主要阐述数据资产治理的策略和工具建设思路。

二、基本概念

广义的数据资产涵盖一切非结构化、半结构化和结构化数据,狭义的数据资产主要包括业务侧的业务日志、流数据的topic、批数据的数据表、生产调度任务/作业,模型层的指标、维度和数据集,应用层的报表、API、应用/服务等,本文主要面向狭义的数据资产,其中又以大家接触最多的数据表、数据指标、报表为主。

三、问题分析

1)用户A是数据开发工程师,对数据表结构和内容较为熟悉,日常工作内容主要是数据采集、数仓建模(ETL)和运维问题排查,主要需求查询数据表上下游生产链路及生产调度作业的执行情况,同时也会随机探查数据字段、枚举值和定义函数等内容来辅助进行数据开发。

2)用户B是业务侧数据分析师,具备基本的数据挖掘分析能力,日常工作主要是面向业务一线产出数据分析报告、配置业务指标和报表,需要根据业务需求查询的数据存储在哪张数据表,以及知悉数据表内各字段的定义、枚举值等,从而确定是否满足查询需求。

3)用户C是数据管理人员,对数仓建模规范和数据口径定义比较熟悉,日常工作主要是规范数据开发流程、降低数据资源存储和开发成本,同时保障业务报表产出及时性和质量,希望资产中心能提供统一的口径维护、资产监控评测等能力。

图表1:资产中心典型代表用户需求场景分析

用户

用户特点

痛点分析

用户功能诉求

用户A

研发工程师

懂数据生产和建模过程

懂数据结构

知晓基本数据源存储内容和规范

数仓建模需要频繁对各业务数据源进行数据探查,需要精确找表,并知悉数据表字段定义和描述,知悉字段属性和分区划分等内容

运维问题排查需要知悉数据表血缘链路、关联上下游任务/作业

通过搜索快速找表

字段探查

血缘探查

任务/作业探查

用户B

业务数据分析师

具备基本的SQL取数能力

具备基本指标、数据集和报表配置能力

日常工作业务多样性场景复杂性较高,需要频繁咨询相关业务负责人,对齐口径和注意事项

需要快速获悉业务统计指标的来源和统计方法,从而快速完成SQL取数和报表配置工作

频繁获取各类数据,需要快速申请到权限

通过搜索/知识图谱快速找人找数

字段业务定义、口径描述完整清晰

字段探查

快速权限申请

用户C

数据管理人员,向上对接业务方,向下对接研发工程师

工作职责为推动资产规范性和质量治理

数据通用性知识较强,但不参与数据开发,也不参与业务

对接供方,需要提高数据规范生产积极性,及时发现并推动治理劣质数据

对接需方,需要提升数据丰富度,提升数据使用的积极性和满意度

规范数据资产录入和维护

数据资产质量监测

数据资产成本监测

数据资产安全治理

四、治理目标

综上,数据资产中心的核心用户是各业务侧的数据分析师、产品经理、数据运营等用户,他们构成了数据资产中心的消费端,是数据资产得以流通并进而产生交换价值的关键,而资产中心供给端的用户群体主要是数据开发者和数据管理者。

因此,面向消费端,资产中心主要解决找人找数和有好数的痛点,核心治理目标为保障数据资产元信息的完整性、规范性和一致性,面向供给端,资产中心主要解决生产开发提效、资源成本管控的痛点,治理目标为降本增效。

五、行业调研

研究近年来主要数据论坛上各大厂数据资产中心的建设经验,特选取滴滴和腾讯作为调研目标,详情如下:

1. 滴滴数据梦工厂

1)场景分析:如图表2所示,滴滴主要数据资产分为人、路、车三类,主要呈现出数据量极大、结构化数据占比高、数据安全等级高等特点,主要需求为数据资产成本治理、数据安全治理和数据质量治理。

图表2:滴滴数据资产特点

2)解决思路:

如图表3所示,滴滴内部将数据服务化、指标管理平台和资产管理平台统一为数据内容建设领域,定位为向上服务各类数据应用平台,向下对接数据开发平台的中间公共数据层,以数据内容为抓手,资产管理平台统一作为数据资产元信息采集和管理的工具,通过指标管理平台规范资产口径和质量,再通过数据服务化将数据资产服务到业务团队。

图表3:滴滴数据平台业务架构

如图表4所示,滴滴将数据资产平台的使用对象设计为两类,一类是数据的加工者,一类是数据的管理者,数加工者承担各类资产的日常生产管控,数据管理者承担各类资产的资源成本和安全管控工作。

图表4:滴滴数据资产管理平台使用对象设计

3)产品介绍:图表5为滴滴资产管理平台主要功能模块的分享样图

图表5:滴滴数据资产平台主要模块分享样图和功能描述

功能

分享样图

功能描述

业务图谱

将业务数据进行结构化的拆分,以拓扑形式进行展示,方便用户结构化的找到数据

数据检索

提供数据表、特征、指标、维度、埋点等数据资产的智能检索功能

数据血缘

提供各类数据资产血缘依赖查询和展示功能

资源管理

提供各类数据资产存储和计算成本通晒服务

2. 腾讯游戏数据资产管理平台

1)场景分析:如图表6和图表7所示,腾讯游戏旗下包含上百款各类端游、页游和手游,数据量极大,存在数据多样缺乏统一标准、口径定义不一致、链路质量不高无法快速定位问题、数据价值和成本难以评估等痛点。

图表6:腾讯游戏大数据运营概况

图表7:腾讯游戏数据资产问题痛点

2)解决思路:腾讯游戏对资产治理主要构建了两大体系,分别是数据资产的元数据管理体系和数据资产价值的评估体系,其中元数据管理体系涉及元数据应用、元数据管理、元数据存储和元数据采集等范畴,数据资产价值评估体系则主要从热度、广度和收益度三个视角进行评估,详情如下:

图表8:腾讯游戏资产管理平台元数据管理体系架构设计

图表9:数据资产价值评估体系架构设计

图表10:数据资产热度“冰-冷-温-热”评估模型

图表11:数据资产广度“微-小-中-大”评估模型

图表12:数据资产收益度“差-中-良-优”评估模型

3)产品介绍:

图表13:腾讯游戏数据资产管理平台主要模块分享样图和功能描述

功能

分享样图

功能描述

资产目录

展示各类数据资产数量和占比

成本管控

展示数据资源存储和计算的成本和趋势

数据血缘

提供各类数据资产血缘依赖查询和展示功能

安全管理

提供各类数据资产安全等级和监控报警数据

资产价值评估

提供各类数据资产价值评估模型分值和占比

3. 调研总结

分析滴滴和腾讯的分享内容,发现两家头部公司对数据资产治理都有一个相同点,即将各类数据资产治理通过平台化的手段去落地实施,都关注到了资产的元数据规范性、安全性和成本,都提供了数据资产检索和血缘链路检索等服务。在侧重点上,滴滴的资产管理工具更加丰富和成熟,考虑到了数据生产者和管理者的痛点,而腾讯的亮点在于对数据资产价值评估体系的独特设计,以上经验均值得我们借鉴和学习。

六、产品架构

如图表14所示,数据资产中心一共分为三层,分别是服务层、管理层和采集层,其中服务层面向数据分析师、数据产品、业务运营等数据消费端用户,提供数据资产检索相关服务能力;管理层主要面向数据资产管理者,主要代表为各业务线产品/技术团队的数据产品经理、研发工程师和主要负责人,提供数据资产录入和维护能力,提供资产成本治理服务;采集层主要面向各数据来源方,包括但不限于埋点元信息采集、业务数据库元信息采集、报表/指标元信息采集、人员组织信息采集等等,同时,采集完的元信息,需要资产维护和管理者按照管理层提供的统一模型进行定义落库。

图表14:数据资产中心产品架构设计图

七、产品设计 1. 数据接入

产品定位:如图表15,数据资产中心核心是各类数据资产元信息的中央数据库,各类数据资产的元信息采集主要分为上游业务系统自动采集和资产中心前端页面手工输入两部分,因此,数据接入模块承担了资产中心开源和标准定义的职能。

图表15:数据资产中心元信息采集示意图

规范定义:数据资产中心需要采集hive、kafkatopic、clickhouse、druid、报表、指标、API等等结构各异的资产元信息,针对各类异构数据进行统一定义并整合分析绘制出数据地图是资产中心需要解决的主要问题,系统设计伊始便要考虑各类资产的复杂性和差异性以及未来的通用性,因此,如果不定义一套统一的元信息收录采集标准,则随着数据资产的收录一定会出现资源管控成本和元信息质量降低等问题。在此,如图表16和图表17,我们抽象出一套可以通用化定义各类数据资产的元信息模型,以解决上述问题:

图表16:数据资产中心元信息采集模型设计图

图表17:主要类目属性定义举例

序号

父级类目

子类目

属性描述

1

全局公共属性

唯一标识

资产描述

创建时间

变更时间

负责人

资产等级

2

HIVE

HIVE数据库

数据库名:数据库名称

数据库中文名称:数据库中文名称

数仓分层:根据目前规范约定的记录模型分层信息

数仓分层描述信息:用于前端页面展示

3

HIVE数据表

数据表名:数据表名

数据表中文名:数据表中文名

数据表类型:事实表/维表

所属库:记录数据表所属数据库

创建人:记录数据表创建人

数据同步周期:记录数据同步周期

数据主题:根据目前规范约定记录数据主题信息

数据主题描述信息:用于前端页面展示和搜索内容

业务线:根据目前规范约定记录业务线信息

业务线描述信息:用于前端页面展示和搜索内容

4

HIVE数据字段

字段名称:字段名称

所属数据表:该字段属于哪个数据表

数据类型:字段数据类型

是否为分区字段:是否是分区字段

字段枚举值:枚举字段的枚举值

字段样例:字段值抽样

5

数据指标

原子指标

指标名:指标名称

指标中文名:指标中文名称

来源数据表:记录指标所属数据表

数据域:根据目前规范约定记录数据域信息

业务过程:指标所属业务过程

指标类型:原子指标/派生指标

指标单位:指标单位

指标计算周期:指标的计算周期

修饰词:记录指标所有修饰词

指标算法:记录指标计算SQL

可选维度:记录指标所有可选维度

6

复合指标

父级指标

其他同上

2. 数据地图

资产检索:如图表18所示,支持普通搜索、高级搜索,同时向用户推荐结构化整理的知识图谱

图表18:资产检索首页DEMO

资产详情:资产详情页展示资产的基础信息、业务信息和技术信息,同时提供权限申请、资产收藏、血缘链路查询、快捷取数、SQL模板生成等能力

图表19:资产详情页DEMO

3. 资产维护

如图表20,数据资产中心提供了管理者视角的资产录入和维护界面,支持以资产中心为统一维护平台进行资产维护,保障资产元信息的及时更新

图表20:资产元信息维护DEMO

4. 资产治理

质量分析:资产治理提供数据资产质量测评和分析报告,通过计算资产元信息完整度、规范性、重复性等来进行分析评估

图表21:数据资产质量测评和分析报告DEMO

治理榜单:分为个人榜和团队榜,综合计算所负责资产的质量(完整性、规范性、唯一性等)分、成本分(存储成本和增长趋势等)、评价分(用户评价、查询热度等)来进行排名,提供日排名、周排名和月排名,每个月重置一次数据。

图表22:数据资产治理榜单DEMO

5. 资产交接

资产中心提供一站式资产交接处置能力,减少因离职造成的资产无人维护和安全隐患

图表23:资产交接模块DEMO

八、未来展望

通过以上内容介绍,目前国内作者能接触到的主流数据资产管理平台的主要功能就都基本介绍完毕了,展望未来,我认为,资产中心基于它数据内容采集和管理的特点,其实是可以深入到数据应用和服务领域,通过先进的搜索和AI算法,快速提供轻量化的数据可视化、数据分析和归因预测等服务,在满足业务找人找数的需求上,直接反馈数据结论,简化后续业务找到数据后再去分析数据的流程,提高数据分析效率。

参考国外已有产品,比如ThoughtSpot(一款基于搜索引擎的数据报表自动化生产的工具),如图表24所示,以搜索为切入点,基于元数据之间的关联和构建,快速推荐和绘制可视化图表,提供轻量化配置能力,快速满足用户数据分析需求:

图表24:智能搜索分析产品ThoughtSpot

又比如Einstein Discovery(见图表25),基于用户的数据自动关联,并从中对数据内容进行分析和解读,并将分析结果以自然语言的方式为用户提供解读报告,快速且轻量化地回答用户:“发生了什么?为什么会发生?即将发生什么?需要怎么做?”:

图表25:Einstein Discovery介绍

九、附录:参考资料

1. 滴滴、腾讯分享材料来源于“2019中国数据智能管理峰会”对外分享材料

2. 资产治理策略参考美团技术团队公众号发文:数据治理一体化实践之体系化建模

3. 未来展望部分来源:

数据智能搜索推荐:https://www.thoughtspot.com/

爱因斯坦发现:《Salesforce Einstein Discovery White Paper》

后人的成功是站在前人的肩膀上实现的,以上资料在作者对数据资产治理思路领悟过程中提供了非常重要的参考素材,在此特别鸣谢以上公司/团队/个人/组织方!


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询