睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据资产治理的策略和工具建设思路

时间:2022-12-04来源:晚来天欲雪浏览数:289

01、前言

这一期,我们来聊聊数据治理最最核心的部分——数据资产治理,本文主要阐述数据资产治理的策略和工具建设思路。

02、基本概念

广义的数据资产涵盖一切非结构化、半结构化和结构化数据,狭义的数据资产主要包括业务侧的业务日志、流数据的topic、批数据的数据表、生产调度任务/作业,模型层的指标、维度和数据集,应用层的报表、API、应用/服务等,本文主要面向狭义的数据资产,其中又以大家接触最多的数据表、数据指标、报表为主。

03、问题分析

1)用户A是数据开发工程师,对数据表结构和内容较为熟悉,日常工作内容主要是数据采集、数仓建模(ETL)和运维问题排查,主要需求查询数据表上下游生产链路及生产调度作业的执行情况,同时也会随机探查数据字段、枚举值和定义函数等内容来辅助进行数据开发。

2)用户B是业务侧数据分析师,具备基本的数据挖掘分析能力,日常工作主要是面向业务一线产出数据分析报告、配置业务指标和报表,需要根据业务需求查询的数据存储在哪张数据表,以及知悉数据表内各字段的定义、枚举值等,从而确定是否满足查询需求。

3)用户C是数据管理人员,对数仓建模规范和数据口径定义比较熟悉,日常工作主要是规范数据开发流程、降低数据资源存储和开发成本,同时保障业务报表产出及时性和质量,希望资产中心能提供统一的口径维护、资产监控评测等能力。

图表1:资产中心典型代表用户需求场景分析

04、治理目标

综上,数据资产中心的核心用户是各业务侧的数据分析师、产品经理、数据运营等用户,他们构成了数据资产中心的消费端,是数据资产得以流通并进而产生交换价值的关键,而资产中心供给端的用户群体主要是数据开发者和数据管理者。

因此,面向消费端,资产中心主要解决找人找数和有好数的痛点,核心治理目标为保障数据资产元信息的完整性、规范性和一致性,面向供给端,资产中心主要解决生产开发提效、资源成本管控的痛点,治理目标为降本增效。

05、行业调研

研究近年来主要数据论坛上各大厂数据资产中心的建设经验,特选取滴滴和腾讯作为调研目标,详情如下:

1. 滴滴数据梦工厂

1)场景分析:如图表2所示,滴滴主要数据资产分为人、路、车三类,主要呈现出数据量极大、结构化数据占比高、数据安全等级高等特点,主要需求为数据资产成本治理、数据安全治理和数据质量治理。

图表2:滴滴数据资产特点

2)解决思路:

如图表3所示,滴滴内部将数据服务化、指标管理平台和资产管理平台统一为数据内容建设领域,定位为向上服务各类数据应用平台,向下对接数据开发平台的中间公共数据层,以数据内容为抓手,资产管理平台统一作为数据资产元信息采集和管理的工具,通过指标管理平台规范资产口径和质量,再通过数据服务化将数据资产服务到业务团队。

图表3:滴滴数据平台业务架构

如图表4所示,滴滴将数据资产平台的使用对象设计为两类,一类是数据的加工者,一类是数据的管理者,数加工者承担各类资产的日常生产管控,数据管理者承担各类资产的资源成本和安全管控工作。

图表4:滴滴数据资管理平台使用对象设计

3)产品介绍:图表5为滴滴资产管理平台主要功能模块的分享样图

2. 腾讯游戏数据资产管理平台

1)场景分析:如图表6和图表7所示,腾讯游戏旗下包含上百款各类端游、页游和手游,数据量极大,存在数据多样缺乏统一标准、口径定义不一致、链路质量不高无法快速定位问题、数据价值和成本难以评估等痛点。

图表6:腾讯游戏大数据运营概况

图表7:腾讯游戏数据资产问题痛点

2)解决思路:腾讯游戏对资产治理主要构建了两大体系,分别是数据资产的元数据管理体系和数据资产价值的评估体系,其中元数据管理体系涉及元数据应用、元数据管理、元数据存储和元数据采集等范畴,数据资产价值评估体系则主要从热度、广度和收益度三个视角进行评估,详情如下:

图表8:腾讯游戏资产管理平台元数据管理体系架构设计

图表9:数据资产价值评估体系架构设计

图表10:数据资产热度“冰-冷-温-热”评估模型

图表11:数据资产广度“微-小-中-大”评估模型

图表12:数据资产收益度“差-中-良-优”评估模型

3)产品介绍:

图表13:腾讯游戏数据资产管理平台主要模块分享样图和功能描述

3. 调研总结

分析滴滴和腾讯的分享内容,发现两家头部公司对数据资产治理都有一个相同点,即将各类数据资产治理通过平台化的手段去落地实施,都关注到了资产的元数据规范性、安全性和成本,都提供了数据资产检索和血缘链路检索等服务。在侧重点上,滴滴的资产管理工具更加丰富和成熟,考虑到了数据生产者和管理者的痛点,而腾讯的亮点在于对数据资产价值评估体系的独特设计,以上经验均值得我们借鉴和学习。

06、产品架构

如图表14所示,数据资产中心一共分为三层,分别是服务层、管理层和采集层,其中服务层面向数据分析师、数据产品、业务运营等数据消费端用户,提供数据资产检索相关服务能力;管理层主要面向数据资产管理者,主要代表为各业务线产品/技术团队的数据产品经理、研发工程师和主要负责人,提供数据资产录入和维护能力,提供资产成本治理服务;采集层主要面向各数据来源方,包括但不限于埋点元信息采集、业务数据库元信息采集、报表/指标元信息采集、人员组织信息采集等等,同时,采集完的元信息,需要资产维护和管理者按照管理层提供的统一模型进行定义落库。

图表14:数据资产中心产品架构设计图

07、产品设计

1. 数据接入

产品定位:如图表15,数据资产中心核心是各类数据资产元信息的中央数据库,各类数据资产的元信息采集主要分为上游业务系统自动采集和资产中心前端页面手工输入两部分,因此,数据接入模块承担了资产中心开源和标准定义的职能。

图表15:数据资产中心元信息采集示意图

规范定义:数据资产中心需要采集hive、kafkatopic、clickhouse、druid、报表、指标、API等等结构各异的资产元信息,针对各类异构数据进行统一定义并整合分析绘制出数据地图是资产中心需要解决的主要问题,系统设计伊始便要考虑各类资产的复杂性和差异性以及未来的通用性,因此,如果不定义一套统一的元信息收录采集标准,则随着数据资产的收录一定会出现资源管控成本和元信息质量降低等问题。在此,如图表16和图表17,我们抽象出一套可以通用化定义各类数据资产的元信息模型,以解决上述问题:

图表16:数据资产中心元信息采集模型设计图

图表17:主要类目属性定义举例

2. 数据地图

资产检索:如图表18所示,支持普通搜索、高级搜索,同时向用户推荐结构化整理的知识图谱

图表18:资产检索首页DEMO

资产详情:资产详情页展示资产的基础信息、业务信息和技术信息,同时提供权限申请、资产收藏、血缘链路查询、快捷取数、SQL模板生成等能力

图表19:资产详情页DEMO

图表19:资产详情页DEMO

3. 资产维护

如图表20,数据资产中心提供了管理者视角的资产录入和维护界面,支持以资产中心为统一维护平台进行资产维护,保障资产元信息的及时更新

图表20:资产元信息维护DEMO

图表20:资产元信息维护DEMO

4. 资产治理

质量分析:资产治理提供数据资产质量测评和分析报告,通过计算资产元信息完整度、规范性、重复性等来进行分析评估

图表21:数据资产质量测评和分析报告DEMO

治理榜单:分为个人榜和团队榜,综合计算所负责资产的质量(完整性、规范性、唯一性等)分、成本分(存储成本和增长趋势等)、评价分(用户评价、查询热度等)来进行排名,提供日排名、周排名和月排名,每个月重置一次数据。

图表22:数据资产治理榜单DEMO

5. 资产交接

资产中心提供一站式资产交接处置能力,减少因离职造成的资产无人维护和安全隐患

图表23:资产交接模块DEMO

08、未来展望

通过以上内容介绍,目前国内作者能接触到的主流数据资产管理平台的主要功能就都基本介绍完毕了,展望未来,我认为,资产中心基于它数据内容采集和管理的特点,其实是可以深入到数据应用和服务领域,通过先进的搜索和AI算法,快速提供轻量化的数据可视化、数据分析和归因预测等服务,在满足业务找人找数的需求上,直接反馈数据结论,简化后续业务找到数据后再去分析数据的流程,提高数据分析效率。

参考国外已有产品,比如ThoughtSpot(一款基于搜索引擎的数据报表自动化生产的工具),如图表24所示,以搜索为切入点,基于元数据之间的关联和构建,快速推荐和绘制可视化图表,提供轻量化配置能力,快速满足用户数据分析需求:

图表24:智能搜索分析产品ThoughtSpot

又比如Einstein Discovery(见图表25),基于用户的数据自动关联,并从中对数据内容进行分析和解读,并将分析结果以自然语言的方式为用户提供解读报告,快速且轻量化地回答用户:“发生了什么?为什么会发生?即将发生什么?需要怎么做?”:

图表25:Einstein Discovery介绍

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询