睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

快手如何打造标准化的数据治理评估体系?

时间:2022-02-13来源:中国女孩浏览数:482

导读:本次分享的题目为如何打造标准化的数据治理评估体系,如何更高效地开展治理工作。文中将从数据治理的背景入手,介绍快手在开展治理工作时遇到的问题和挑战,以及针对这些问题进行的思考和实践。主要包括以下几部分:

数据治理背景

数据治理评估体系

快手实践效果

未来规划

01数据治理背景

今天的快手已渐成一个大平台,每天处理的数据量非常庞大。不论是面对运营的决策,还是日常的分析,快手都十分依赖数据。随着数据体量增大、数据应用的场景越来越丰富,快手遇到的挑战随之增加,出现成本、数据质量等方面的问题。基于此,需要有针对性的开展治理工作,从而降低数据的复杂度,使得数据能更加简单、高效的供业务使用,从而提升数据价值

数据治理工作过程中常面临以下四个挑战:

数据治理会贯穿整个数仓,数据的链路非常长,从生产端、采集端、加工端每个环节都需要进行治理工作。进行数据治理工作时应解决“如何进行标准化,如何聚焦”的问题。

如何衡量治理工作的效果,如何标准化和量化数据治理的结果。

不同阶段进行治理的聚焦点不同。例如,前期推行规范化的治理,中期关注成本的管控、质量的治理等。如何通过标准化的体系动态调整不同阶段的策略是治理的重点。

深入业务时,各团队面临的业务压力较大,如何提升大家对治理活动的动力是面临的一个挑战点。

基于上述四点,快手落地了一套评估体系方案。

02数据治理评估体系

第二部分重点介绍如何应对上述的四个挑战。

1. 整体方案目标与实施策略

制定的目标包括以下四点:

问题标准化:将治理的问题进行标准化、体系化地划分,通过一套衡量的标准,例如资产健康分刻画为几个标准化维度来衡量;

治理可量化:通过得分的手段进行量化,量化的过程和治理过程相关联;

过程策略化:寻找解决的侧重点和不同阶段面临的不同问题,调整对应的策略权重;

运营有抓手:通过部分手段,让项目和体系更好的落地。

实施的策略包括以下几方面:

元数据驱动:治理工作的基础策略是基于元数据驱动,利用数据来解决数据的问题;

资产健康分:通过资产健康分量化数据,通过五个维度刻画和衡量的数据资产的健康程度:模型分、质量分、成本分、服务分、安全分;

得分策略:通过得分策略进行量化,量化更能让团队或个人能够直观看到资产的好坏。在策略过程中应进行相应的权重策略;

运营机制

治理收益:通过结合得分策略,快手会落地运营手段来保证获得收益。

2. 资产健康评估:模型

(1) 问题

无数据可用,一方面是由于不合理的建设,另外一方面是由于建设的数据没有按照业务的方式进行组织,无法检索到数据;

缺少沉淀和复用,一些公共数据的建设出现口径不一致的问题;

业务反馈使用数据的效率比较低。

(2) 解决方案

针对以上问题,快手从模型服务目标、模型生产阶段和模型设计阶段三方面提出了落地的解决方案。

模型服务目标

模型能够更好的服务业务主要通过以下三个目标的达成来体现:

拥有相对丰富、完整的数据资产;

数据资产能够让业务更方便的检索和查找到;

数据查找到之后能更高效地使用。

结合上述三个目标,我们设计了两个层面的模型管控方案,通过标准的模型建设规范来保障模型的规范设计和规范生产。

② 模型设计阶段

前期数据的需求口径要统一管理;

结合领域数据驱动的思想制定一套模型设计的标准规范;

制定指标的标准定义,对指标进行统一管理;

虚拟小组对模型进行review。

生产阶段

提供一些关键卡点的工具手段进行辅助,通过这些手段保障制定的标准规范更好的落地。其中包含了:

对于整体模型设计和开发代码的规范检查;

数据测试工具,保证测试报告的全覆盖;

对于任务发布的过程,比如review、基线、依赖的配置进行相应的检查;

对于线上不同的资产等级,制定监控规范,例如对不同分层的数据,指定相应的监控规则。

(3) 评估

规范性:规范性涵盖数据的定义、设计、开发、测试和发布,同时模型开发出来之后是要去做业务的,因此对于元数据规范,我们也会进行相应的约束。

复用性:在复用性的视角下,我们更多考虑的是模型的下游依赖数量。对于公共的模型,下游引用的数量越多则说明复用性越好,因此,衡量的指标是模型的宽度。对于深度而言,如果数据生产的加工链路太长,会导致稳定性问题,以及对于模型的抽象程度不足,更多的业务逻辑需要下沉到公共数据进行沉淀

完整性:我们会从完整性的视角来评估数仓建设的数据是相对丰富和完整的。一方面会参考数据跨层的引用率。如果很多面向业务的数据都是从ODS产出,则说明DWD、公共层的数据是建设不够完整的。另一个层面来看,不同分层的模型的设计对应不同的应用场景。比如,面向业务的分析场景,我们希望通过汇总模型提供服务。因此,我们也会关注在不同的场景下,数据在模型中被查询的占比,以此来驱动我们更好地建设数据模型。

3. 资产健康评估:质量

(1) 问题

治理之初我们就会遇到质量方面的问题,这些问题总结起来有以下三方面:

质量问题是贯穿生产的整个环节,链路长,出现的问题多;

有的时候数据研发缺少质量意识。不管是前期的工具能力的建设,还是监控覆盖的缺失,很多问题是通过业务进行反馈的;

前期缺少标准的流程、对问题的沉淀、预案的管理,这就会导致我们遇到的问题都是需要重复的跟进、重复的解决,跟进止损的效率低。

(2) 解决方案

基于质量的问题,快手会分四个层面落地一些解决方案。面对数据的环节我们抽象成三个阶段:数据源、加工链路和线上服务阶段。

数据源阶段

我们的做法包括:

对数据源的规范生产进行相应的约束,落地规范标准;

将质量的监控前置到生产端。

加工链路阶段

整个数据加工的环节都是依托于我们大数据的引擎,对于引擎工具的稳定性保障是我们首要要关注的一个点;

为了在整个加工过程中保障我们的规范更好落地,我们会进行一些工具化的手段、产品化的手段来检测规范是否落地和执行;

同时通过一些数据的加工过程的环节,包括提供一些测试工具让整个测试的过程更加全面,我们进行整体的规范检查。

线上阶段

我们会重点关注两个点:时效性和准确性。我们会通过基线保障这样一个工具方案来进行分级保障。将数据按照不同的等级划分相应的基线,进行相应的时效性保障。关于准确性的保障,我们会通过质检平台落地我们对于业务数据的监控规则。我们如何衡量监控规则的完整度?很多时候大家在做数据发布的时候,会有意识的遵守监控规则,但是,监控规则是不是能够解决具体的问题以及监控规则是否完整,缺少衡量的标准。同时,我们会进行整个监控规则的报警准确率的提升,以此来保证我们所有的报警都是准确的、有效的。

④ 质量管控流程

因为质量的设计牵涉到的环节和团队非常多,这就需要我们统一各个环节,其中包括我们对于整体问题的的提报。不管是我们自身发生的一些问题还是说业务方发生的问题,都统一整合到一个平台类进行管理。我们会有横向小组来跟进问题的分析过程。分析问题不仅仅是看问题是如何发生的,更多的是发现这些问题能不能触发一些横向的改进方案,如何避免同类问题再次发生。一方面是规范落地的问题,另一方面是监控覆盖的问题。我们从一个点去推广到一个面来解决掉同类的问题。我们也会根据统一的SLA标准进行定期复盘,能够让大家对这个事情引起重视。最后,我们会把一些改进方案沉淀下来,这样能够增强我们后续对于同类问题的解决效率。

(3) 评估

从管治的视角来看,如何衡量质量做得好不好?我们从以下三个方面进行分析:

避免问题的发生:通过考察整个过程是不是规范化的判定,整个过程如果是规范化的就能够最大限度地减少质量的问题发生。规范化不仅仅是指数据源是否规范生产,还有加工过程是否规范生产,以及规范的监控覆盖是否全面。

主动发现问题:如果我们达到了第一个层面,更多地,我们期望我们能够自己发现质量问题,不论是通过系统化的能力,还是通过手段来主动的发现。因此,我们第二个考量的评估维度就是尽可能地主动发现问题。我们一方面会去考察监控的覆盖,考察监控的完整性、报警的准确率是否满足要求?另一方面,我们从最顶层视角来看,我们期望通过规范化的保障和监控的保障能够减少质量问题的发生,我们最终也会从顶层去看整个质量问题的结果。

结果指标:主要考察我们的故障和问题数有没有在收敛。问题数我们会去拆成这几个视角:首先我们会拆解成准确性和时效性、基线的破线次数、对于问题的止损效率。

4. 资产健康评估:成本

(1) 问题

基于资产评估成本的视角,我们之前在治理之初也会遇到一些问题:

快手的数据体量很大,庞大的数据体量给我们的成本的管理带来很大挑战;

很多数据的部门,包括业务部门是缺少一些成本的意识;

很多时候,在业务的快速发展期,很多数据更多的是服务业务,但是随着业务的变化或下线,我们的一些数据并没有进行下线或者调整。

(2) 解决方案

大数据引擎优化

首先会通过大数据引擎的能力来解一层,比如,底层会利用EC的能力降低数据的副本、数据的压缩重分布,还有结合我们数据的访问热度。例如,对于一年前或者两年前不重要的数据,我们会做进行冷数据的存储。同时我们会结合业务的优先级进行资源的分级调度,这样能够最大化的利用资源。

数据建设过程优化

在大数据引擎层面解决之后,第二个层面是在数据建设过程中,对成本进行相应的优化:

制定数据资产的等级划分,我们会将数据资产会划分成A1、A2、A3;

对于不同资产等级的数据,我们制定的存储策略和生命周期的策略是不一样的;

同时我们会进行对应的数据重复建设的检测,以此来将一些公共的或重复的模型进行合并;

对大任务进行针对性的性能优化,解决资源浪费;

针对数仓中存储量大的维表进行极限存储的管理。

成本运营管理

Quota管理:我们会给不同的团队划分一些存储的配额,配额能够提升大家对成本的意识。例如,将成本配额比作一个池子,围绕着池子的容量进行资源调配、最大化地应用配额。如果没有最大化地应用,Quota的预算增长、提报都会受到相应的影响;

成本账单:快手会通过成本账单的形式提示用户,清晰地告诉用户对于自身资源的使用情况;

治理榜单:在成本账单的基础之上结合治理榜单推动大家对成本的优化。

(3) 评估

在快手的成本评估策略中会通过顶层指标考察各个团队待治理的成本资源量。我们会从两个视角具体考察各个团队待治理的成本资源量:

无效的视角

对于无效使用,是完全可以释放出来的。对应无效存储量和无效计算量,我们会制定具体的规则。比如就无效使用而言,我们会注意观察数据的访问热度,如果数据在一定周期内的没有被访问,我们会进行相应的下线处理。同时,我们会对数据的分区进行处理,比如有些数据显示每一天存储的数据是一样的,重复存储是无效的。无效计算比如0热度,如果数据每天只有计算没有产出,那么计算量是完全浪费的。因此,我们会对重复的模型进行校验,减少无效计算的任务

异常的视角

异常的视角是指对资源的不合理使用。不合理的使用就存在一定的优化空间。对于异常的规则比较多。对于异常的存储,一方面,对生命周期不合理的资产,我们会进行相应的治理,让大家去解决。对于明细层、可恢复的这种数据,存储的时间太长,肯定是不合理的。同时我们结合引擎层面的能力,查看是否进行EC或者是压缩的存储格式,是否对数据进行相应的归档,或者是否对一些相似分区进行检查等。

对于异常的计算,我们会考察任务的失败次数。对于任务而言,如果结果是成功的,但过程中算错了好几次了,那么其计算错误中的计算资源是需要一定的优化。我们对于出现申请资源和实际使用的资源不相匹配的情况,我们也会进行治理。同时我们也会去观察任务生产的小文件数量,如果小文件太多就会导致下游在使用的时候会产生过大的map,从而导致资源的浪费。此外,我们也会评估小时任务,小时任务对资源的使用要乘以二十四。所以,我们会考察一些业务的场景,如果考察的业务场景不是小时业务的服务场景,我们会重新评估是否使用小时的计算任务。这个是我们对于成本的评估。

5. 资产健康评估:得分策略

上面我们讲述了如何从管治的视角,对模型、质量、成本进行相应的资产的健康评估。我们还需要一套得分策略进行量化,例如量化资产健康评估的成本评估分数、质量分数、模型分数以及如何进行改进。

得分策略需要解决的问题有以下三点:

不同的指标或者衡量的评估体系是不同量纲的,有时可能是看到具体的问题,有时可能看到的是一个不规范的占比,有时可能看到的是数据存储量级的浪费,因此我们要寻求如何将不同量纲的指标进行统一;

治理和最终得分的成果需要反馈,针对治理动作和最终得分需要反馈机制的体系。进行治理不单单要解决这个问题,还要提高相应的分数,比健康度需要得到相应的提升;

阶段侧重。

结合上述三个问题,我们需要针对得分制定相应的策略方案:

Max-Min、拟合百分制:基于Max-Min的方法将不同量纲的进行规划,将这些不同的指标能够拟合到百分制下进行比较。

基于变异系数法:我们会基于变异系数法对整个数据本身的指标反馈结果,学习到动态的策略权重的生成。比如,有一个基础的点,如果针对这个指标大家做的都很好,其权重会变低。我们重点解决了一些问题,例如有的指标是有规范且做得好,但还没有做得特别好,我们相应的会把这些权重进行提升,这是在自动化的权重。

此外,我们会进行人工调整,例如,有的阶段我们更关注成本的问题,有些阶段更关注质量的问题。我们会在一定的周期内将我们对于这些指标中的一级类目的权重进行相应的调整从而体现并来解决我们治理的侧重点,比如这个阶段我们会重点从管治视角推动大家解模型、解质量、解成本。有了得分的策略之后,我们会结合运营的一些机制来保障治理的方案的落地。

6. 运营机制

(1) 提升意识

我们从管治视角通过定期的、具有规范的宣导和培训强调治理的意识。提升我们对于质量的意识,对成本的意识,以及对模型的意识。

(2) 驱动治理

结合定期的运营,驱动治理。大家进行相应的治理的规则的解决,比如我们会结合上文介绍的得分体系生成一个治理榜单,这个榜单中包含了整体的健康分的榜单。我们会注意不同维度下的榜单,我们也会定期的运营榜单。比如做得最差的黑榜,我们会指出并提醒改进。

(3) 激励

除了驱动之外,我们会通过新的手段提高大家的积极性,激励策略体现在以下几个方面:

我们能够让大家看到解决问题带来的最终受益;

定期评选优秀的治理的团队或个人,同时结合规章增强大家的积极性,从而反向驱动整体意识的提升。

(4) 软性与硬性运营机制相结合

除了一些软性的运营机制外,我们会结合一些强硬的运营手段从而保证治理动作更好地落地。很多时候我们会将整个治理的动作和生产环节打通。在评估体系之下,如果数据资产做得很差,我们会限制生产权限。对于成本而言,在Quota的范围之内,如果成本分比较低,则说明用户没有最大化地利用已有的计算资源和存储资源,这个时候用户的优先级或计算的资源的配额申请都会受到相应的限制。

7. 治理收益评估

如何在治理之后衡量结果?我们会从以下四个层面衡量最终治理的收益,将收益进行量化评估:

(1) 成本收益

成本是比较直观和显而易见的,我们可以直观地看到给公司节约了多少的计算和存储资源。

(2) 质量收益

我们非常关注质量有没有得到改进,我们会关注故障最终的问题数量有没有收敛,以及我们对于时效的达标提前分钟数。

(3) 人效收益

我们会通过工具化、平台化的手段来推动管治,而不是说通过人力治理,我们会关注治理人效的提升。

(4) 价值收益

就数据管治的推动而言,其核心目标是能够让数据的价值最大化。因此,我们会去定期调查并收集业务对数据的满意度。

综上,我们从几个层面介绍了在快手我们如何将在治理遇到的问题通过评估体系进行落地解决。

03快手实践效果

接下来,我们会给大家介绍在过去的推动下,我们带来的实际收益的效果。

上图是一张展示治理平台的截图,我们将整个数据资产的评估体系通过平台化落地。在这个平台上,我们将资产分别从四个维度刻画健康结果。健康结果是从不同的团队和个人生成的榜单,平台的功能还没有全部展示,还有一些包括治理收益的榜单。我们还会结合健康分支背后,指引如何通过治理提升健康分,这个治理的指引会告诉用户:模型规范是否充足、模型监控是否配备、成本利用是否过低,我们会进行相应的诊断并结合问题的诊断进行相应的指引治理,会告诉用户如何来提升健康分。

我们会从四个维度进行综合评估。在评估之初,数仓健康指数的整体评分是比较低的,只有58分,经过一段时间的治理,现在指数整体达到了77分,我们在数据研发的治理参与度超过95%。

在成本收益上,我们为公司节约存储和计算资源;

在人效收益上,我们通过平台化和体系化的治理落地,解决定期的、专项式的治理,并通过平台化工具提升大家的治理效率;

在质量收益上,我们通过阶段性的事件和质量的监控治理,使治理问题和故障得到了相应的收敛,质量故障和问题数降低超过40%;

我们会定期进行业务对数据部门的满意度调查,我们发现业务对于数据的体感得到了显著提升。

前面说到了我们的整个治理的评估体系是作为快手在数据管治落地中的一环,从这张架构图可以看到管治体系的思路。最下面是整个原数据体系的建设。因为不论是评估体系还是治理的归因都会基于元数据进行分析,所以对于元数据,我们会进行建设,包括资产、加工过程、质量、服务的元数据。结合元数据,我们基于上文所述的标准化评估体系来衡量大家的资产健康状况。衡量之后,我们就可以发现哪里出了问题,发现问题之后,我们会结合治理的能力,帮助大家解决治理问题。

最终,我们会通过统一的资产管治平台对用户进行统一透传,将整个管治体系整合在一起。我们会针对整个数据进行横向的统一规范。

04未来规划

未来的规划会从以下两方面进行思考:

1. 治理前置

我们会将一些治理的动作进行前置。我认为最优的治理是不需要治理的,很多时候可以在生产阶段就可以解决问题。比如对于一些规范性的问题,仅仅通过推广规范标准是远远不够的,还需要通过相关工具化进行约束,这样就可以在生产环节将一些待治理的问题解决掉。

2. 提高治理效率

在我们现有的基础上,还需要提高治理的效率,我们会把治理的动作进行一键化、平台化的打通,让大家一键治理。比如一键表删除或者调整生命周期需要从治理平台跳到其他平台,未来我们希望治理的所有环节和治理的动作能够在一个平台内完成闭环,这样可以最大化的降低治理的时间成本。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询