睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

陈远光:数据治理一体化架构在MobTech金融风控场景下的实践

时间:2022-01-24来源:人帅被人欺浏览数:104

       导读:本文将分享MobTech在数据治理、数据安全领域的一些实践,主要包括以下几部分内容:

数据治理与安全概述——主要介绍数据治理的必要性及好处,企业为什么要做数据治理及从哪些维度做数据治理;

金融行业现状与背景——以MobTech公司金融板块数据为案例,介绍金融行业的数据特点及数据治理的严格性及必要性;

数据治理一体化架构——分享MobTech数据治理一体化架构的迭代和成型过程;

数据治理一体化建设——详细介绍MobTech在数据治理方面的一些经验。

       01数据治理与安全概述

       数据治理是一整套的方法论,成熟的数据治理应该是一个体系化、模块化、工程化的工作,具有一套严谨科学的方法论。数据治理是一个很大的范畴,元数据、数据与安全、数据脱敏等方向都有很大的建设空间。

       1. 数据治理定义


       ① 什么是数据治理

       类似“有江湖的地方就有是非”,同样,有数据的地方就需要数据治理。数据治理就是对一个机构(企业或政府部门)的数据,从收集融合到分析管理、评估、指导和监督(EDM)的过程,通过提供不断创新的数据服务,为企业创造价值。

       ② 企业数据治理的现状

       对于很多大数据公司而言,面对海量的数据、不同的数据源、不同的使用人员、不同的业务分析需求、不同的应用方式,如果数据规划管理不当,就很容易出现如下4个问题:

       系统林立,数据孤岛:很多企业包括很多大的银联集团,它们有很多部门或很多子公司,需要考虑数据如何融合打通?如果数据只是各自使用各的,打通不了,就会造成对数据挖掘深度不够、也无法规划如何使用,这样就形成了数据孤岛。

       数据冗余,缺乏规划:如果数据不做统一的管理规划,随着数据规模越来越大,就会造成数据存储混乱。比如因建模不合理、每次使用数据都是单次结果导向型,没有统一数据规划,就会造成大量的数据存储浪费和管理混乱。尤其对于头部互联网公司或者专门的数据公司来说,每年可能付出超过上千万的数据运维成本。

       需求繁杂,管理不力:如果对数据使用的需求不明确、不统一,就会造成大量的二次开发浪费、数据重复利用率低。

质量低下,价值难现:在数据治理前,存在的最直观的问题就是数据质量低下、数据价值难以体现出来。如果企业数据质量低下,就会造成企业对数据的挖掘深度不够,数据的实际价值无法展示出来。

       2. 数据治理意义

       既然数据存在很多问题,企业要投入人力成本或者花费很大的精力去做数据治理,那么数据治理的好处有哪些呢?主要有以下几方面:

       降低企业成本

       首先最直观的好处就是对企业来说数据治理能降低企业成本。尤其对于数据规模大的公司,比如像我们MobTech袤博公司每年生产上百PB以上的数据规模,如果不做数据治理,可能每年就有30%数据存储的冗余空间,每年数据运维都可能是上百万、上千万的运维成本。开展数据治理可有效降低数据存储规模,优化计算使用资源,能够有效节省很多服务器,实现服务器资源复用。

       加强数据安全

       完整的数据治理体系,可有效加强数据安全。当前,对于很多公司来说,数据就是公司资产,数据安全是非常重要的。国家对于数据的管控也越来越严格,如欧盟2018年5月25日出台的GDPR(《General Data Protection Regulation》通用数据保护条例)、中国2021年9月1日起施行的《中华人民共和国数据安全法》等,公司要确保数据安全不泄露,就需要完整体系化的开展数据治理工作,做到数据合规、敏感数据脱敏处理、数据交互安全管控等,保障数据安全。

       保障数据质量

       数据治理,可有效保障数据的质量。对于企业尤其是像MobTech袤博等一些数据公司来说,提供给客户的很多数据都要求毫秒级的延迟,要保证给客户交付数据的及时性,T+1的数据及时生成实时数据,在数据准确性、一致性保证下数据及时产出,这都需要在保证数据质量的前提下才能做到,这需要一个体系化的数据治理工程体系建设。

       提升数据价值

       可以通过合理的数据建模、合理的数据清洗规则、挖掘算法等提高企业的数据价值。

       3. 数据治理链路

       数据治理有那么多好处,那么需要从数据哪些环节、哪些方面开展数据治理工作呢?

       数据治理是一个全链路的过程,从数据的生成到最终数据的消亡,或者是永久的保存,都需要进行数据治理。一般主流公司数据流向是从数据采集开始,经过数据存储、数据分析到数据输出。数据治理则面向数据流向各环节展开,其中,

       数据采集时确保数据是否符合标准规范、脱敏是否合规;

       数据存储时如何保证数据安全稳定的存储,或保证数据的及时性、完整性;

       数据分析时,数据分析模型是否精准、算力是否合理;

       数据输出给用户或者自己使用时,如何做好数据的权限管控、风险评估。

       因此,整个数据治理可以从数据的全链路、全生命周期去考虑,任何一个模块都可以做一个精细化的管理,更要结合公司实际业务需求,站在公司实际业务应用场景来谈数据治理。

       4. 数据治理范畴

       数据治理既然是一个全链路的,那么可以抽象成哪些模块去做数据治理呢?,这里认为可以抽象出四大模块:

       一是数据安全

       数据安全是最基本、且贯穿数据全生命周期的。它包括容灾、数据加密、隐私数据脱敏、完整健全的数据审核或审计制度、数据分级管理等。这样,可通过数据容灾做异地机房的灾备,保证数据物理层面的安全;数据采集在网络传输中是否采用加密方式;隐私数据是否采用脱敏化、模糊化处理;数据使用是否建立健全完整的数据审核或审计的制度;数据是否有分级管理,尤其公司上百PB乃至上千PB的数据,因成本负担无法做到所有数据的统一监控,就可以把数据分级处理,隐私数据或重要数据分级,明确哪些人可以使用,哪些数据需要监控等等。数据安全也可以以模块化方式去做安全监控管理。

       二是数据规范

       从数据采集、数据标准、模型建设、数据开发、数据应用、指标体系等方面建立健全完整的数据规范。如:数据采集是否有采集规范、是否符合国家法律法规;数据传输、使用是否符合数据安全;数据标准方面,是否可能涉及数仓的重复建设?在数据多、数据源混乱、业务场景复杂情况下,数据如何建设等。比如:保证数据一致性,是通过SEX,还Male、Female,这些是需要统一一个字段去定义、去约束;模型建设方面,统一标准开展模型建设,后期维护也方便;数据开发规范方面,包括简单的注释、开发流程、如何上线等;数据应用方面,可能存在公司拥有海量数据存储或计算时数据应用规范可能更明确,数据量少的公司可能没有严格的数据应用规范的情况。但对于数据应用方式不同,如是多维应用、还是自己使用,是给客户使用、还是通过导入第三方共同使用(如联邦建模的方式),可通过不同的应用体系做不同的应用规范建设。

       三是资产管理

       大数据本质解决两个问题,一个是海量数据存储,一个是海量数据的计算。所有数据标准、安全等数据治理都是围绕这两个方面展开的。既然数据是企业的资产,那就需要有资产管理,包括元数据管理、血缘图谱分析、生命周期管理/数据版本管理、资产统计、成本核算、应用/权限管理。其中,元数据管理,通过分析算力元数据、分析任务资质信息,可以做最基本的数据存储治理、库表治理;通过血缘,可以做血缘图谱分析、任务链路的分析、数据流转分析、数据的调用分析等;生命周全管理,如数据超过生命周期,如何做到数据自动化废弃以减少人工筛检删除,对于数据规模非常大的公司来说,自动化手段能节省很多人力;资产统计,包括哪些人在使用哪些数据的统计、不同子公司不同部门甚至每个人对数据的使用情况统计、每个子公司数据资产的情况统计、每天数据增长规模统计等;成本核算管理,对于很多公司数据使用、存储、计算都是核算成本的;应用权限管理,对数据应用、使用权限的管理。

       四是数据质量

       相对比较成熟,如配置监控报警等。MobTech公司数据质量目前还处于不断迭代的过程,在数据质量监控、性能优化、数据熔断机制等方面做的还不错。

       02金融行业现状与背景

       结合MobTech公司在金融行业的情况,分享一下金融行业数据治理的需求。虽然数据治理是一个通用的框架,各个公司都可以遵循,但仍需要结合行业对数据的要求,及应用场景等特点来开展数据治理工作。

       1. MobTech的数据规模

       当数据达到一定的规模,会有越来越多的数据治理的需求,如阿里巴巴、腾讯等数据量特别大的互联网公司,需要数据治理的范畴更大、细节也更多,这样数据治理带来的成本节省也会越来越大,数据管理也会越来越精细化。如果数据体量不大,可能不需要复杂的数据治理。数据治理要根据公司的整体情况,选择一些数据治理框架,而不是照搬阿里、腾讯这些大公司完整的数据治理体系架构,否则得不偿失。

       目前,MobTech公司DAU日活大概在3亿左右,MAU月活在15亿+,兴趣标签体系在6000+,整体数据体量在上百PB,整体数据规模在数据公司中还是比较大的,数据治理需求比较迫切,数据治理整体功能随着公司业务发展还在不断完善。

       2. MobTech数据应用场景

       MobTech公司一共四大商业板块,这里主要以金融板块为例展开介绍。

       3. MobTech在金融风控领域

       MobTech公司在金融领域布局主要涉及金融风控。针对金融风控领域,公司数据产品主要有特征、自有评分、融合评分三种形态。公司有两大平台,一个是智熵SAAS平台,一个是智熵PAAS平台。在金融风控方面,主要做风控前置、贷前风控和贷中风控,对数据的及时性、准确性要求相对比较高。

       比如以智熵SAAS平台为例,客户通过智熵SAAS平台调用HBase的实时接口完成用户画像的匹配,HBase中存放了客户万亿规模的QA,每天的新增数据100T左右,客户可以通过实时调用查询每个用户的风控情况,做贷前风控评估,为信贷公司、商贷公司、中小银行提供数据,数据查询后,通过实时加密传输,实时判断用户的风险情况。智熵PAAS平台是客户可以实时导入自己数据到画像平台,加上客户自定义配置,选定条件,可以进行多维的过滤和筛选,实现客群的定制。

       风险评估融合分

       以贷前风控中风险评估融合分为例,介绍风险评估是如何开展的。金融客户通过用户的Phone或身份证实时调用MobTech公司提供的数据,MobTech公司提供用户贷前评分、贷前风控管理等数据去判断该用户是否适合贷款,属于什么样的风险状态。金融公司通过MobTech公司提供的风控数据,对用户进行风险评估,包括利率的评估、贷款是否通过等。因此,对数据准确性、及时性要求非常高,数据应用基本都是毫秒级应用,要求公司HBase的数据要保证及时性、完整性、准确性、一致性。

       4. 金融风控领域数据要求

       金融行业对数据要求的特点可总结为以下几方面:

       严苛的数据合规性,不管数据是采集、使用还是三方合作,数据都必须合规。

       极端的数据及时性,金融风险评估这块要求数据必须及时返回、可用。

       回溯数据的一致性,金融风控通常会通过用户历史行为数据去分析观察用户未来的需求,因此会有回溯场景数据应用。通过用户加密的Phone为主键的标签数据,回溯该设备3年内任意时刻当时的用户行为与风险的关系,通常会要求回溯过去时间的数据,回溯数据一定要确保一致,不能出现数据错乱的情况。

       基础数据的准确性,金融风控数据不能出现很大的数据偏差或容错,如判断一个用户的风险情况,一定要在银行或金融公司要求的数据准确性范围之内,不能出现高风险的用户判定为低风险用户的情况,否则会造成银行经济损失。

       03数据治理一体化架构

       下面分享一下MobTech公司数据治理一体化架构,从数据全链路做了数据治理,建立了一整套数据应用模型和应用架构。

       1. MobTech数据管理架构的演变与完善

       初期MobTech公司数据沉淀不多、以结果为导向、技术开发实力也相对薄弱,当时的数据治理或数仓建设也是属于粗放型的,使用开源的组件、配合很多人工化治理。

       随着公司业务不断发展,数据沉淀越来越多,数据使用场景越来越复杂,数据调用越来越多,公司进入快速迭代期,自有资产管理平台上线,包括血缘分析、链路分析等;由于严苛的数据要求,公司还上线了QC数据质量平台,开展数据质量监控,还有任务监控管理平台等。

       截止到当前,公司数据治理一体化架构已经上线了5大系统,包括安全管理、资产管理、数据质量、模型管理、任务监控,确保数据的SLA。

       2. MobTech数据治理一体化架构

       MobTech数据治理一体化架构包含5大系统,资产、模型、质量、调度监控、安全。生命周期和安全管理是数据从采集到消亡或永久保存的全链路都要参与的。生命周期的模块,如生命周期配置、生命周期管理、数据归档等是放在数据资产管理系统的。

       04数据治理一体化建设

       下面分享一下数据治理一体化在MobTech的实践。

       1. MobTech数据安全管理系统

       数据安全管理贯穿数据采集、存储、分析到数据应用的全链路。MobTech作为数据科技公司,对数据的安全把控更加严格,其安全管理系统从安全审批、权限管理、数据监控、安全传输、去隐私化、数据脱敏6大维度保证数据的安全。其中,

       数据脱敏,从数据收集开始,从数据源头避免数据泄露。

       去隐私化,隐私数据要模糊化处理,脱敏处理等。

       安全传输,数据在内部或外部传输过程中,都要通过加密传输,做好网络安全管控。

       数据监控,采用数据分级,结合数据实际等级,对数据建立不同的监控规则,包括脱敏数据监控、异常行为监控、数据全链路监控等。

       权限管理,根据数据分级制度,形成用户对数据存储和权限隔离机制。

       安全审批,根据数据分级,建立一套完整的数据安全审批制度。对于一级核心数据,可能要到部门领导或大数据总监级别审批;普通数据到数据管理人员或部门经理审批。数据使用审批必须做汇总统计、监控。核心数据导入、导出采用什么格式存放都有明确的制度。

       基于国家刑法、数据安全法等实施,为公司数据安全提供了被动防御机制,约束相关数据管理人员泄露数据行为。

       2. MobTech数据模型管理系统

       数据模型管理系统是从数据建设方面考虑,包括模型创建、模型校验、模型审核、模型维护。

       模型创建,包括模型需求管理规范,包括业务需求提出按什么格式、需求如何提交开发;模型设计,开发如何开展模型设计,使用什么方式数仓建模(三范式、维度建模或Inmon建模等);模型开发,采用什么标准模型开发,如何保证字段一致性,确保一致性的专用词库等。

       模型校验,建立模型校验系统,模型开发完后,将模型输入到校验系统,基于匹配好的规则对模型进行打分,如模型设计是否合理,模型存储格式是否正确,模型字段、表命名规则是否合理,是否体现出分层等,帮助用户做模型校验。

       模型审核,模型校验合格后,模型代码上线,需要负责人review才能审批上线发布。

       模型维护,模型迭代更新、迭代更新版本控制、更新描述记录等。

       3. MobTech数据资产管理系统

       数据资产管理系统包含资产全景、血缘链路、元数据、资产管理四大模块。

       血缘链路,MobTech公司采用自研模式,血缘hive基于Hook、Spark link等在源码上做了很多改动,去实现血缘的收集。基于血缘,提供血缘分析追踪、链路分析展示、血缘分析管理。如通过血缘分析追踪可查看数据的实际浏览情况、数据调用情况、表流转/引用/调用情况等;链路分析展示,上游变更如何快速通知下游、QC数据熔断等。

       元数据,包括表元数据和集群元数据。元数据统计、分析可以为数据存储治理、图表判断、表写入时间、有无调用、数据生命周期设置是否合理等提供依据。

       资产管理,主要是资产管理注册。数据资产有很多公司或部门使用,可独立管理自己的数据资产,管理员也可以统一管理公司的数据资产。同时还提供敏感数据监控,对数据资产进行扫描,确定是否有敏感字段,对敏感数据进行标记,提醒数据管理者进行处理。

       资产全景,主要包括资产分布统计、成本核算、资产评分。如各子公司、部门使用数据资产的情况,数据治理投入产出比,对数据模型算法做了评分管理确定哪些模型实际应用价值、使用率最高等。

       4. MobTech调控监控告警管理系统

       MobTech公司调度监控告警管理是基于Apache DolphinScheduler开发,在此基础上做了很多改动,新增了许多功能。包括任务调度、监控告警、任务治理等。公司重点突出的是任务治理,通过任务日志分析,如长尾任务判断参数设置是否合理、简单的hive任务通过分析map执行情况判断是否有任务长尾现象,或数据量是否合理,或程序并行度是否不够等,最终实现对任务的打分,最终将分析结果反馈给用户,提供任务推荐优化。并提供任务治理管理,对任务跟踪、同比环比分析、任务执行慢的原因分析等。

       5. MobTech数据质量监控系统

       QC数据质量监控系统是MobTech公司重点应用系统,主要包括规则管理、监控配置、监控管理、全景报表4大模块。MobTech公司认为在QC方面做的比较好的是熔断机制方面,基于告警,对下游任务进行自动熔断,以减少资源浪费。同时,对于重点任务则电话告警通知管理员,一般任务通过邮件或其他通讯方式告警通知管理员。比如,一个任务,下游有30个依赖任务,如果数据指标明显偏离,出现告警,则将下游任务熔断。数据熔断需要考虑下游数据及时性的问题,MobTech公司策略是核心任务配置数据熔断,也要预留一定的时间,同时提供紧急调用资源,保证核心任务的运行。全景报表,对监控效果、监控数据使用情况提供报表展示。

       05精彩问答

       Q:金融场景的数据架构和数据更新机制?

       A:一般金融场景的数据都放在HBase、ClinkHouse,实时更新数据通过Flink将加工完后的数据实时导入HBase供客户调用;离线数据采用T+1方式,加工完后导入到HBase或ClinkHouse给客户使用。数据更新机制是需要结合实际的场景来描述。

       Q:MobTech处理的日数据量有多大规模?遇到过哪些比较麻烦的问题?

       A:查看上文“02 金融行业现状与背景 - 1. MobTech的数据规模”部分,有相关介绍。遇到的问题通常包含:数据体量比较大,在集群资源比较紧张的时候,需要考虑如何保证数据的及时性、准确性。MobTech公司处理的数据通常会有很多大标签,以金融场景为例,数据包含很多回溯标签,单张表的数据规模都会在1PB以上,一旦数据出现倾斜,在资源不足情况下,如何保障数据及时性处理;另外,数据QC方面,在数据做熔断之后,如何保证数据及时性产出且不影响业务使用;这些MobTech公司还在不断探讨、完善。

       Q:金融场景的数据处理有哪些特殊的地方?

       A:金融场景下对数据要求的严苛性方面,如数据合规、数据准确性要更加严格一些。

       Q:针对新的“数据安全法”出台,MobTech公司内部数据资产管理有无新的方案来加强数据资产保护?

       A:MobTech公司建设了完整的“数据安全管理系统”,该系统从数据采集到数据最终应用来保障数据安全。系统还在不断完善迭代,包括敏感数据的监控、数据全链路的分级监控等能力;另外,MobTech公司作为数据公司在建立健全数据的安全审批、安全管理制度。

       Q:发现数据质量问题,但没有准确的对标系统,有没有遇到类似问题,又是怎么解决的?

       A:也许是数据标准出了问题。以用户画像标签为例,我们做了用户画像的模型,比如某个人是不是喜欢喝啤酒,或者是不是喜欢踢足球,模型做出来很简单。但判断该模型是否精准,有很多专门的算法或通过金融数据、营销数据等反哺模型,校验标间准不准确,逐步迭代完善模型。

       Q:数据分类能全部用自动化工具实现吗?

       A:如果数据源稳定,先人为数据筛选,定好大的框架后,在后续更新完全可以做到工具化分类、筛检。如果数据源不稳定,则做不到完全自动化。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询