睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

蚂蚁金服数据治理

时间:2022-08-23来源:宛童浏览数:242

治理需要做成常态化,之前启动过数据治理专项,发现当时达到了治理目标,但是几个月过后,数据成本等问题又出现了,其实这个过程只是做到了治标,但是没有治本,我们要分析数据问题的根因,是资产建设不足、数据管控力度不够还是治理意识不足?治理是一个持续性的过程,治理经验需要有工具化平台将治理能力落地成常态化机制。

企业在数据治理过程中会遇到各种难题,如数据规模大,加工复杂、风险相关数据对抗时效要求高等。在数据的使用过程中又会浮现复用难、重复建设多,以及数据剧增等情况,因而导致整体成本增长过快、数据管理难、安全生产突出…面对这些问题,蚂蚁大安全也在不断尝试,寻找适合蚂蚁大安全的数据治理方案和架构。

目前蚂蚁大安全基于元数据体系建设及相关技术探索,在数据治理方面取得了一些收益和成效。InfoQ 采访了蚂蚁集团大安全大数据技术团队数据架构及治理负责人康树鹏,他就上述内容进行了分享,希望对你有所启发。

与此同时,康树鹏也会在 7 月 16 日深圳 ArchSummit 全球架构师峰会上分享更详细的内容,欢迎关注。

InfoQ:在数据治理过程中,蚂蚁集团主要存在哪些问题?

康树鹏:在我看来,蚂蚁大安全的数据治理过程中,从成本治理角度,主要存在以下几个问题,1、数据研发人员多,对成本及数据治理认知不一;2、蚂蚁经过多年业务发展,数据复杂性极高;3、数据治理过程中,需要解决数据孤岛等问题;4、数据治理底层基础设施需不断完善。

InfoQ:与电商类或其他业务类相比,金融类的数据治理,有没有本质上的区别?

康树鹏:金融类的数据治理与电商及其他业务相比,在治理方法和工具能力上是有很多共同点的,但金融类业务对数据的一致性、可用性、完整性及合规性提出了更高要求,一方面,金融业务强调防范金融风险,治理过程要严格保障不对风险识别、防范能力及系统产生影响;另外一方面,金融数据(比如交易流水)保存时间有严格的法律要求,不能简单治理或清理。

InfoQ:蚂蚁集团大安全,数据治理是从什么时候开始的?如果将治理过程分阶段,您会如何划分?为什么?

康树鹏:蚂蚁大安全的数据治理一直都在做,如果分阶段的话,从我的角度可以分为三个阶段:第一阶段,分散式、运动式的治理,治理由各个业务线的数据团队分别负责;第二阶段,集中式、综合式的治理,我们启动了数据治理专项计划,形成数据治理专项小组统一了大安全的数据架构标准。在治理过程中结合资产模型重构,对安全数据进行了整体的盘点和治理,提升了大安全数据整体的使用效率和架构水位;第三阶段,常态化、体系化的治理,将治理融入到日常的研发和工作当中,做成常态化及体系化的治理。下一阶段,治理需要向智能化方向推进,同时数据作为新的生产要素,需要在市场化方向进行尝试和探索。

InfoQ:您负责了蚂蚁大安全的数据治理,在您看来,想要进行数据治理,应该包括哪几个方面?

康树鹏:数据治理一般包含以下四个方向:1、 数据架构方面的治理,数据技术标准规范层面;2、数据安全方面的治理,数据隐私、合规、共享等方面 ; 3、数据质量方面的治理,数据内容一致性、产出时效等方面;4、数据成本方面的治理,存储、计算、运维等方面。

InfoQ:数据质量应该是治理的重中之重,例如多产品指标逻辑不同、数据一致性等问题,蚂蚁大安全是如何解决这些问题的?

康树鹏:蚂蚁大安全为上亿用户,每日千万笔交易提供实时的风险防控,数据质量关乎着风险防控的水位。为了保障数据质量,首先在研发阶段,我们有研发规范及变更管控能力,确保变更都是经过测试和验证的;在生产阶段,有相应的质量检查规则,在数据生成后进行业务规则校验:当数据在业务策略生效后,业务系统也会针对业务指标进行监控,当有异常时可以进行快速的止血和回滚,保障业务稳定;在离线数据研发阶段,我们会有资产判重的能力,当有相似逻辑发布上线,会进行发布管控拦截;在核心底层资产建设过程中,会利用资产平台的指标管理能力,确保指标不重、不错、好用。

InfoQ:许多公司越来越重视数据成本上的治理,蚂蚁大安全的思路是什么?

康树鹏:数据成本主要来源于存储、计算、运维等,目前重点治理对象为存储和计算,大安全的治理思路主要从以下几个方面入手。

首先是成本及治理意识的提升,针对现状进行盘点,并对核心团队及用户进行宣导和合作,确保治理目标一致;

存量治理,通过专项方式进行攻坚,保障整体的 ROI;

增量部分,确保工具化管控能力落地,保障数据的合理新增;

产品能力方面,通过构建整体的数字化治理体系,保障常态化治理的推进

资产治理和建设相结合,大安全从前两年开始推进《精品资产》建设项目,旨在通过提升优质资产的厚度和复用度,提升整体的研发效率,降低烟囱,保障业务可持续的健康发展。

InfoQ:关于元数据中心建设方面,蚂蚁利用元数据在数据治理上有哪些比较创新的探索?

康树鹏:元数据是数据治理的关键基础设施,在治理识别、决策、管控、效果分析等过程中提供底层数据支撑;例如以元数据血缘来说,蚂蚁构建了更精细化的血缘数据,从任务血缘、表级血缘、字段血缘、以及业务应用侧血缘。同时蚂蚁使用数据应用末端场景注册这种创新的方式,将业务场景、血缘数据及在线系统结合起来,形成一个业务场景切面,在链路影响分析、重点业务保障、节点分层打标等方面都有很好帮助。

InfoQ:对于中小公司来说,您认为可以借鉴的治理路径有哪些?或者说您踩过的坑点,是否有可以分享给大家的?

康树鹏:在我看来,一个公司是否启动数据治理,需要理清公司当前的数据现状,定义出数据方面的关键问题,是成本问题、数据质量问题还是数据效率问题,根据关键问题进行入手;假如一个公司要进行数据成本治理,需要考虑下 ROI,特别是研发成本;同时需要同公司领导层达成共识,要给予数据治理大力支持,保障数据治理战略的落地和执行,从人员意识层面要进行宣导,达成治理共识;

其次,需要尽可能地将各个业务环节数字化,建立一套元数据体系,通过数字化的方式发现问题并制定合理的治理目标,前期可以通过专项式的治理,快速达成治理目标;最后,需要将治理过程中能够标准化、工具化、自动化的流程沉淀下来,落地到系统当中,做成常态化治理方案,持续推进治理。以上,是我推荐的一个治理路径。

坑点分享:治理需要做成常态化,之前启动过数据治理专项,发现当时达到了治理目标,但是几个月过后,数据成本等问题又出现了,其实这个过程只是做到了治标,但是没有治本,我们要分析数据问题的根因,是资产建设不足、数据管控力度不够还是治理意识不足?治理是一个持续性的过程,治理经验需要有工具化平台将治理能力落地成常态化机制。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询