睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

基于元数据智能治理的电力数据要素价值挖掘

时间:2023-02-13来源:帅瞎你眼浏览数:378

元数据治理平台首先要解决的问题是构建统一的元数据模型,支持多源异构数据的元数据智能识别。在企业内部的不同业务部门,对数据的定义,随着业务的变化,标准是不一样的。比如说,对于电力设备,在市场相关部门的定义与生产部门的定义是有一定差异的。这是在企业进行统计分析会遇到的问题。

01成果背景

构建数据要素国家治理体系不仅是我国推进国家治理现代化的迫切需要,而且是我国释放数据要素价值、占据国际数字竞争制高点的迫切需要。以数据为关键,通过全方位的数字经济发展和数字化转型,全面提升了各产业、各行业的业务变革和决策能力。对于南方电网公司来说,自 2017 年左右就明确提出了建设“数字电网”和数字化转型的目标,进一步强调了强化数据资产管理,挖掘数据资产价值,落实国家大数据发展战略的举措。到目前为止,南方电网云南电网公司管理的数据已超过 500T,支撑了包括能源行业、政府部门、公众民生在内的上百个应用。

在大数据时代,传统的数据治理手段已无法应付治理过程中产生的问题,例如多源异构数据的获取和定义、数据治理效率、标准和规则的时效性、治理知识的利用率、多维治理知识的融合等问题。

在数据管理和数据价值发挥的过程中,对于数据资产和数据价值的管理是很关键的,要求数据准确一致,质量高,并能够真实的反应情况,才能够服务支撑相关业务的准确提升。而在实际的数据资产管理中往往不能达到这样的理想情况,而遇到了很多问题。具体来说:

(1)电力企业主要针对结构化数据的技术元数据实现了自动采集,而管理元数据和业务元数据往往以非结构化的形式存在,需要人工进行录入、管控。每年需要花费大量的资源、成本。

(2)不同来源的业务数据,其数据标准存在不一致的情况;一是随着业务变化而发生的数据标准的变化,无法及时更新对应的数据治理规则。二是对于内部不同的业务线条,对数据标准上可能存在不一致的情况,比如对设备的定义、生产、营销等数据标准就不一致。这就带来了数据管理应用和数据指标统计分析时的一些问题。

(3)数据质量规则清单主要依赖于人工经验梳理和维护,目前情况下只能覆盖核心业务和部分常规业务,对于新兴业务、综合能源业务、产业金融等业务覆盖仍有待加强。

(4)在对数据问题进行分析时,数据逻辑和业务流程还存在着紧耦合,支撑基层业务人员开展数据治理的服务能力亟待加强。

(5)元数据、数据标准、数据质量规则、问题数据分析结果、整改指引、整改经验等方面的知识独立积累,数据治理知识未能全面有效地形成体系。

总结起来,在传统数据治理过程中,会遇到很多问题:

(1)多源异构数据的数据定义与标准不统一,数据覆盖不全。

(2)数据治理过程缺乏自动化和智能化手段,工作量很大,效率较低。

(3)数据标准和数据质量规则的时效性无法保障。

(4)治理专家知识未能有效利用,问题发现效率不高。

(5)数据治理知识融合程度低,无法多维度的查询和展示关联信息。

在面临上述问题时,如果还是依靠传统”人海战术“的数据治理模式,将无法适应业务数字化转型的要求。因此,在 2020 年底,南方电网云南电网公司在实践中开展了元数据智能治理的探索,尝试通过智能识别、智能分析、知识图谱等自动化和智能化的数据治理手段实现基于元数据的智能治理,深挖电力数据要素价值,“以智促质、以质增值”。

数据治理的目标主要围绕五个方面:

(1)多源异构元数据智能采集和元模型管理。

(2)采集技术元数据、业务元数据、管理元数据等多源数据,构建电力治理知识图谱。

(3)在知识图谱的基础上,通过对数据项的扫描自动的生成一些自适应的质量标准和规则。

(4)通过数据特征分析的算法,智能识别和挖掘数据标准。

(5)基于案例库和知识库的沉淀,对数据问题智能分析,提升数据资产管理和数据质量。

02成果内容

南方电网云南电网公司基于元数据的智能治理经历理论研究、平台建设、场景应用三个阶段,从“治理知识图谱化”、“元数据自动化管理”等五个关键方向进行突破。

为实现“以智促质、以质增值”的目标,南方电网云南电网公司通过对治理理论体系的研究提出了“治理知识图谱化“等五个改进点,打造数据治理智能化技术的平台建设,以应用场景实现价值挖掘,初步探索了一条智能化数据治理的前进方向。以使用智能化的数据治理手段,替代一些人工工作。这条技术路线主要分为三步:

(1)统一大数据治理体系研究。

(2)基于数据治理智能化技术的平台建设。这包括治理知识的图谱化构建、元数据自动化管理,并在此基础上进行数据标准和规则的自动生成,通过数据规则的应用,将研究成果通过平台建设工具化,以支撑数据治理和数据问题的智能分析。

(3)数据治理智能化技术应用场景。

基于元数据的智能治理体系主要分为两层:

(1)基础数据治理底层技术服务能力,基于机器学习、自然语言处理、智能算法等技术能力,面向电力数据治理问题所构建的基础技术服务能力。在原先包括数据管理、数据标准管理、数据质量检查、质量问题的处理,都是依靠人工和专家经验进行梳理,因此,进行底层技术服务的提升是非常有必要的,这是治理体系的基础。

(2)智能数据治理框架,在应用数据治理技术服务能力的基础上,根据治理应用需求搭建的智能数据治理平台

接下来对技术实现思路进行一个简要的介绍

元数据治理平台首先要解决的问题是构建统一的元数据模型,支持多源异构数据的元数据智能识别。在企业内部的不同业务部门,对数据的定义,随着业务的变化,标准是不一样的。比如说,对于电力设备,在市场相关部门的定义与生产部门的定义是有一定差异的。这是在企业进行统计分析会遇到的问题。同时,随着数据应用的逐渐增多,此时电力数据需要更多的和相关行业的外部数据进行联合应用,以使数据要素的价值持续释放。在这个过程中,内外部不同的单位对数据的定义也存在着较大的差异。因此,需要解决多源异构数据的智能识别问题。

具体的,通过构建多源异构的元数据模型,将企业内外部数据的元数据基于业务对象进行重新组织;利用元数据智能识别,在技术元数据基础上提取完善元数据和管理元数据,构建结构统一、维度多样的数据资产目录。在这个过程中,需要将企业的内外部数据按照业务对象进行重新组织,例如对于同一台设备,电力行业与银行间进行共同的识别,以构建统一的数据资产目录。此外,元数据智能识别需要引用图像识别、文本挖掘等技术,这是元数据智能治理的第一步。

元数据智能治理体系的第二步是构建元数据治理的知识图谱,实现多元数据知识的融合。以识别的技术元数据为枝干,自动采集“元数据与标准、标准与规则、规则与治理案例、规则与治理问题、元数据之间的父子关系”等信息形成树叶,构建具备实体、关系、属性等信息的治理知识图谱,并以此图谱作为整个智能数据治理的基座和核心。为下一步进行标准的自动质量规则生成打下基础。

元数据智能治理体系的第三步是通过智能化技术,实现数据标准和规则的自生成,并支持规则的动态更新。基于治理知识图谱,通过工具扫描自动生成数据标准和数据质量规则,并且随着业务系统的更新,能够自动的更新这些规则。在实际业务中,也需要每年进行数据治理,以及时掌握变化。

最后,在进行数据质量治理的过程中,需要利用治理案例进行知识沉淀,实现质量问题的智能分析,并利用算法实现质量问题的快速定位。利用之前数据治理所积累的知识库,利用机器学习技术,训练质量问题分析模型,根据数据质量规则的执行结果中质量问题的特征情况,通过算法技术计算特征的相似程度,自动的推荐问题分析原因,以及治理案例,使用户通过治理知识图谱能够一站式查询所有相关治理知识。通过建立知识库,在遇到一些质量问题的时候,可以使用知识库定位解决,作为数据质量整改的根据,方便一线数据治理人员的工作。

通过之前所提到的技术手段,进行整个数据治理平台的搭建,通过多源异构数据,利用元数据的智能识别技术,实现元数据自动管理,并基于元数据构成,实现数据标准和质量规则的自动生成,以及智能化的问题分析处理和治理知识图谱的自动构建。平台通过智能和自动化手段实现多源异构数据的治理,有效的支撑数据交互服务和数据应用。

在数据治理平台中,使用了以下关键技术。

1. 非结构化数据的元数据智能感知技术

对于结构化数据的处理技术是非常成熟的,但对于管理元数据、业务元数据,往往是沉淀在一些文档里的,利用自然语言处理、图像特征识别、语言识别、动态特征识别等智能技术,可快速对图像、文档、音频、视频等非结构化数据的元数据信息的分析和识别。此外,对非结构化数据的管理在现实中还存在漏洞,没有进行统一分类。

2. 构建电力元数据知识图谱

首先对业务系统数据库采集技术元数据,构建知识图谱原型;其次根据从技术文档、规范制度、数据特征中智能识别的业务元数据和管理元数据,提取实体、关系、属性等信息,不断循环完善知识图谱,形成体系化、一站式的图谱。

3. 数据标准智能挖掘技术

通过在数据治理知识图谱中选择业务对象的相关字段,可以在数据挖掘页面可通过数据特征算法计算出该字段的数据类型特征分布情况,以此作为在业务发生变动时,对数据标准的变化感知和完善补充,重点强化对外部数据的元数据管控能力和数据治理能力。首先通过知识图谱,选择需要进行标准挖掘的字段元数据,其次自动定位到该字段,通过智能算法进行数据特征分析,可分析出该字段长度、枚举值、值域等数据特征,最后人工确定后形成标准。

4. 数据质量规则自生成自适应技术

数据质量规则通过元数据的库表名称、字段名称、数据标准的关系信息,利用规则生成引擎,对参数和标准信息按照规则脚本规范进行组装,形成可执行的SQL脚本。并支持通过感知元数据、数据标准和数据特征变化情况,进行自适应更新。通过这项技术实现普适性数据质量规则的生成,实现数据治理的全域覆盖。

5. 质量问题自动化归因分析技术

数据质量问题自动化归因分析基于南方电网云南电网公司历年积累的数据质量问题分析报告、整改指引等治理案例信息,采用基于特征相似度计算,分析匹配,形成最佳的综合治理建议推荐。以治理知识图谱为基础,实现通过元数据对数据治理相关所有信息的统一查询。

03成果价值

基于元数据的智能治理经过一年的实践,已覆盖银行、新能源、客户服务等应用场景,有效促进了电力数据要素价值挖掘与释放。

首先,南方电网云南电网公司的团队在相关的研究成果已应用于数据智能治理平台,能够基本实现自动化的治理,并且聚焦于一些具体的核心业务上,并能够覆盖到外部数据或者非核心数据等更大范围的数据。截止目前,已管理 5000+ 数据,自动生成 3000+ 规则,支持处理 1000 多类问题,以及对内对外的 20 多个应用场景。在扩大元数据覆盖、解决多源异构问题、实现智能化管控等方面均取得明显成效,治理后的数据交换服务已覆盖银行、新能源、客户服务等应用场景,有效支撑大数据应用落地,促进了电力数据要素价值挖掘与释放。

04典型应用案例

第一个典型应用案例是云电贷。在这个场景中,主要通过对电力用户的数据,与银行合作构建用户的信用画像,并提供给小微企业进行参考。

在这个项目中,通过对用户电力数据的元数据定义,以及元模型构建,给“云电贷”产品在数据库设计和数据模型构建提供了极大的便利性,将应用落地推广的时间提前了半年, 率先在昆明、曲靖、玉溪三地同时落地推广,成功由用电客户自主申请达成首单。通过智能化数据治理,云电贷产品所管理的数据得到大量治理,数据服务访问的成功率从 81.3% 提升至 95.7%,有效的支撑了“云电贷”数据增值服务的访问, 目前产品已有  2000+ 次访问量。到目前为止,已有累计对几十家云南中小微企业开展几十次的授信,成功放出贷款上千万元。

第二个典型的应用案例是彩云充。这个平台通过对充电数据的分析和治理,将数据问题从 8% 下降到 2%,支撑了新能源汽车及充电设施的实时数据统计服务,以及新能源汽车及充电设施一体化的大数据应用分析服务。通过对充电数据和布局数据进行协同治理,为充电桩精准定位和布局夯实基础,解决新能源汽车用户找桩难、充电难的业务困境,通过电网数据接口与其他平台数据接口标准化的元数据统一定义,优化数据交互的兼容性。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询