睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

DAMA中国汪广盛:非结构化数据的数据质量管理

时间:2022-09-29来源:从新开始浏览数:513

数据管理的目的是什么,这个是从DMBOK里面摘录出来的,比如主数据管理最终目的是为了提高数据质量,让数据产生价值,确保高质量的数据是数据管理的核心,这是DAMA协会认同的一个观点。

这是美国一个智库写的,他们说现在有这个数据,大家可以看到平均有29%的这样或那样的问题,也正因为这个问题,另外一条我没写在上面,导致了在美国75%数据的项目全部失败了,非常大的一个数据,当然现在的情况越来越好了,因为有许多标准、方式方法,包括技术的成熟,都已经有了许多的进步。前段时间美国数据项目全部失败的占比是75%。 大家可以看到,就因为数据质量导致了那么一系列的问题。托马斯·雷德曼做了一个估计,因为这个坏数据,每年美国政府要多花费3万亿,所以这是一个巨无霸的数字。我们数据管理的目的,我们认为就是要有一个很好的数据质量,在高质量的情况下才有可能实现数据变现。

我们这个图比较难看得懂,大家应该熟悉这张图到底是什么意思?比如说我们前面是限定了什么叫数据质量,我们要实现的目标到底是为了什么,我们的输入是什么,比如说我们要评判一些什么东西,数据质量管理的活动包括哪些;数据质量管理活动结束了之后,我们的输出又是什么。我们讲了谁是我们数据质量的供应者,然后哪些人应该参与数据质量的管理,最后谁来消费我们这个数据质量。 最底下这块是关于技术的层面,从技术的层面来讲,比如说有一些什么实践跟方法,有一些什么好的方法论、工具等。所以,从工具这个角度来说,现在市场上也有一些,这样我们这个指标怎样来衡量,数据质量到底是好的还是不好的。 这是我们DAMA英国协会提出来的几项标准,他们总共提了12条,通用的是有8条,就是说我们怎样来衡量数据到底是好的还是不好的,有许多是已经量化了的,可以用一个数据来告诉你我们这个数据质量到底是怎么样的。

应该来说比较好理解,比如说完备性(Completeness)跟完整性(Integrity),这二者我们用不同的字来表达,待会我仔细讲一讲这个。包括准确性、及时性等,如果说这是有用的信息,过了三个小时以后说不定对我就毫无意义了。 我今天是想讲讲非结构化数据的质量管理。说实话,结构化数据质量管理相对来说是比较成熟了。我做了一个简单的比较,结构化跟非结构化数据,我这个非结构化数据就当做是一个文档吧,看一下这些非结构化数据质量到底怎样来管理,说实话确实还是很不成熟,也很有难度。

从我们DAMA的角度来讲,我们看到了这个问题,所以我们希望能够有一个解答。今天与其说我给大家一个答案,不如说我是提出这个问题。非结构化数据质量管理的核心内容实际上是没有变的,尽管我们讲的是非结构化,它的核心内容没有变,比如说非结构化数据的完备性,也是质量的一个部分。比如说我原来需要10个文档,你最后交了3个文档,这当然是不完备的。同样的道理,我这个文档当中本来是有6部分的内容,你才写了两部分的内容,这个文档质量当然也是有问题的。

所以,我们可以通过一个文档的清单,或者一个工作的模板,用这些东西来做,包括文档这个元数据的完备性,这也是一个问题,这个文档具体是什么内容,权限是什么,储存在哪里,这些所谓的文档元数据也有完备性的问题。 非结构化数据的完整性,比如像文档来源的真实性,如文档的来源到底是不是真实的,里面的内容是不是真实的,有没有修改过,甚至是否存在虚假的信息,现在虚假的信息太多了,你怎样判断某个文档的完整性,这也是一个问题。这还有非结构化数据的可用性,这个文档到底是否可用,所以这个核心的内容跟结构化数据应该来说是差不多的。 结构化数据面临的那些衡量的标准,我们非结构化里面实际上也会有这么个标准在这,所以完备性应该还可以理解,大家想想这个完整性应该怎么管理?比如你怎么知道这个文档没有被篡改过,再比如里面的内容是否真实,这个该怎么管理,我先抛出一个问题,待会我会提出我的想法。 大家可以看到非结构化数据的质量管理难度系数比结构化数据难的多,从技术层面来讲也有许多技术现在也没有完全能够跟的上,所以这个非结构化数据的质量管理很难。 最近我也去了几个大数据中心,目前国内的大数据中心做的什么工作?所有的结构化数据的归集目前都已经完成了,特别是像北京、上海、浙江、贵州和广州等,该整理的数据都已经整理出来了,所以去每个地方,大家都会告诉我说我们的第二期开始做非结构化数据了,工作量会非常大,另外工作会非常的艰巨,这个真的是不容易。 如果你真的要做一个非结构化数据的质量管理:第一,编一个数据资产目录。

第二,你肯定要对管理的现状进行评估,我们DAMA有一个专题组专门在做这个非结构化数据的管理,有这么一个专项正在做,领头的是在美国的一个专家。我们也提了一些参数,我们可以看看非结构化数据的管理现状,数据质量是其中的一个,还有数据安全,非结构化数据的存储、非结构化数据的开放等等,包括结构化数据如何共享,现在共享讲的非常多。 实际上共享并不能解决所有的问题,在许多情况下信息孤岛是必然存在的,是不可能消除的,由于法律的限制、伦理的要求,所以数据共享并不是能够解决所有的问题,但是它是很重要的。 我们这边也提了一些大概的参数,基于这些参数我们到底怎样做,要不要一个组织?肯定需要,就好像我们要有一个CDO一样,可以是一个虚拟的机构,但是必须要有这么一个机构。

我们在某市里面碰到这么一个问题,他们目前尝试着做非结构化数据的管理,后来感觉指挥不动,因为这个大数据中心的级别大家知道,跟其他委办的级别是相同的,比如跟交通局或者市场监督管理局是同级的机构,所以没有指挥权,所以这个数据的归集当中碰到了许多问题,目前他们这个组织机构正在调整。 这里面需要有文件的管理,档案的管理,一般现在的行情是把文件跟档案分开,还有视频的管理,特别是证照的管理,因为这是非结构化数据,需要这些管理部门具体负责这些具体的任务。我们需要建立一大堆的规章制度,说实话数据质量管理许多时候是一个规章制度的问题,是一个体制的问题,比如说从最初的食品设定开始,我们DAMA对非结构化数据质量的管理并不是从数据进来了才开始,我们的起点是在前面,在数据没有进来之前我们就应该要有这样一个需求的设定,这也是DAMA的理论,所以有许多的规章制度需要写,我们最近有一个团队就在写这样的规章制度。实行起来有点难度,需要有前面数据治理那个保障来做这个。

我快速讲非结构化数据管理的未来趋势,基于我们DAMA的理解,因为内容比较多,我就快速讲一讲:1. 增强式的数据分析。特别是对于非结构化的数据而言,如果说我们没有AI的加入,基本上是没有办法来管理的。大家可以看一下这个,因为我们要去验证文档里面内容的真实性或者内容是否干净等,没有NLP,如果说每一个人去读这个文章的话,这个工作基本上是不可能完成的,所以我们讲的必须是一种增强式的数据分析,特别是NLP对我们非结构化数据的管理显得非常重要。

2. 图形关系分析。为什么这对非结构化数据非常重要?假定说我这个文件传输给了你,然后你又传输给了其它方,我要知道这个文件的来龙去脉就需要用图数据来表述。

所以,从这个角度来讲,文件传输的途径以及管理,非常需要图数据来管理。从这点来讲的话,图形分析对我们非结构化数据的管理来讲非常重要,甚至比结构化数据起到的作用会更大。 3. 统一的数据管理平台跟数据虚拟。上个星期我还跟华为的几位兄弟们在聊,华为是非常有前瞻性的,他们在弄一个叫OpenLooKeng的引擎,他想做一个什么东西呢?我管你是结构化的还是非结构化的数据,我统统把你整合起来,从最终用户这个角度来讲的话,我就是一个统一的界面,所以这就是所谓的数据虚拟。

从最终用户来讲的话,我们把底层都给你搞定,然后你只要拖拽你的报表或者你所需要的信息就出来了,所以这就是OpenLooKeng,我认为华为这个方向非常好。因为非结构化数据太难管理了,这样一来对于用户来讲大大方便了。 4. Data Fabric。这是2014年提出来的,为什么要提这个概念?许多数据都是储存在不同的云里面的,现在肯定是一个混合云,我们不太可能像一个大型的机构,只用华为云、阿里云、腾讯云等。在混合云的情况下,我的非结构化数据储存在不同的地方,怎样把它整合起来是一个问题。

5. 边缘计算。为什么要提这个呢?工业互联网里面有边缘计算的概念,实际上非结构化数据管理里面也有边缘计算的概念。跟结构化数据不一样的是,我们非结构化数据基本上都储存在各地,甚至我的手机上,你怎样把这些数据都管理起来,所以你要把所有非结构化的数据全部集中化,我觉得非常有难度,甚至于不一定有这个可能性。所以,我们认为边缘计算的引入肯定是一个趋势,特别是对非结构化数据的管理。

6. 区块链的参与。我个人认为我们数据管理不一定需要区块链,包括隐私计算,但是我感觉到在处理非结构化数据的时候,没有区块链的参与恐怕是很有难度的。不是说我一再要讲区块链有多么的伟大,我认为未来管理非结构化的数据没有区块链的加入恐怕真的很难。

在DAMA的书里面,有一章非结构化数据管理里面就讲到了这个,比如说非结构化的数据,对这个文档进行真实性的判断,怎么判断?当然可以用其它的方式方法来做,但是有区块链的话,工作效率会大大提高。(详见:30页PPT读懂DAMA-DMBOK2.0数据管理知识体系指南核心精要) 很显然这一点是说我知道这个文档有没有被修改过,假定我前面的工作已经判定我的这个文档是真实的,内容是很好的,也是有用的,在那个基础上,我后面的就不需要再去评判了。如果说没有区块链,我这个文档就算评判好了以后,我进行过了修改,你仍然是不知道。所以我是充分认为,当我们在做非结构化管理的时候,如果没有区块链的参与,很有可能这是一个很大的缺陷。 我们认为数据质量是数据管理的核心内容,也是数据价值实现的基础。相比较结构化数据的质量管理,非结构化数据的质量管理更加复杂、更艰难,现在刚刚才开始。我们DAMA关于数据治理这11个领域可以有效的帮助我们提高数据,包括非结构化数据的质量关系。
(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询