睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据与数据治理两个基本概念

时间:2018-11-30来源:御数坊浏览数:3071

数据治理这项基础数据能力的重要性越来越多突出。2017年4月22日,中国数据标准化及治理奖实践奖的现场评审在清华大学成功举行。

但无论是刚刚数据治理接触的朋友还是已经从业多年的朋友,对于其中的一些基本概念的理解似乎还有不少版本,最近在微信群中也有一些讨论。考虑到这些概念主要是来自国际,涉及到字面翻译及实质上与本地文化落地融合的问题,各方就更难达成共识。理越辨越明,却无需强求达成共识,各学科发展本就有诸多流派,在互相碰撞中彼此启发、推动领域整体发展,这是有益之事。本文题为“小议”,一方面是说并非权威论述、只是表达一家之言;另一方面,本篇求得轻松自在一些,对读者有些启发即可。

在本文中,我们主要探讨最基本的两个概念:数据,治理。在这两个基本词汇之外,其实还有诸多需要辨析的概念,比如:数据模型与数据标准,数据标准与元数据,元数据与主数据等等,且留待以后合适的机会另行成文吧。

什么是数据?

谈数据治理,还是应该先谈数据。有关数据,在网络和各类大数据书籍中有许多定义,无法一一列举,只推荐《数据质量测量的持续改进》一书对数据的探讨。

在书中,作者首先介绍了DAMA DMBOK及多位业界专家对数据的定义,然后提出了自己的定义:

Data are abstract representations of selected characteristics of real-world objects, events, and concepts, expressed and understood through explicitly definable conventions related to their meaning, collection, and storage.

数据是对真实世界的对象、事件和概念的被选择的属性的抽象表示,通过可明确定义的约定对其含义、采集和存储进行表达和理解。

不难看出,作者在信息化背景下,对数据的定义进行了非常考究的诠释。我们先抛开信息化背景,对这张图概括:数据,是人对客观世界的记录。严格来讲,还应该补充一点:数据,是人对客观世界的记录和判断。为何加上判断?因为我们一直在做各种数据统计、数据加工、数据分析、数据挖掘,希望以此洞察客观世界中存在的规律并对未来作出预测和判断。这些预测和判断,也被作为数据记录在信息系统中。

遵循上述定义再考虑信息化的背景,不难理解:客观世界的人、事、物,在信息系统中被记录下来,而记录哪些属性,则是由系统设计师、数据架构师,根据业务目标进行了裁剪和选择,“记录企业希望记录的内容”。那么,一系列的问题就来了:企业的“希望记录的”是什么?这个希望是否达成了共识?这个希望是否真的在真实世界中可以被记录?系统设计师、数据架构师是否理解了这些希望?信息系统、数据架构的设计,是否表达了这些希望?使用系统、使用数据的人,是否理解这些希望?使用者又有哪些希望?这些希望是否融入了企业的希望中?使用者是否能理解这些数据?....上面这些问题中,如果有一两个存在不确定、模糊的理解,就会影响到最终数据使用者的满意度,即:数据不能符合使用需求(Not fit for purpose)——数据质量不好。

因此,以提升数据质量为目标,我们要充分理解客观世界(即企业的业务活动)、明确“企业的希望”、达成共识、设计合理的信息系统和数据架构、管理好数据定义(元数据)、确保数据生成方、数据使用方对数据的理解一致、并对上述过程中的关键点进行适当检查、监控,确保数据忠实记录了客观世界、反映了企业的数据使用希望...这段话,做数据治理的朋友们应该都能更好的理解了。这也是为什么笔者非常推荐这个版本对数据的定义——从数据的本质是什么,到数据如何生成、如何理解,再到数据质量问题产生的根源。在原书中还有另一张有启发意义的图,结合了香农信息论的原理说明了数据质量问题产生的原因,就不再展开介绍了。

什么是治理?

谈过了数据,我们再来推敲一下何为治理。治理对应的英文是Governance,但是Governance对应的词,却不止是治理,下文再来谈。之前曾经考察过几个与数据治理相关的词,在此做些分析。

治理:

治理是或公或私的个人和机构经营管理相同事务的诸多方式的总和。它是使相互冲突或不同的利益得以调和并且采取联合行动的持续的过程。——全球治理委员会

解读:第一句比较抽象,但第二句的含义很明确——协调多个利益相关方的目标、达成共识、一致行动,强调的更多是横向协同的关系。用一张图来形象的比喻,治理是这样的:

公司治理:

从广义角度理解,是研究企业权力安排的一门科学。从狭义角度上理解,是居于企业所有权层次,研究如何授权给职业经理人并针对职业经理人履行职务行为行使监管职能的科学。——百度百科

解读:公司治理的定义中,已经和前面所说的治理有了一些区别,将相关方在纵向上分为了“企业所有权层次”和“职业经理人层次”,一方面强调授权,一方面强调监管。在用一张图来比喻,公司治理是这样的:

数据治理:

数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。——DAMA 国际数据管理协会

解读:有关DAMA对于数据治理的定义,以及数据治理与数据管理的区别,我们已经讨论过很多次了,在此不再重复,给出一张图来做简要说明。值得指出的是,在国外语境下,治理仅包括目标、原则、组织、制度、流程等软性要求,取其“狭义”;而在国内语境下,会将数据架构、数据标准、数据质量、数据安全等一系列数据管理活动纳入数据治理的范畴,取其“广义”。

对比“治理、公司治理、数据治理”三个概念,不难发现,类似于公司治理,数据治理的概念区分了“治理层与管理层”,强调了治理层与管理层的纵向分权以及治理层对管理层的管理(指导、评估、监督),但对于“促成利益不同的相关方达成共识和一致行动”,这一关键含义强调的还不够。这实际上会对数据治理的实践产生一些误导:只强调纵向管理、忽视了横向协同。

在这里,也不妨斗胆给出御数坊对数据治理的定义,供参考、探讨:

数据治理,是组织为实现数据资产价值最大化所开展的一系列持续工作过程,明确数据相关方的责权、协调数据相关方达成数据利益一致、促进数据相关方采取联合数据行动。

数据治理 vs 数据管控:

在中文语境下有一个和“治理”非常类似的词——“管控”,Data Governance早期也被翻译为数据管控,所以我们这里要特别谈一谈管控,辨析数据治理与数据管控的区别。

如果大家感兴趣,可以做个搜索。你会发现“管控”在理论层面没有非常标准的学术定义,一般会解释为“管理和控制”。但是,无论根据法约尔对“管理五大职能”的定义——计划、组织、指挥、协调、控制,还是根据DAMA DMBOK将数据管理活动分为的四类——计划、开发、控制、操作,控制已经属于管理或数据管理职能之一,那么管控一词,似乎显得有些“画蛇添足”了。

在实践应用层面,管控一词主要用于集团企业的管控模式——包括战略管控、财务管控、运营管控,强调的是集团总部对下属分子公司的纵向管控深度、力度不同,这在国内企业管理环境中显得特别突出。

从作用方向来看,用“数据管控”一词替代“数据治理”,加剧了这种纵向管控的文化,非常强调“总部定标准、下属公司执行”。由此,企业做所谓的“数据管控”项目,从某些业务条线、某些系统出发定义了不少数据模型、数据标准,也许能够实现“纵向到底”的管控深度。但由于跨业务、跨系统的横向协同不力,过于强调纵向管控实际上建立了一个又一个的“数据烟囱”,根本无法实现“横向到边”的顺畅协同,数据质量问题仍然多发、企业各个职能也就无法实现高效运转。

从作用时间维度来看,“数据管控”更侧重的是对增量数据的管理和控制,而“数据治理”则会关注存量数据+增量数据,在理清存量数据问题的基础之上,治好增量数据。因此,我们强调,无论是管理还是治理,“理”是前提,“管”或“治”是跟进措施,没有理的基础,就没有管或治的依据。

结语

根据CMMI的数据管理成熟度模型(DMM)的设计思路,数据为什么需要治理?是因为不同业务背景的人、业务背景与IT背景的人对数据的理解不一致,因此,业务术语、元数据这两个与“数据定义、数据理解”相关的领域,被放入了数据治理主题中进行成熟度评估。由此可见,业务术语的重要性。作为数据治理从业者,如果我们连我们自身工作所谈的“数据”与“治理”这两个我们业务术语的概念都没有理清,又何谈帮助企业把他们的数据、他们的业务术语治理好呢?

希望以此文更清晰的说明:在谈论数据治理的时候,我们在谈论什么?


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询