睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

为什么数据治理这么重要?

时间:2019-01-18来源:亿信华辰浏览数:1137

一个科学合理的数据治理规范,是数据安全与价值的制度保障,是数据产业健康发展,甚至是国家人工智能战略实施不可或缺的前提条件。

所谓数据治理,就是对数据资产的治理,属于公司治理的范畴,是对数据资产所有相关方利益的协调与规范。

具体内容包括但不局限于:

(1)数据资源资产化;(2)数据确权与合规;以及(3)价值创造与人才培养。

第一、数据资源资产化。数据不等于数据资产,数据就是电子化记录,仅此而已。数据并不天生具备资产属性。资产需要能够给企业带来预期收益。因此,只有满足一系列必要条件的数据资源,才可能成为数据资产。

第二、数据确权与合规。隐私保护问题越来越受重视。所谓隐私保护就是对隐私数据的保护。最理想的情况是,能够在产权层面,确立相关个人作为隐私数据的合法的唯一拥有者。这就需要一个法律基础:对数据产权(包括但不局限于隐私数据)的确定,也就是数据确权。如果暂时做不到数据确权,那么至少要做到,对数据实际控制者的行为严加管束,做到合法合规。

第三、价值创造与人才培养。对价值创造而言,数据治理不应该关注太过具体的业务问题,因为业务形态千变万化,具有极强的不确定性,不可能通过一成不变的规章制度去治理。相反,数据治理应该关注人才团队的建立与培养,这才是价值创造的沃土。只要精通数据思维的人才沃土在,就一定会开出鲜艳的花朵,结出丰硕的果实。

一、背景介绍

2018年3月16日,中国银监会发布了《银行业金融机构数据治理指引(征求意见稿)》,就相关数据治理问题,向全社会公开征求意见。至此银行业金融机构全面数据治理的大幕拉开。该指引要求银行业金融机构将数据治理纳入公司治理范畴,并根据数据治理情况,评价公司治理水平,甚至与监管评级挂钩。该指引还鼓励银行业金融机构开展制度性探索,并设立专业岗位,为人才团队的培养建设提供了制度保障。

这是一个非常积极而且重要的事件,对数据产业(不仅限于银行业金融机构)的健康发展具有重大意义。它带来两个重要启示。

第一、从产业政策层面,作为银行业金融机构的主管机构,中国银监会对数据治理的重视与推动,必将对数据产业产生重大而且积极的影响。其影响也许不仅仅局限于银行业金融机构,还包括其他数据相关的产业。

第二、从理论层面,该指引的发布,驱动学术界从理论上思考:数据治理的内涵到底是什么?它和公司治理之间的关系到底怎样?数据治理的独特之处何在?需要一个相对统一的理论框架,便于开展理论研究,并形成同产业实践的良好互动。

为此,我尝试根据自己的有限了解,提出一个数据治理的大概理论框架,希望能够为相关工作提供一些思路参考。更重要的是,希望能够起到抛砖引玉的作用,吸引更多的政府、产业、学术专家,一起来关注这个重大问题。一个科学合理的数据治理规范,是数据产业健康发展,甚至是国家人工智能战略实施不可或缺的制度保障。

接下来,将从几个方面进行讨论。第一、银监会的指引里明确指出,数据治理应该纳入公司治理的范畴。为此,需要首先对公司治理有基本的了解。第二、数据作为一种新兴资产,它的治理工作,有哪些独特、重要,且具体的内容?第三、数据资产价值的创造离不开专业的人才。因此,人才团队的建立与培养也至关重要。

二、公司治理与数据治理

中国银监会《银行业金融机构数据治理指引(征求意见稿)》第四条(数据治理总体要求)明确指出:“银行业金融机构应当将数据治理纳入公司治理范畴”。为此,需要先简单了解一下:什么是公司治理(Corporate Governance)?

从一个更加广义的角度看,公司治理就是要对公司(作为一个资产)的所有相关者(不仅仅局限于股东和管理层,还包括第三方)利益的协调与规范。

回到数据治理问题的讨论,请问:数据治理,治理什么?治理的对象是什么?是数据吗?答:不是。数据作为一种电子化记录,无处不在,大多数情况下都无关企业重大利益,并没有治理的必要。因此,数据治理的对象必须是重要的数据资源,是关乎企业重大商业利益的数据资源。这样的数据资源可以称其为“数据资产”。关于数据资产更加详细的讨论将在下一节进行。这里不难获得一个结论:所谓数据治理,不是对数据的治理,是对能够为企业带来商业利益的数据资产的治理。数据资产显然是公司资产的一部分。

因此,无论是从狭义的角度还是广义的角度看,数据治理应该属于公司治理的范畴。所有关于公司治理的典型问题,都可能在数据资产上出现。公司资产会出现所有者与实际经营者分离的问题,数据资产更会出现。数据资产的所有者,跟实际使用经营者,几乎从来就不是同一个人,或者至少极具争议。公司资产的实际经营者(例如CEO),有可能用公司资产谋取私利;数据资产的实际控制者(例如数据库管理员),更有便捷的条件,通过倒卖数据,谋取私利。公司的利益有可能同外部第三方(例如环保主义者)发生冲突;这个问题对数据资产而言更加突出。

以电商平台为例,除了股东、管理层以外,相关数据资产有一个天生的第三方——消费者。股东管理层对数据的利益诉求,极容易同消费者这个第三方冲突。作为冲突的焦点,数据确权与隐私保护首当其冲。

总结一下,所谓“数据治理”,不是对“数据”的治理,而是对“数据资产”的治理,是对数据资产所有相关方利益的协调与规范。

三、数据资源资产化

数据治理是关于数据资产的治理,那么数据资产又是什么?行业中有一个广泛流传的误解,很多朋友不假思索地认为:“数据就是资产!” 错!数据不等于数据资产。所谓数据就是电子化记录,电子化记录就是数据。但并不是任何数据都可以被称为资产,因为数据资产的要求更高,只有数据具备了资产属性后,才可以被称为数据资产。那么,基础会计学中,对资产的定义是什么?其对数据资产的定义能有什么启发?

新《企业会计准则-基本准则》第20条规定:“资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。”如果照猫画虎修改一下,不难获得一个关于数据资产的定义:“数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源。”由此可见,数据要成为数据资产,至少要满足3个核心必要条件:(1)数据资产应该是企业过去的交易或者事项形成的;(2)企业拥有或者控制;(3)预期会给企业带来经济利益。

其中(1)似乎不是问题。企业数据资源的获得无外乎两种途径。第一种途径,是自己过去正常经营的一个自然积累与产出,或者由于业务实施的必要而被实际控制。例如,对电商网站而言,网络浏览日志数据、消费购买数据自然而然就产生了;为了给消费者快递商品,消费者的姓名、银行卡、手机号、地址等数据也被记录了下来,被电商网站实际控制。第二种途径,就是资源互换。可能是A企业通过货币(或者等价物)购买了B企业的数据,也可能是A企业的数据同B企业的数据做了等价置换。假设相关操作合法合规,那么这种途径获得的数据资源也符合数据资产定义的条件(1)。

但是,(2)似乎是一个很大的问题。根据核心条件(2),数据要成为资产,要么被企业合法合规地拥有,要么被企业合法合规地控制。对于普通资产而言,这似乎不是一个很大的问题,因为普通资产的产权非常明晰。但是对数据资产而言,产权非常不容易界定。还是以电商网站为例,网站积攒大量的关于消费者的消费记录数据。这些数据的实际控制者是电商网站,但是其合法的产权方是谁?这不是一个容易回答的问题。对于该数据的生产,电商网站提供了软硬件设备,似乎贡献巨大。但是,这些数据的内容,却由消费者生产,并且关乎消费者隐私,消费者也有无可争议的权益。这其中的矛盾冲突,如何通过科学合理的制度予以规范协调,这是一个极具挑战,需要大智慧的问题。关于数据确权与合规这个重要问题,后面一节还会进一步讨论。

最后,(3)似乎也不是一个容易解决的问题。数据要成为资产,就需要能够给企业带来可预期的经济收益,否则就不是资产。因此,那些被大量存储,产生可观存储成本,但是却不能给企业带来可预期经济收益的数据资源,也不能被称为数据资产。只有那些能够给企业带来可预期经济收益的数据资源,才能够被称为数据资产。什么样的数据资源才能够产生可预期的经济收益?这需要一些必要条件。

第一、记录电子化。电子化的记录才是数据,否则连数据都不算,怎么能产生可预期的经济收益,又怎么能从数据资源变成数据资产?请不要忽视记录电子化这个卑微的工作,其意义极其重大。因为相关行业中,大量的历史记录都没有被电子化,而这些记录中蕴藏着海量的宝贵信息。最典型的例子莫过于:病历!虽然现在的医院大量采用电子化病历,但是过去几十年里可都采用的是纸质病历。这些病历上写满了只有医生护士才看得懂的天书。这样的纸质病历,一个大型三甲医院,就有上亿份之多!里面蕴藏了无比珍贵的临床数据。不把这些记录电子化,就成不了数据,支撑不了科学研究,支撑不了规模化应用,产生不了可预期的经济价值,因此不是数据资产。

第二、数据聚合。统一的数据聚合平台,是数据资产化的优质条件。如果没有统一的数据聚合平台,每次不同的业务需求,都会产生不一样的数据提取、整合、清理需求。这些需求常常需要和不同的业务部门沟通,在不同的数据库上直接操作。这需要高昂的沟通成本,以及不平凡的数据库操作技能,而这些技能往往是数据需求方(例如:业务方)不具备的。最后只能拜托技术团队去完成,而技术团队的时间成本也非常高昂。过高的数据提取整理成本,会抵消数据资源原本应该产生的经济收益,成为数据资源资产化的巨大障碍。而要消除该障碍,一个统一规范的数据聚合平台不可或缺。

第三、质量保证。数据分析中有一句名言,叫做:“垃圾进去,垃圾出来 (Garbage in, garbage out)”。它讲的道理是,如果数据本身质量很差,如同垃圾一样,还用做模型输入,那么无论模型有多高大上,最后出来的结果仍然是垃圾,没有任何价值。可见数据质量的重要性。数据质量主要表现在以下几个方面:(1)真实性。虚假数据是没有任何意义的;真实的数据,常常分散在各个职能部门中。如果没有合理且强力的制度保障,正常情况下,没有任何人愿意主动贡献自己的真实数据,他的利益何在?因此,合理而且强力的制度设计非常重要。(2)完整性。该收集整齐的数据要尽量收集整齐。一套数据对被记录对象的所有相关指标的完整程度越高,相关模型的预测精度就会越好,数据资源就越有价值。相反,过多的缺失数据会极大地伤害相关模型的预测精度,进而限制数据的应用能力。(3)精准性。有三层含义:第一层含义是数据的逻辑要合理。例如:对于大气数据而言,由于PM2.5是PM10的一部分,因此,相关数据必须满足PM10的数值要大于PM2.5,否则就不合逻辑,是错误数据。第二层含义是数据的细致程度。同样的数据,不同的采集方式,不同的存储方式,带来的数据细致程度是不一样的。以车联网数据为例,数据采集应该细致到每秒?还是每15秒?在不考虑成本的情况下,显然越细致越好。第三层含义是数据的精确程度。以定位数据为例,应该精确到10米以内?还是1米以内?在不考虑成本的情况下,显然数据精度越高,对于业务的支撑能力越强。

四、数据确权与合规

随着社会的发展,隐私保护问题越来越受重视。所谓隐私保护就是要保护关乎个体隐私的数据。个人隐私数据之所以应该受到保护,就是因为这些数据的滥用有可能对个人造成巨大的财产甚至人身伤害。所谓隐私保护,其实就是对隐私数据的保护。一个最理想的情况是,能够在产权层面,确立相关个人作为隐私数据的合法的唯一拥有者。这就需要一个法律基础:对数据产权(包括但不局限于隐私数据)的确定,也就是数据确权。如果暂时做不到数据确权,那么至少要做到,对隐私数据实际控制者的行为要严加管束,做到合法合规。要避免,因为数据资产的错误使用,给任何相关方造成不必要的损失。因此,相关的数据治理规则非常重要,主要关注几个方面。

第一、数据确权。数据一旦成为资产,就一定有产权方,或者实际控制人,可以把他们统称为主人。请问:数据资产的主人到底是谁?如同实物资产一样,如果一不小心,错用了别人的资产,可能会产生严重的法律后果。对于实物资产,确权似乎不是一个问题。因为,无论是桌椅板凳,还是电脑打印机,它们在产权层面是非常明晰的。制造商独立制造了这些产品,整个制造过程跟消费者无关,制造商独享产权。制造完成后,消费者通过付费,获得了这些实物资产的产权。但是,数据的生产过程太不一样了。以电商为例,大量的消费者数据被电商平台所掌控(例如:消费者的个人信息、购物信息等),电商平台事实上在经常使用这些数据为自己的业务服务(例如:支撑电商平台自己的个性化推荐)。甚至,不负责任的电商可能通过各种灰色交易将数据售卖给了莫名其妙的第三方。但是,这些数据资产的生产过程,可不是电商平台自己能够完成的。电商平台提供了“平台”,在这个平台上,消费者通过注册、浏览、订阅、购买、评论等一系列行为生产了相关的数据。因此,整个数据资产的生产过程,既有电商平台的贡献(在线场景、软硬件环境),也有消费者的贡献(注册、浏览、订阅、购买、评论)。这样的数据资产,其产权归属如何确定,其控制权应该如何治理?主人到底是谁?这是一个极具挑战性,而又非常重要的问题。

第二、数据采集。大量的数据采集来自业务实践,但相应的数据采集过程是否合法合规?有几个基本的原则可供参考。第一个原则是“合法正当原则”。显然,非法采集的数据,通过不正当途径获得的数据,是不能采用的。第二个原则是“知情同意原则”。数据作为一种电子化记录,大量记录了关乎个人隐私(例如:姓名、手机号、身份证)或者商业机密(股权结构)的信息,因此非常敏感。采集如此敏感的信息,被采集方充分的知情、同意,并且授权,是必不可少的先决条件。第三个原则是“必要性原则”。由于数据可能涉及个人隐私或者商业机密等敏感信息,因此,数据采集应该遵循越少越好的原则。例如,一个电商平台的APP,采集用户的姓名、银行卡、手机号、地址等信息,非常必要。否则,无法完成在线支付、线下快递等必要业务。但是,如果该APP同时采集你的社交圈信息,还要看你的电话簿记录,这似乎就违背了数据采集的必要性原则。

第三、使用场景。即使企业对数据拥有100%的产权,或者合法合规的实际控制权,也不能对数据不分场景地任意使用。这个道理其实好懂。

假设你拥有100个鸡蛋,你对这100个鸡蛋拥有100%的产权。这是否代表你可以对鸡蛋做任意处置?不可以!任何处置方式,都必须满足一个基本前提:不对他人造成不必要的伤害。例如,你可以把这100个鸡蛋变成:煮鸡蛋、煎鸡蛋、蒸鸡蛋。但是,你不能拿鸡蛋去大马路上扔汽车的挡风玻璃。这可就太危险了,容易引起交通事故,给他人造成伤害。由于数据记录了大量关乎机构或者个人的敏感信息,因此数据资产的使用场景,要慎之又慎!

坊间传闻,腾讯内部对QQ和微信的聊天记录(数据)给予最高的保密级别,称为“高压线”,不准任何人碰这部分数据。原因何在?这部分数据涉及到太多的用户隐私。这是一个负责任企业自我约束的好例子。因此,数据治理的一个重要工作就是定义数据的使用场景。什么样的数据,可以应用于什么场景?支持什么产品?谁来使用?使用的前提条件?都需要认真思考,需要必要的规章制度。

第四、使用手段。接下来应该关注的是数据的使用手段。即使企业对于数据拥有了100%的产权,也确定了一个合法合规的使用场景,也要对数据的使用手段非常谨慎。因为数据记录了敏感信息,因此对数据的每次加工使用,都有泄密的风险。为此,要对数据的使用手段做出必要的合规要求。

这里继续沿用上面的例子。你对这100个鸡蛋拥有100%的产权,并且有一个合规的使用场景:餐厅。餐厅售卖各种加工后的鸡蛋,例如:煮鸡蛋、煎鸡蛋、蒸鸡蛋。结果某吃货发现,你给他提供的单面煎鸡蛋里面居然有三个蛋黄,这是一个极少见的“三黄蛋”!没想到,该吃货是鸡蛋大数据的高手,经过他的大数据分析,最后判断,世上能够产三黄蛋的老母鸡只能是隔壁家老李鸡场的78号老母鸡。该吃货把这个消息在微博微信上大肆宣扬,后果是老李鸡场78号老母鸡的隐私没了。其他老母鸡都知道78号下三黄蛋,觉得非常奇葩,超级鄙视,议论纷纷。78号老母鸡因此患上了严重的抑郁症,失去了产蛋能力,最后被主人老李炖成了一锅鲜美的鸡汤,下场好惨!这个例子说明,粗心大意的数据使用手段,容易产生隐私泄露的风险。因此,必要的隐私保护(或者加密)技术,应该被积极采纳。例如,当初厨房的鸡蛋治理制度规定:不许加工单面煎鸡蛋(能看出三个蛋黄来),而是要求蛋黄蛋清必须打碎搅和均匀后才能做进一步加工(例如:蒸鸡蛋、炒鸡蛋)蛋,这并不会对鸡蛋的美味产生太大的影响,但是却能够极小化三黄蛋(一个敏感信息)被识别的可能性,因此78号老母鸡的隐私也被保护了。

第五、数据安全。由于大量数据关乎个人隐私、商业机密,因此数据安全是一个非常重要的问题。现实生活中的数据泄露比比皆是。我自己的经验是,只要孩子参加了一个课外培训班(例如:英语),其他同行培训机构就会跟上来。曾几何时,有租房经验的朋友也知道,只要在任何一个房地产中介留下过租房信息,很快就有更多的中介找上门来。我们的个人手机号码,如此重要的个人数据,是如何泄露的?数据安全是整个数据产业正在面临的重大问题!数据安全的保障需要必要的软件和硬件。但是,最需要的是一个合理的数据治理制度。该制度应该对数据从产生、使用、到消亡的整个链条进行严格治理。具体内容包括但不局限于:存储安全管理、用户匿名化、访问权限管理等。

五、价值创造与人才培养

数据资产作为一种资产的必要条件是产生可预期的经济收益,或者商业价值。但是,如何才能让数据资产创造出最大的商业价值,相应的制度保障又是什么?

孤立而纯粹的数据没有价值,哪怕是聚合在统一的数据平台上的数据资产也没有价值。数据价值的彰显必须依赖于具体的、带有不确定性的业务场景。为此,企业需要:(1)寻找带有不确定性的业务场景,因为只有“不确定性”这个乱世,才有成就“价值”这个英雄的机会;(2)将该业务问题转化成为一个,关于Y(因变量)和X(自变量)的数据可分析问题。从此,抽象的业务问题,变成了具体的数据分析技术问题。这是数据资产价值创造的基本套路。为此,企业的经营管理团队,从上到下,都需要有数据思维的能力,尤其需要有回归分析的思想。如果业务团队缺乏数据思维能力,就无法把错综复杂的业务问题,转换成为技术团队擅长的数据可分析问题;如果技术团队缺乏数据思维能力,就无法准确理解业务需求,无法设计正确的数据产品;如果企业中层缺乏数据思维能力,朴素的数据价值观就无法在企业内部树立,回归分析标准的Y X语言就难以普及;如果企业高层缺乏数据思维能力,就无法从战略的高度,理解数据资产的商业价值,将失去开拓优质数据业务战略新方向的能力,并造成企业价值在资本市场的低估。

由此可见,数据资产价值创造,不是一个人两个人的事情,是企业全员团队的事情。需要企业各个岗位的员工、管理者都深谙数据商业价值之道,并在各自的业务实践中,自觉(甚至不自觉地)寻找可以彰显数据价值的业务机会。为此,企业需要全员的,以回归分析思想为核心的数据思维能力。由此可见,价值创造的过程,本质上是一个数据思维培养的过程,是一个全员人才培养的过程。为此,一方面需要对现有人员的数据思维能力做全面的培养提升,另一方面可以考虑在各个核心骨干的业务部门设立专门的岗位。该岗位人员的主要职责不是业务,不是数据,更不是技术,而是应该承担链接业务与数据的桥梁作用。为此,相关人员需要对业务、数据、技术都有足够的了解。对专业深度要求低一些,但是专业广度要求更高,而这样的人才就是商业分析人才。

由此可见,对数据资产的价值创造而言,数据治理应该关注的不是太过具体的业务问题。真实的商业环境千变万化,带有极强的不确定性,不可能通过一成不变的规章制度去治理。以银行业金融机构为例,站在任何一个时间点,都无法绝对准确预测,未来的商业形态会怎样?业务内容会怎样?相应的数据分析会怎样?因此,作为一个纲领性的制度设计,数据治理不应该过分关注具体业务问题。相反,应该关注人才团队的建立与培养,这才是价值创造的沃土。由于商业环境的变迁,业务形态的变化,数据价值的多样性,人们对于这片沃土上会结出什么花朵,什么果实,并不确定。但是,只要精通数据思维的人才沃土在,就一定会开出鲜艳的花朵,结出丰硕的果实。因此,培养人才,培养具备数据思维能力的人才,培养企业从上到下精通回归分析思想的人才,并为此提供科学的制度保障,这才是数据资产治理在价值创造这方面应该关注的重点。


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询

在线咨询

点击进入在线咨询