睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据治理研究述评

时间:2019-08-27来源:南京大学信息管理学院浏览数:572

数据治理是数据科学时代关注的研究课题,对数据治理的概念、体系、内容和应用的相关研究进行述评,以期将数据治理研究引向深入。[方法/过程]采用文献调研法,对国内外文献进行系统脉络梳理和整体内容述评。[结果/结论]目前研究主要集中在“框架模型的设计冶“价值的探讨冶和“不同领域的应用冶等,现有研究存在“实证研究较少冶“数据治理框架模型的设计欠缺优化冶等问题,“框架体系冶“政策标准冶“成熟度模型冶“数据质量冶等仍是未来研究应关注的重点领域,海量异质数据的治理是未来最值得关注的新兴研究领域。

数据科学促进了科学研究的新范式,使得数据处理事务、管理的视角、过程和方法都发生了显著的变化。随着组织业务的增长,产生了高价值多结构的海量数据集,对传统的数据管理手段和方法均提出了新的挑战,增加了组织对数据进行治理的重要性和紧迫 性。

数据治理不仅受到业界的重视,其相关研究也引 起了学界的关注,国外学者 Alhassan、Sammon 和 Da鄄 ly[1]对来自6个学术数据库(the AISelectronic library、CiteSeerX、 EBSCO、 Emerald、 ScienceDirect and the ACM Digitallibrary)的31篇文章进行内容分析,发现了110个数据治理活动;此外,Soma、Termeer和Op鄄dam[2]在Scopus检索平台上分别以“数据治理冶“信息对组织带来的改变冶为主题选取了39篇文章,对该两个主题进行双向的文献计量比较,总结了未来数据治理研究的核心发展趋势。相较而言,国内学界虽已有了一些与数据活动有关的述评类文章[3-4],但未见数据治理整体内容的述评。因此,本文拟定对数据治理研究进行系统脉络梳理和整体内容述评,希望尽可能厘清国内外数据治理的研究内容和存在不足,以期 对开展数据治理的相关研究提供一定的启示。 

1、数据治理的概念研究 
1.1 数据治理的基础定义
数据治理是组织中涉及数据使用的一整套管理行为。相关研究机构发布了各种有关数据治理的定义,由于切入视角的不同,一些国外学者从法案遵循的角度提出数据治理是一系列的政策和规则的定义[5],而一些学者强调数据治理是有关组织数据资产的决策制定和职责划分[6-8],也有诸多学者综合考虑了数据管理控制活动中的过程、技术和责任等[9-12],认为数据治理是集中人、过程和信息技术的数据管护过程或方法,能够确保组织数据资产得到合理的使用。因此,Begg和Caira[13]将早期的数据治理定义总结为政策、流程、技术和职责的统一,而后期的定义中更强调角色支持和商业结构。

国内对于数据管理的有关研究活动始于2010年左右,类似的名词出现有数据监护[14]、数据管理[15]、数据策展[16-17]、数据管护[18-19]等,一直以来,国内在概念界定上都较为模糊,虽然都涉及数据的控制、保护和利用,但与数据治理的核心要义还是有一定的区别,除少数以外[20-21],多数学者在应用时对数据治理的概念均 不加以解释和说明,认为数据治理与数据管理类似,都是有关数据生命周期的诸如采集、加工、控制、传输、保 存等活动。

由此发现国外的概念虽然在表述上有一定的差别,但核心内容上均具有一些共同点,而国内的概念使用却较为混乱,相关学者还未达到共识,并且多数研究都未触及数据治理的本质。数据治理不仅是通过数据的管理提升数据质量,更强调流程设定和权责划分,我们认为数据治理是围绕数据资产展开的系列工作,以 服务组织各层决策为目标,涉及有关数据管理的技术、 过程、标准和政策的集合。 

1.2 数据治理的内涵界定
数据治理根植于IT治理,但两者之间又有明显的区别,Khatri[6]明确指出了IT治理的对象是IT系统、设备和相关基础设施,而数据治理的对象是可记录的数据,文中还区分了数据治理和数据管理,认为数据治理是为了确保有效管理而做的决策,强调决策制定的责任路径,数据管理仅仅涉及决策的执行;同时,Koope等[22]分析了IT治理的局限性,认为IT治理过程中过于强调IT投资和系统实施,忽视了商业价值增长中的数据创建、处理、消耗和 交换方式。此外,由于研究调查中表明超过70%的人将数据视为战略资产[23],因此大量学者[11-12,24-26]持有观点认为数据治理与数据资产密不可分,认为只有将数据治理视为公司或机构管理的重要数据资产内容, 将数据置于组织的战略资产的位置,才有可能迎接当 下的竞争挑战。

国内学者包冬梅等[21]于2015年专门厘清了数据治理和数据管理的区别,认为治理和管理是完全不同的活动,治理是有关管理活动的指导、监督和评估,而 管理则是根据治理制定的决策来执行具体的计划、建 设和运营。

由前述可知,数据治理具有丰富的内涵,不仅是对IT技术的简单关注,还需解决相关的政策流程和人员分配问题,其核心是通过数据治理计划,确保组织高层 有效安全地利用数据生成决策。  

1.3 数据治理的价值要义
2012年的调查显示[25],接近2/3的受访者认可数据的分析和使用能够为组织带来竞争优势。在此背景下,Tallon[28]认为数据是一种特殊的资产,尽管在资产负债表中没有显示数据的价值计量,但数据的管理成本和价值创造却是明显的;类似地,Bhansali[29]在书中也阐述了数据治理的价值,认为数据治理的规范能够帮助组织更有效地管理数据,降低信息使用成本,提高法案遵循和控制的效力,促进高质量数据的生成。此外,Trope等[30-31]均认为数据治理应和各个商业部门相结合,而非仅仅是 IT 部门的事情,良好的数据治理能够帮助公司避免内 部控制错误的发生。

国内学者在数据治理的应用研究中,均从不同视角强调了其重要价值,如在图书馆领域,顾立平[32]从数据获取、数据共享、数据重用三方面证实了数据治理是图书馆事业的重要发展机遇;苏玉娟[33]通过对高新技术企业的实证研究,帮助企业实现数据治理,提升企业决策水平;此外,单勇、许晓东等[20,34]从社会治安防 控体系建设、高等教育的视角等,强调了数据治理的必 要性和价值性。 

可见国内外许多学者在数据治理的领域都讨论了与价值创造或提升相关的话题,从全球范围来看,数据治理是保证数据质量的必需手段,数据治理的价值贡 献在于确保数据的准确性、可获取性、安全性、适度分 享和合规使用。

2、数据治理的体系研究
2.1 数据治理的整体框架
为了清晰表达一些复杂和抽象的概念,构建科学的框架是开展数据治理实施工作的首要任务。多数国外学者在研究时均提出了数据治理的框架,如 Wende[35]提出的框架模型草案中,定义了各个决策领域和相应的角色划分,该框架模型最大的贡献是能够帮助组织构建数据质量职责,所提出的决和角色能够作为数据治理的结构配置,尚还缺少不同组织情景下的使用验证;类似地,Oester鄄le[36]建立了包含三个要素(数据质量角色、决策域和责任)的数据治理模型,并形成一个责任分配矩阵。此后,成果各有侧重,其中影响力较大的是Khatri和Brown[6]提出的数据治理的决策域模型,该框中包含了数据准则、数据质量、元数据、数据访问和数据生命周期五个决策域,并阐述了决策域的类型和范围,该模型提出了在同一组织决策域的不水平的集中、分散和共享决策权,同时提供了一个共同术 语的通用框架,使其在后面的研究中被广泛采纳;在此 基础上,Begg 等[13]使用了Khatri 和Brown的框架,对10个中小企业进行调查,探索实施数据治理的潜在价值和实施障碍的研究。此外,Martijn等[37]提出了数据治理的概念和驱动型分为技术架构、过程架构和商业架构的三层体系,同时通过设计数据治理的因果模型确定了诸多影响因素,进而发现了中小企业数据治理需求和实施障碍,并引发了单一数据治理框架能否通用化的思考;而Seiner[38]则提出了包含执行层、战略层、战术层、操作层和支持层的五层框架模型,同时阐述 了五个层次上各自的角色、过程、交流、指标和工具。

数据治理决策域模型

图1 数据治理决策域模型

国内包冬梅等[21]总结了数据治理框架中的职能及关系、工作区间、任务、组织结构、责任分工、成效的评估标准等,同时提出了高校图书馆的数据治理框架 CALib;许晓东等[34]中也设计了高等教育数据治理的 分析框架,此外,关于框架的设计,其他国内文献鲜有 涉及。 

由此发现,国外数据治理的框架通常包括了政策制度、技术工具、数据标准、流程规范、监督及考核等方面,各个理论框架各具特色和优势,但尚形成标准化的模型体系。国内少数研究借鉴了国外的设计思路,并在图书馆、高等教育等领域进行了探讨,但都不够深入,其分析框架从数据治理的格定义上看,还不足以 覆盖数据治理的整个内容。  

2.2数据治理的成熟度模型
成熟度模型的建立是为了评估组织当前数据管理和控制的现状,是实施 数据治理非常关键的环节。 研究表明[39]当前数据成 熟度模型在商业部门、洲政府、联邦政府、国际化组织 和本地政府均有应用[30,40-42]。 如 Gartner 设计的6 阶 段的成熟度模型中[43],给出了每个阶段的行动方案, 并强调管理信息作为数据资产应得到高层重视;此外,

MDM[44]强调用面向架构的服务 SOA(Service-Orien ted Architecture)作为计划、设计、实施包括数据服务在内的所有企业服务的基本方法,提出的成熟度模型也 是按照演化路径划分。国内学者包冬梅等[21]在其设计的 CALib 模型的 实施与评估中,讨论了数据治理成熟度评估的意义,但 并未建立具体的成熟度模型。

可以发现,国外研究较为丰富,各种模型的共同点 都是一个从混乱、规范再到优化的有序等级演绎过程, 成熟度的不断升级就是数据治理水平逐步积累的过 程,借助模型,可找到组织数据治理的薄弱环节,针对 性地形成改进策略,促使治理水平渐进提升。 国内专 门提出数据治理成熟度模型设计的文献较少,表明还 未意识到该项研究的重要性和必要性。 

3、数据治理的内容研究
3.1 数据治理的政策和标准
数据治理的目标之一是向组织的内部或外部提供合约遵循的可见度。国外数据治理的兴起很大程度上是由于对法案法规的遵循,旨在防止企业运的不正当行为和数据欺诈。 在 美国,涉及信息技术或数据的法规如 Sarbanes-Oxley、 Basel 域、COBIT (Control Objectives for Informationand related Technology)、美国爱国者法案、美国健康保 险流通与 HIPAA(Health Insurance Portability and Ac countability)等[45],均要求提供准确可信的财务报告和治理规则。由此,从确保数据利益相关者评估的需要出发,Malik[12]在谈及大数据治理关键领域时就阐 明了战略和政策因素;此外,文献[29,37,45-46]中均强调了 政策和标准的支持作用。 

当前,我国有关数据的各项标准和政策研究已在各个领域有所触及,如科研数据管理服务中,部分研究是针对数据监管政策、存储规范和传播交流机制的,认为标准建设是解决科学数据完整性、科学数据规范化问题的有效方式[3,19];除此之外,也有研究涉及数据质量的标准,如关联数据的质量标准、元数据标准 等[47-48]。 

综上所述,国外数据治理领域内的数据应用标准建设都比较完善。国内也开展了对数据治理相关标准的研究,尤其是在科学数据研究聚焦的图书情学领域,部分学者借鉴国外相关领域数据标准,尝试探索了 诸如数据质量标准和元数据标准等的研究,具有一定 的基础。 

3.2 数据质量
数据质量的高低代表了该数据满 足消费者期望的程度[49]。 在技术层面的探讨中,国外 的数据质量相关研究开展已久[50],主要是从继承产品 质量框架下的管理视角开展[51]。 在数据治理的框架 模型中,可以发现数据质量仍然是重要的组成要素, Friedman 和 Eppler 认为其对业务过程和数据报告的 呈现 具 有 重 要 影 响,是 数 据 治 理 的 先 决 条 件 因 素[52-53],在此基础上,Haider[11]提出数据治理不仅是 提高短期组织的数据质量,更是一个长期持续完善和 优化的过程;除了关注数据的价值质量和服务质量, Ryu 和 Park[54]中还引入了数据的结构质量,并解释了 该结构质量的三个领域(价值域、服务域、结构域);此 外,文献[6,29-30,46]中均说明了数据质量的改善涉及到的 元数据管理数据分析数据清洗、数据监控和预警、数 据质量评估等过程。

国内包冬梅等[21]在高校图书馆数据治理过程中提及了数据质量,认为应该通过跨界合作提高数据质量,建设科研要素基础知识库。从具体实现角度,目前研究主要涉及两个方面,即数据质量的评估和技术提高[3],数据质量评估的关键在于如何具体地评估各个指标维度,数据质量的提高技术主要是关于实例和模 式,而其中数据清洗的相关研究又最为丰富[53]。 
 
综上所述,国内外的数据质量研究都较为成熟,取得了一定的成果,国外在此基础上开始研究数据治理情景下的数据质量问题。国内研究主要关注数据质量评估和质量提高,部分已经深入到技术细节层面。但目前还有许多问题需要国内外进一步探索的,如大数据环境下,大量异质、非结构化数据的出现,数据孤岛 问题更加突出,使得数据质量管理受到全新的挑战,值 得从大数据的认知角度和语义层面对数据质量进行深 入研究。 

3.3 数据隐私和安全
数据的隐私和安全是关于 电子媒介上数据存储、使用和传输的保护问题。 Bhan sali[29]指出数据治理是对数据持续监控和评价的过程,以便更好地管控数据风险;此外,Begg等[13]探寻了研究中受访企业对数据安全因素的认知态度及影响因素;在具体对策建议方面,Trope 和 Power[55]建议组 织应提高其安全策略的标准,类似地,其他学者们也均 认为数据隐私和数据安全事关信息质量,组织应该建 立相应的政策加强数据安全管理。 

在国内现有的数据治理领域,刘子龙和黄京华从隐私策略、隐私伦理,特别是对电子商务领域的隐私态度和隐私行为进行了研究[58];同时,陈火全[56]认为数据治理的网络安全策略不仅需要提高网络安全性的信誉机制,还需要建立社会信誉机制来加强隐私的保护。类似地,多位学者呼吁将数据保护纳入国家战略资源 的保护和规划范畴,并加快完善数据隐私保护的相关 立法[57-58]。

可见,国外多数学者已将数据隐私和安全列入治理框架的重要内容,国内数据隐私问题也已得到广泛关注。大数据时代,数据隐私保护和数据安全诉求更加多变和多元,传统的数据隐私和安全保护问题面临巨大挑战,如被动响应、溯源困难等,国内外在数据治理的过程中,都应该考虑如何在保护安全和隐私的 前提下推动数据科学环境下的数据联接、流动和应用, 做好数据监管的工作。 

总之,在数据治理的内容研究中,数据政策是首要的促进方式,数据质量是必要的实现目标,数据隐私和安全是重要的保障前提。此外,数据生命周期、数据的 开放存取和元数据管理等同样是数据治理领域需要涉 及的内容。

4、数据治理的应用实践研究
现代组织日常经营活动中积累产生了大量的数据,这些数据除了能支持传统的业务运营,也广泛被用于各个行业的决策支持、信息分析、风险控制、绩效考 核等,表1集中梳理了国内外具有代表性的现有各领 域研究的开展情况。 

综上所述,国外数据治理的研究在金融、教育、环境、农业、医疗等领域有所应用,而国内的研究应用多数是借鉴了国外的思想,且研究应用领域较为局限,成 熟的研究主要集中在科学数据聚集的图书情报领域。

5、结 论
纵观国外数据治理的整个研究历程,国外已经涌 现出一些涉及数据治理的研究成果,从研究内容来看, 这些成果主要集中以下几个方面:淤数据治理的理论 框架模型的设计;于来自跨领域的数据治理价值的探 讨;盂基于不同框架模型的驱动实践探索。 国内的数 据治理研究起步较晚,大量研究主要借鉴了国外数据 治理的思想,目前集中在理论层面的价值讨论阶段,对 数据治理框架构成内容的各个方面研究均不深入。

作为新领域的研究,国内外多数采用探索性研究的方法,结合叙述性的论述和经验总结,实证性研究较少,少数半结构化访谈的实证研究也存在样本不充足的局限,对数据治理框架模型的设计还有继续完善和优化的空间,数据治理理论框架的普适性应用仍然需要验证。有关数据治理的框架体系、策标准、成熟度模型、数据质量、非结构化数据的质量评价、元数据管理等仍然是未来研究的重心,产业界驱动的模型框架的制定需要与理论界融合创新。

特别需要指出的是,在数据科学时代,面对模态繁多的数据类型和海量数据,对传统的数据质量管理、数据隐私和安全等都提出了巨大挑战。数据治理正是大数据环境下对数据生命周期进行科学管理的一套治理方法,是对数据资产进行管理和控制的系列活动的集合,今后开展数据治理的研究务要注重模型和数据的双驱动,即在遵循传统模型框架的基础上,也要特别注意非结构化数据的聚集特征和质量评价。此外,在实施的过程中,注意引入外源视角,比如在图书馆领域 的数据治理中,数据质量评价能否引入科学数据评价 环节中的同行评议等。

总而言之,大数据技术不仅能重塑数据治理的思 维,提升数据治理的能力,而且有可能变革数据治理的 模式,是数据科学时代科研创新的一条重要发展路径。 

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询