睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据治理与数据质量的关系

时间:2018-11-29来源:知乎浏览数:1580

单纯从数据层面来看,数据体系包括治理、管理和应用三个部分。治理是负责解决人与人之间的事,管理负责各个职能领域,应用则是价值的实现。不讨论基础层,iaas层,只讨论数据视角的事情。


数据管理里面数据质量dq是人与人矛盾分歧最大的职能域,所以也配置全套的数据治理手段。细节不多谈,这方面理论和实践都比较成熟,但效果差强人意。现在讨论大数据,应该和场景关联起来;同样数据质量和业务需求和技术方案密切相关。数据质量管理开展的驱动因素比较复杂,银行里面里面的驱动因素第一是监管,第二是内部的数据治/管理(比如标准),第三才是数据应用。


举个典型案例,比如同一业务指标在不同系统间的结果不一致。这个分析起来要看从业务定义开始,到数据采集、加工处理、应用各个环节;影响范围也会比较广,比如对监管、对决策;从数据体系职能域看呢,又会和数据治理数据标准、数据架构有关联。


从数据生产者、使用者的角度都存在潜在的问题,流程、标准不一致也是导致问题的原因,所以数据质量的讨论往往比较复杂琐碎。有个简化的思路就是quality = fitness for purpose,是否有问题,关键看是谁的什么purpose。大数据背景下补充两个dq属性,一个是可链接性,内外部数据的关联整合;另一个是真实性,这是传统dq未曾参与或者说积极回避的事情。真实性实在是难啊,直接就可以成为i数据挖掘、人工智能的应用案例;相比之下关联整合现在做的还比较多。现在更愿意采用fitness for purpose也是短期效益迫使的缘故,数据质量的长期效益往往难以实现、也难以证明。


数据质量是综合表现,原因错综复杂。数据治理是王婆娘的裹脚布,也是政治斗争的绞肉机。治理与管理都存在矛盾,跟别说与应用之间的关系了。传说国外企业的CDO往往三年就要更换东家,也就很容易理解了。


归根结底都要落到人的因素上,数据的管理与应用是客户因素占比大,还是主管因素占比大呢?我想大家心里都有谱,所以试图依赖技术手段解决管理问题终归都会失效。


回到开头的问题,治理、管理都是细腻的事情,需要工匠化反复锤炼,还有长期不受重视的困惑,这些都对从业者是巨大的挑战。对我个人来言,我更愿意去在大数据实践中讨论治理、管理与应用的融合,换句话说就是价值导向驱动数据体系的运转。这样的视角下,可以研究的问题就会很多,并且目标会更精准一下。相比原来试图从底层解决治理、管理问题的思路要务实一些。另外就是可以持续探索新技术了,人工智能、区块链都是目光所及范围之内的内容。



(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询