一、数据治理概念定义
目前业内数据治理总结起来一共分为两类,一类是狭义的数据治理,是指数据指标口径一致性的治理,此类数据治理主要是解决指标口径的一致性,解决数据“不准”的问题,也由此引申出一些智能数仓、指标元数据工具,比如美团的起源、快手的盖亚、阿里的dataphin等等;另一类是指广义的数据治理,是指包括数据指标口径治理、数据安全治理、数据资源成本治理、数据资产元数据治理、数据产出治理等在内的大治理,此类数据治理是需要综合解决数据从采集加工到应用分析再到销毁全生命周期内的口径、成本、安全、合规和产出问题,在工具建设上,目前笔者看到的多是分散在数据安全、资产中心、SLA中心等不同的产品领域。
二、数据治理的目标
数据治理的目标是提高数据的质量(准确性、及时性、完整性、唯一性、一致性,有效性),确保数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享,推进数据资源的整合、服务和共享,从而提升企事业单位信息化水平,充分发挥数据资产作用。
三、数据治理的范围
数据治理项目的范围通常都会包含:组织建设、数据安全、数据质量、元数据管理、数据价值等几个模块。
1、数据质量
数据质量的提升通常包含以下几个方面:1)数据质量评估,2)数据质量检查,3)数据质量监控,4)问题处理机制,5)根据血缘关系和业务场景锁定高价值数据,进行高安全级别管控,避免数据出错。
2、元数据管理
元数据从数据的角度可以分为三类:业务元数据、技术元数据和管理元数据。
业务元数据是从业务的视角去描述数据:表名称、表的血缘关系、表的字段说明、指标的统计口径等多种业务描述;
技术元数据从技术的角度去描述数据:表的sql、字段长度、字段类型、有效值、默认值等多种技术描述;
管理元数据是包含数据管理的信息在里面,例如:表的业务属主、表的技术负责人、表的读权限等。
3、组织建设
数据治理的大部分问题更多是政策、业务上的问题,保障数据治理能够长期有效的重要手段必须建立数据治理委员会,跨部门跨组织,把技术、业务等相关人员组织起来,制定政策、规范、评审需求、裁决分歧等。
4、数据价值
数据治理的目的就是提升数据价值,为企业带来实质性的效益。
5、数据安全
数据安全管理贯穿于数据治理全过程,提供对隐私数据的加密、脱敏、模糊化处理、数据库授权监控等多种数据安全管理措施,全方位保障数据的安全运作。
四、数据平台建设原则
1、初期能够快速见效并体现建设价值,不盲目投入
实施周期不易过长,规模不易过大,能够快速的见到教据总线带来的效果和价值。
2、应用(需求)驱动主导数据平台的实现,加强业务的关注和参与
应用是展现数据总线建设效果的门户,因此需要建设业务人员最紧迫和最关注的需求和应用,让业务部门最快参与数据总线的建设当中。
3、重视内部人员培养,建设配套运营制度和管理体系
前期让公司内IT人员尽量更多、更深入的参与到数据总线的建设中,后期角色以管理为主,尽量与合作伙伴共同建设二期以上。配套的管理规范、技术规范、运营体系。
4、借鉴同业的成功经验和成果,选择成熟技术架构和解决方案
尽量参考同行业、同规模、同类型企业行的建设经验,适当创新。
五、如何做好数据治理平台
1、制定数据标准,优化流程
对企业来说,数据有很多来源。金融、人力、供应链、生产、销售等内部数据;政策、经济、社会、科技、产业、市场、竞争者等外部数据。尽管数据来源广泛,数据量大是其优势,但如果不加以整理,混乱的数据不但不利于分析应用,而且会造成不必要的财产损失。所以企业应建立统一的数据标准、数据管理流程和系统,以规范数据生产与供应过程。
2、搭建平台
对于数据治理平台的搭建,企业需要考虑用户的不同需求,从而建立不同的模块。数据治理平台的内容主要包括数据质量管理、数据标准管理、数据安全管理、数据模型工具、元数据管理、主数据管理等功能模块。我们所说的数据治理项目不是为治理数据而构建,而是与大数据平台、数据仓库、数据分析挖掘等项目相结合,通过提高数据质量、控制数据安全性,使数据发挥最大效益。
3、优化模型,确保数据安全
数据安全管理是从数据资产整理开始的。将数据资产进行整理分类,可以明确敏感数据在系统内的分布情况,判断敏感数据是如何被访问的,以及确定当前账号和授权的状态。依据数据价值和数据特性,对企业的核心数据资产进行分类,利用数据治理工具将其模型化,确定敏感数据的位置、描述和处理方法,确保数据的合法合规地使用。