一、数据治理定义
狭义上讲,
数据治理是指对数据质量的管理、专注在数据本身。广义上讲,数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴。
二、数据治理目标
数据治理的目标是提高数据的质量(准确性和完整性),保证数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享; 推进信息资源的整合、对接和共享,从而提升 企业 信息化水平,充分发挥信息化作用。
三、数据治理平台基本功能
1、数据采集
1)支持构建归集层数据模型,支持常规字段类型、索引、是否允许空值等;支持物化(将数据模型物化到数据库)和反物化(将数据库扫描到数据模型);
2)支持数据库到数据库、API到数据库、消息中间件到数据库、文件到数据的数据采集;支持采集任务调度,可自定义采集周期,采集任务分组管理、采集日志查看等,支持全量采集、增量采集模式;
3)支持将各类外部数据源接入到平台中,同时实现接入验证;包括关系型数据库mysql、oracle、sqlserver、postgresql ;非关系型数据库MongoDB;数仓hive;消息队列kafka;
2、数据治理
1)支持数据加工任务的分类管理,实现数据从归集层到专题库的ETL,并在ETL过程中自定义实现数据加工算法;支持加工任务调度,可以自定义任务周期;
2)支持命名标准,通过命名标准约束数据建模过程中对于数据模型的命名,支持转换标准,可以转换字符串实现数据脱敏以及去除空格等;
3、数据共享
1)支持接口浏览、订阅、取消订阅、接口测试等;
2)支持接口订阅审核管理功能,可对于申请订阅的请求进行审核,接口审核后调用者才能正常调用接口请求;
3)支持自定义开发接口,可以开发数据库接口及实时数据接口,并以json格式返回数据;可以自定义数据返回格式;支持接口分级分类管理;
4、数据填报:
1)支持用户通过excel文件方式,按照指定格式将数据填报到归集库或专题库中;
2)支持用户通过页面表单进行数据填报,填报完成后数据直接进入归集库或专题库;
四、数据治理功能模块
1、主数据管理
主数据管理是通过运用相关的流程、技术和解决方案,对企业核心数据的有效管理过程。主数据管理涉及主数据的所有参与方,如用户、应用程序、业务流程等,创建并维护企业核心数据一致性、完整性、关联性和正确性。主数据是企业内外被广泛应用和共享的数据,被誉为是企业数据资产中的“黄金数据”,主数据管理是撬动企业数字化转型的支点,是企业数据治理最核心的部分。
2、元数据管理
元数据管理是对企业涉及的业务元数据、技术
元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。
3、数据质量管理
建立数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。
4、数据标准管理
数据标准适用于业务数据描述、信息管理及应用系统开发,可以作为经营管理中所涉及数据的规范化定义和统一解释,也可作为信息管理的基础,同时也是作为应用系统开发时进行数据定义的依据。涉及国家标准、行业标准、企业标准和地方标准,在定义元数据实体或元素时进行关联。数据标准需要不断的补充完善、更新优化和积累,以便更好的支撑业务的开发和系统的集成。
5、数据安全管理
数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。从管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识。从技术上,数据安全包括:数据的存储安全、传输安全和接口安全等。当然,安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限。企业需要在安全、效率之间找到平衡点。