随着业务发展,公司对数据应用使用场景越来越多,数据也会随着业务快速增长,随之而来,数据存储,数据模型建设,数据质量,使用规范上都会出现一些问题。尤其是互联网行业,野蛮式增长背后都是烟囱式的数据建设,数据冗余,数据孤岛问题非常多。主要表现在以下几个方面:
1)指标口径不一致;
2)数据命名不规范;
3)数据权限混乱;
4)数据冗余问题非常严重;
5)缺乏元数据管理机制,问题核查;
6)血缘关系查询非常困难,低效。
一、数据治理及其意义
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。数据治理核心是优化现有数据查询或计算体系,通过治理解决以下几点:
1)规范数据建设,指标建设,保障数据建模统一性,统一标准,数据一致性 ;
2)优化数据管理方案,提升问题查找或解决问题效率;
3)降低使用数据成本,和提升数据查询效率。
二、数据治理实施步骤
1、对企业数据进行归集和标准化。
数据的污染可能发生在数据产生、采集、传输、流转、加工、存储、提取、交换等各个环节,因此要保证数据治理目标的实现,就必须对数据进行全流程的管控,要在数据质量、数据标准、元数据、数据文件交换、主辅数据源、数据生命周期、数据责任、数据安全等方面形成统一的数据治理规范。
2、数据模型管理和标签梳理。
目前企业原始数据库中存在大量的同名不同义、同义不同名,冗余字段、枚举值不一致、字段和表没有注释,意思含糊不清等问题,会直接影响系统对数据的识别。数据建模让数据结构更加丰富和结构清晰化,便于数据口径统一。
除此之外,内部统一标签也至关重要。数据标签是对数据实体特征的符号表示,每一个数据标签都是我们认识、观察和描述数据实体的一个角度。顾客标签包括年龄、性别、兴趣爱好、地区、购买力、产品偏好、忠诚度等;商品标签包含了规格、条码、图片、口味、包装等信息。
3、企业算法和人工智能应用。
在对企业数据进行归集和标准化,并对数据模型进行管控和标签梳理之后,就可以对数据进行管理,并辅之以相应算法和人工智能,在具体业务场景应用。
以元数据管理为例:人工智能实现对非结构化数据的采集和关键信息的提取,并实现元数据的维护和整理。
以
主数据管理为例:主数据是企业核心业务实体的数据,是在整个价值链上被重复、共享应用与多个业务流程的,并与各个业务部门与各个系统之间共享的基础数据。在复杂数据主数据系统中,机器学习,自然语言处理等人工智能技术可以帮助定义和维护数据匹配规则,以及确定与主数据相关的记录,建立交叉引用等规则。
以数据模型管理为例:人工智能可以帮助企业实现经验模型与计算机模型的完美融合,构建商品和会员的知识图谱。