首页 行业百科 数据治理需要什么技术

数据治理需要什么技术

|亿信华辰大数据知识库2022-04-28

数据治理需要什么技术

数据治理使组织能够处理其拥有的数据,从该数据中获取更多价值,并使用户可以看到该数据的重要方面。它还提供管理这些方面的功能。这不仅是因为现有数据的错误和遗漏,而且因为数据的新用途通常需要新的属性,因此需要新的元数据来支持它们。

数据治理使组织能够处理其拥有的数据,从该数据中获取更多价值,并使用户可以看到该数据的重要方面。它还提供管理这些方面的功能。这不仅是因为现有数据的错误和遗漏,而且因为数据的新用途通常需要新的属性,因此需要新的元数据来支持它们。那么,数据治理需要什么技术。
一、传统数据治理痛点
1)业务难结合:业务元数据的广泛缺失,导致业务人员无法使用技术性的元数据系统,元数据缺乏业务用户,使用者少;
2)应用场景缺:元数据被当成单独的系统,而不是广泛的技术基础,导致只关心元数据本身的应用场景;
3)管理范围窄:要做数据治理首先要知道有哪些数据,传统的数据治理往往只管理了数据领域,很少关注业务、管理和开发相关的数据资产,数据管理范围比较窄,而且,受限于技术实现,即使在数据领域的数据资产也很难做到精确管理;
4)技术不完善:在技术层面存储缺乏扩展性,采集自动程度不高,管理实时性不高。
二、数据治理的核心技术
1、数据规范化
数据规范化有简单的底层数据层面的,如数据类型转换、单位变换、格式表换等,也有较为复杂的数据项规范化处理,如电话号码、邮编、地址等。这类问题的主要成因是自然语言表达上的差异性会造成同一实体存在多种表达形式。数据的规范化处理需要根据应用的需求特点,确定数据粒度和表达方式。地址规范化处理背后的问题是实体链指问题,即把同一实体的不同表达形式(不同名字)映射到同一个实体名字上,消除实体表达的语义鸿沟,进而通过关联在数据集中不同地方出现的相同语义的实体,达到数据融合的目的。
2、数据的结构化处理
数据结构化处理首先要对原始数据进行解析,提取出需要的信息,再进一步将其转换成结构化数据。结构化处理的主要输出形式是二维表或者图数据,它需要用户确定数据在转换过程中采用的规则。很多数据采用的是结构化强一些的数据模型,如JSO格式,这类数据相对关系型数据更灵活,在结构化转换过程中也需要一些技术上的处理。也有很多非结构化数据、Web数据是以文本形式存在的,需要使用信息抽取技术识别文本中的实体、属性、关系等信息。
3、数据质量评估与数据清洗
一些简单的数据质量问题可以利用自动化的算法发现,因为数据质量问题的多样性和不可预测性,数据可视化技术成为数据质量评估的关键技术。借助可视化技术,对数据语义非常了解的业务人员更容易发现数据存在的质量问题(如缺失、不一致、异常等)。
伴随着数据质量问题的发现,用户可以定义一些数据清洗规则,批量化地处理数据中存在的质量问题,提高数据清洗的效率。在数据库研究领域,也有人借助众包的思路提升数据清洗的效率。这种做法也是基于用户在数据清洗过程中发挥的重要作用进行的。在数据清洗过程中,需要多轮次的人机交互,系统的交互界面和交互方式对于数据清洗算法的有效性尤为重要。

三、好用的数据治理工具有哪些
作为大数据治理的落地工具,我们要安利一款工具——睿治,由亿信华辰自主研发的由多个产品组成的数据生命全周期管理应用平台,是国内功能最全的数据治理平台,具有助力数据标准落地,提升数据质量的重要作用。它是一款覆盖数据全生命周期的数据治理平台,它通过对数据从创建到消亡全过程的监控和治理,实现数据的统一管理,保证了业务数据在采集、集中、转换、存储、应用整个过程中的完整性、准确性、一致性和实效性。在整个过程中将数据管起来、用起来、保证数据质量。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型
customer

在线咨询