首页 亿信华辰大数据知识库 数据治理需要什么技术

数据治理需要什么技术

|亿信华辰大数据知识库2021-12-29

大数据作为一种资源,在政府、大型企业和机构中发挥着越来越重要的作用。随着大数据应用的不断推进,与数据资源的价值提炼、保值和增值密切相关的大数据治理越来越引起人们的重视。

    大数据治理是一项复杂的工程,它需要在国家、行业、企业等多个层面上开展体系化的建设,技术上包含数据资产确权、数据管理、数据开放共享、数据隐私保护等诸多方面。这些技术面临的挑战多、难度大,很多方面还没有形成被广泛认可的系统化的解决方案。


什么是数据治理

    数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。


传统数据治理的问题

    大数据治理之路并不是一帆风顺的,可以说是一路充满了坎坷和荆棘,怎样管理企业级的数据资产,怎样让业务积极参与到数据建设中来,怎样降低数据治理的落地难度之类的一系列情况,让数据治理的发展进展的不是很顺利,传统的数据治理的问题有以下几个:
(1)管理范围窄传统的数据治理只管理了数据领域,很少的关注到业务、管理和开发相关的数据资产,数据管理的范围比较狭窄,在数据领域的数据资产很难做到精准;
(2)难以结合业务业务元数据的广泛缺失,导致业务人员无法使用技术性的元数据系统,元数据缺乏业务用户,使用者比较少;
(3)应用场景缺少元数据被当做了单独的系统,没有和实际的应用结合起来,不是作为技术的基础而出现在大众面前的,所以只有元数据本身的应用场景;

(4)技术不完备在技术方面缺乏扩展性,管理实时性不高。


数据治理的核心技术

1、数据的结构化处理
    很多数据模型和算法是构建在结构化数据基础上的,多源异构数据要更好地与其他数据集融合,结构化处理是必不可少的过程。数据结构化处理首先要对原始数据进行解析,提取出需要的信息,再进一步将其转换成结构化数据。很多非结构化数据、Web数据是以文本形式存在的,需要使用信息抽取技术识别文本中的实体、属性、关系等信息。也有很多数据采用的是结构化强一些的数据模型,如JSO格式,这类数据相对关系型数据更灵活,在结构化转换过程中也需要一些技术上的处理。结构化处理的主要输出形式是二维表或者图数据,它需要用户确定数据在转换过程中采用的规则。
2、数据质量评估与数据清洗
    结构化处理主要是数据表达形式上的转换,数据结构化之后并不意味着能够直接使用。处理后的数据还要进行质量评估,如果发现数据中存在问题,则采取进一步的数据清洗措施。这个过程称作数据质量评估。一些简单的数据质量问题可以利用自动化的算法发现,因为数据质量问题的多样性和不可预测性,数据可视化技术成为数据质量评估的关键技术。借助可视化技术,对数据语义非常了解的业务人员更容易发现数据存在的质量问题(如缺失、不一致、异常等)。伴随着数据质量问题的发现,用户可以定义一些数据清洗规则,批量化地处理数据中存在的质量问题,提高数据清洗的效率。在数据库研究领域,也有人借助众包的思路提升数据清洗的效率。这种做法也是基于用户在数据清洗过程中发挥的重要作用进行的。在数据清洗过程中,需要多轮次的人机交互,系统的交互界面和交互方式对于数据清洗算法的有效性尤为重要。
3、数据规范化
    数据治理还有一项重要的内容是数据规范化,这也是数据准备中常见的问题。规范化有简单的底层数据层面的,如数据类型转换、单位变换、格式表换等,也有较为复杂的数据项规范化处理,如电话号码、邮编、地址等。这类问题的主要成因是自然语言表达上的差异性会造成同一实体存在多种表达形式。比较典型的例子是地址,人们需要对其进行规范化处理,以提升数据的质量。地址的规范化面临的一个比较大的挑战就是粒度的选取,同一个地址可以用不同粒度进行表达。数据的规范化处理需要根据应用的需求特点,确定数据粒度和表达方式。地址规范化处理背后的问题是实体链指问题,即把同一实体的不同表达形式(不同名字)映射到同一个实体名字上,消除实体表达的语义鸿沟,进而通过关联在数据集中不同地方出现的相同语义的实体,达到数据融合的目的。

数据治理软件

    亿信华辰自主研发的睿治智能数据治理平台,是一款融合数据治理十大产品模块,覆盖数据全生命周期管理的应用平台,也是目前国内功能齐全的数据治理工具,助力数据标准落地,提升数据质量,实现数据资产融合。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型