首页 行业百科 数据集成需要解决的主要问题有哪些

数据集成需要解决的主要问题有哪些

|亿信华辰大数据知识库2022-05-10

数据集成需要解决的主要问题有哪些

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统

随着云计算的普及和大数据时代的到来,如何让各种数据源中的种类丰富的数据高效上云,以及经过云上大数据计算后,如何把计算结果回流到种类丰富数据源?或者云上各个产品之间的数据怎么进行同步?各个云厂商或者大数据解决方案提供商都推出了各自的数据集成产品,本文将就常见的解决方案进行探讨。
一、数据集成的定义
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
二、数据集成常见的问题
数据处理常常涉及数据集成操作,即将来自多个数据源的数据,如数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便为数据处理工作的顺利完成提供完整的数据基础。在数据集成过程中,需要考虑解决以下几个问题。
1、冗余问题
冗余问题是数据集成中经常发生的另一个问题。若一个属性可以从其他属性中推演出来,那这个属性就是冗余属性。例如,一个顾客数据表中的平均月收入属性就是冗余属性,显然它可以根据月收入属性计算出来。此外,属性命名的不一致也会导致集成后的数据集出现数据冗余问题。
2、数据值冲突检测与消除问题
在现实世界实体中,来自不同数据源的属性值或许不同。产生这种问题的原因可能是表示、比例尺度,或编码的差异等。例如,重量属性在一个系统中采用公制,而在另一个系统中却采用英制;价格属性在不同地点采用不同的货币单位。这些语义的差异为数据集成带来许多问题。
3、模式集成问题
模式集成问题就是如何使来自多个数据源的现实世界的实体相互匹配,这其中就涉及实体识别问题。例如,如何确定一个数据库中的“custom_id”与另一个数据库中的“custome_number”是否表示同一实体。
三、如何集成数据
1、建设数据集成方案
系统集成必须围绕信息需求制定数据集成方案,并需结合信息标准数据流向规划以及业务系统建设使用情况来确定集成边界。内容边界一般涉及四个方面:需要的代码标准,需要的业务数据,提供的代码标准,提供的业务数据。除了集成内容边界,还要考虑数据集成的技术方式,一般有三种典型集成方式:ETL数据共享,数据库共享和API共享,三者是互补关系。
2、元数据注册
元数据是理解数据的前提,是推动企业持续数据治理优化的基础,元数据注册范围尽可能是业务系统完整元数据,以及涉及到共享和需要的数据及代码表的元数据。
3、代码标准检查
代码标准检查依托于上面的元数据,也是数据集成前代码统一的有效检查技术手段,我们可以获取多种代码差异,在方案评审中进行评审。
4、方案评审
评审内容:集成方案评审、代码标准评审。
评审处理原则:a)优先遵循数据源头标准;b)优先遵循教育部标准;c)需要信息中心、业务部门、公司共同讨论。
5、标准迭代
方案评审后会带来一系列的迭代工作,公司和信息中心层面需要完成代码标准迭代、数据模式迭代以及监督业务系统迭代情况,业务部门和第三方需要完成业务系统代码标准调整以及涉及到数据内容的清洗。
6、数据集成
以公司为主,业务系统提供方强力配合。注意典型数据清洗转换。
7、运行监控
运行监控对平台中不规范的接口、代码标准不一致情况、数据质量等问题进行监控,监控对数据治理是非常有帮助的。

四、关于亿信睿治数据集成管理平台
亿信华辰自主研发的睿治数据集成管理可实现跨部门数据的传输、加载、清洗、转换和整合,支持自定义调度和图形化监控,实现统一调度、统一监控,满足运维可视化需求,提高运维管理工作效率。
认为本内容有帮助
3
您可能需要的数据产品
亿信华辰助力政企数字化转型
customer

在线咨询