首页 亿信华辰大数据知识库 数据集成的三种方法

数据集成的三种方法

|亿信华辰大数据知识库2022-01-18

数据集成的三种方法

在如今大数据时代,企业对数据的采集、存储、处理和共享的数量与日俱增,经常会出现不同的系统间数据不一致的问题,这就需要各系统之间进行集成。

    由于各系统架构不一致,所以目前采取的方式主要是数据集成。但是,在实施数据集成的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。
数据集成可以分为两种,实时性的和非实时的。目前大多数据集成产品是非实时的,对于需要整合的数据,先由一个系统定时导出并生成xml格式的数据,然后由另一个系统定时来处理。非实时的系统的优点是比较容易实现,缺点是不能实现各系统数据的实时集成。实时数据集成系统可以采用数据库层的直接集成或者通过面向服务架构(SOA)来实现,由于数据库厂商一般难以接受开放数据库接口给其他厂商,所以未来发展的趋势主要还是利用SOA来实现数据集成。

什么是SOA

SOA,即面向服务的架构,它是一个组件模型,将应用程序的不同功能单元进行拆分,并通过这些服务之间以中立的方式定义的接口和协议联系起来。它独立于实现服务的硬件平台、操作系统和编程语言。这使得构建在各种各样的系统中的服务可以以一种统一和通用的方式进行交互。

实时数据集成方法

实时数据集成一般分为两个处理过程:一是对数据按照SOA架构的需要进行整合加工形成可用的信息,二是将信息以符合SOA规范的方式发布出去。具体的实时数据集成可以分为以下三种:

首先看第一种,我们知道,在业务系统中间层上存在一个虚拟数据层,用户可以通过JDBC,FILE适配器、应用适配器等方式向数据库发出请求,数据库会将数据映射到虚拟数据层,相当于将数据临时存储到虚拟数据层,然后按照一定标准对数据加工整合,用户就可以通过可视化方式获取这些处理好的数据。处理好的数据可以通过web service,JDBC,数据对象等多种方式发布出去。当用户通过中间件访问虚拟数据层的数据时,虚拟数据层会根据系统定义的逻辑首先将需要加工的细节数据从各个数据源抽取到虚拟数据层,然后中间件根据设计时的数据加工逻辑对其进行加工,最后中间件将加工好的数据以调用接口要求的格式返回。
采用虚拟数据服务层的优势为:
  1. 对数据的处理会比较灵活,应用和底层的数据实现松耦合。
  2. 支持并发方式访问数据。
  3. 数据可以采用多种方式对外提供接口。
  4. 确保数据的时效性。
但是,这样做的问题一是数据传输速率不够快,二是当数据量非常大时,效率会变低。

第二种是在数据库底层就对数据进行加工处理,然后将处理好的数据以标准的接口发布到中间件层,用户通过中间件层访问数据。此方法流程如下,首先根据用户的业务需求,在数据库底层设计数据转化流程,然后将数据转化的流程与数据通过web服务,注册到中间件层,当前端用户需要数据服务时,直接调用web服务,数据库就会先对数据进行整合加工,存储在临时表中,用户从临时表中取出加工后的数据,与第一种模式的区别在于,它将数据的加工处理放在了数据源层,其优势在于:
  1. 对大数据量效率会非常高。
  2. 可以充分利用数据库的处理能力。
  3. 可以进行增量数据的处理。
  4. 数据转化和数据获取松耦合,可以实现异步处理。
该模式的问题在于:
  • 过于依赖数据库的处理能力,因此必须针对所有数据源,搭建一个数据库关系系统。
  • 需要调用两次WEB服务中,一次为转化,一次为数据读取,数据量非常小的情况下,效率不够高。

第三种是将分散在数据层的数据先整合到ODS或者数据仓库中进行整合加工,然后再将加工整理后的数据以标准接口发布到中间件层。为了保证为企业提供一个全局的数据视图,我们可以通过建立一个全局的操作型数据库ODS,当数据源内的数据发生变化时,CDC会捕捉到变化的数据并通过ETL工具或者其它手段同步到ODS数据库。在该模式中,ODS里的数据可以封装成WEB服务发布在中间件层,中间件层负责数据的接入访问。当前端业务流程需要集成的数据时,可以直接访问ODS内的数据,如果数据集成比较复杂,可以根据用户的业务需要,通过ETL工具或者其它工具对统一模型层的数据进行加工放到汇总数据层,然后再从汇总数据层访问数据。

有哪些支持实时数据集成的产品

睿治数据集成管理是亿信华辰自研的数据集成系统,可实现跨部门数据的传输、加载、清洗、转换和整合,支持自定义调度和图形化监控,实现统一调度、统一监控,满足运维可视化需求,提高运维管理工作效率。功能架构如图所示。

认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型