- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2019-12-13来源:亿信华辰浏览数:786次
随着企业信息化的发展,企业内部建立了大量的信息化系统。然而,这些信息系统的数据源大多彼此独立、相互封闭,使得数据难以在系统之间交流和共享,从而形成了所谓的“信息孤岛”。企业急需通过数据整合平台来联系整个企业的异构系统,完成在企业内部信息化系统之间无缝的共享和交换数据。
(图 1 )数据整合
数据工厂提供了一个统一的接口,屏蔽底层数据源的不同,使得用户不必考虑底层数据模型和地理位置不同等问题,能够通过一个统一的界面实现对异构数据源的整合。这样就使得对多数据源的操作就像操作一个数据源一样简单。
传统的ETL工具的数据整合方式是,首先从多种数据源抽取数据,然后在一个独立的ETL引擎转换数据,最后装载转换后的数据到目标数据库。
(图 2)传统数据整合
这种方式下,数据一定要在网络间传输两次,一次是源数据源和ETL服务器之间,一次是ETL服务器和目标数据源之间。如果用户想要确保源数据的参照完整性,需要根据目标数据库的标准维表进行参照,那么被参照的数据也一定要从目标数据源抽取到ETL服务器,这样就更增加了不必要的网络数据传输,降低了整体的处理性能。
数据工厂抽象了一个数据集结区的概念,用户定义的数据转换工作将在数据集结区上运行。
1、运行前分析整个ETL过程,根据尽少移动数据的原则选择数据集结区,消除不必要的网络传输;
2、直接在源数据源上进行转化操作,减少迁移的数据量;
3、通过异构数据同步工具,使得不同数据源之间的数据能够方便快捷的进行同步。
1数据集结区适配
1.1 数据集结区在源数据库
当需要整合的数据源都在同一个数据库时,数据工厂将数据集结区设置在源数据库上。在源数据库上对数据进行转换后,再将整合后的数据装载表到目标数据库。
(图 3)源数据源集结
1.2 数据集结区在目标数据库
当数据源来自于不同的数据库时,数据工厂将数据集结区设在目标数据库上。从源数据库抽取数据,装载表到目标服务器,然后在目标数据库上执行转换操作。
(图 4)目标数据源集结
1.3 数据集结区在默认数据库
当源和目标数据源都不是关系数据库时,数据工厂将数据集结区设置在默认数据库。将数据源的数据抽取到默认数据库中进行转换,最后再加载到目标数据源。
(图 5)默认数据源集结
2异构数据同步
数据工厂提供了一个通用的异构数据同步工具,通过该工具我们可以高效的在各种异构数据源之间进行数据的同步。该数据同步工具采用插件式架构,增加新的数据源支持时,仅需要扩展对应的读和写接口接口完成新数据源与原有数据源的数据同步支持。
(图 6)数据同步
通过灵活选择数据集结区与利用异构数据同步工具,数据工厂使得用户在跨数据源整合过程中达到性能和生产效率的完美结合。