在数据的生命周期中,与主题相关的数据经常作为一个数据集合,从源头数据开始,在不同的业务环节之间被交换、存储、审计、使用。当前的数据交换技术主要集中于解决异构数据的集成、组织与管理,如对不合格数据的撤销,对数据的交换过程进行追踪等。
数据交换的定义
数据交换(Data Switching)是指在多个不同信息系统之间,依据一定的原则,采取相应的技术实现数据资源共享的过程。
数据交换的作用
数据交换的一个关键就是数据交换平台,为源数据库与目标数据库之间资料交接管理流程的规范化、流程化管理提供支撑,是实现数据共享的有效工具。数据交换平台的功能是实现异构应用系统之间信息交换,具体包含三个方面:
能够识别不同的应用系统类型以及数据接口,可以方便地与各类型的数据库、文件、消息街口等建立集成机制,实现数据通信及数据交换机制。
解决跨多系统之间信息的有序交换,任意系统之间可以实现主动发送、请求/应答、订阅/发布交换模式,并通过路由控制实现分布式网络中的信息交换。
提供传输可靠性保障,支持断点续传、网络容错,在系统运行出现故障时保障数据可靠;支持应用的实时、定时、主动、被动模式,实现同步/异步消息通信;支持数据高速传输,适应网络传输速率,提供透明压缩传输功能。
数据交换的流程
以亿信睿治数据交换平台为例,数据交换过程如下:
-
数据提取:数据提取是数据交换的最基础的步骤,根据数据集模板和数据集实例的定义,提取源数据库中的交换数据,根据数据质量集中定义的约束规则对数据进行数据约束的检查,确保数据的完整性和正确性。
-
数据转换:数据转换是根据数据集实例中提取出来的源数据库中的数据,通过数据映射规则的描述完成数据集的转换。将经过数据转换后的数据集提交给数据加载服务器,来完成数据加载操作。数据加载是数据交换的核心点,根据提供的数据加载调度算法,按照相应的优先级来进行数据加载操作。
-
数据传输:数据传输提供数据打包压缩和断点续传两种功能,当压缩包在上传的过程中,遇网络故障,可以从断点部分继续上传未上传的部分,而没有必要重新开始上传下载。断点续传可以节省时间,提高数据上传速度。根据数据交换的定义中数据状态的记录信息,可以获得在数据提取和数据加载过程中的数据,也可以通过对数据的查询来跟踪和管理数据。
-
数据质量控制:数据质量控制贯穿整个数据交换的始终。根据质量约束元模型,将数据表间的主外键规则和一致性约束规则进行检查,查看数据中是否有不可见的错误信息,如错误字符等。检查数据项的约束条件和查询时的数据是否满足筛选的条件,同时记录在数据质量约束元模型中,在数据的各个流转过程中完成数据质量的检查。
-
数据交换流程监控:流程监视提供数据交换过程中数据集状态的可视化监视,是一种重要的数据交换管理手段。
数据交换平台让数据的运用更灵活,让数据共享交换变得随时随地、按需和便捷,充分调度计算设施、存储设备、应用程序等资源,满足用户多元化、复杂的需求,降低了开发、管理的难度。亿信华辰公司在大数据领域深耕15年,有着深厚的技术底蕴,睿治数据交换平台作为公司主力产品,具备多方面优势:
支持多种数据项目类型如数据迁移、数据同步、数据集中、数据共享、数据仓库等。多种交换策略,定时推送、一次性交换、主动抽取、订阅等,满足实时、离线数据交换需求。
灵活的体系架构,既可支持集中部署,也可支持分布部署,数据既可选择落地存储传输,也可以选择不落地方式传输交换。交换源端与目标端灵活配置,源端与目标端多种方式可任意组合。
数据交换平台可以无缝集成更多功能产品,如元数据管理、数据质量、数据资产等,灵活匹配项目实际需求场景。
全面的运行监控和系统监控,完整的日志追踪,保障系统稳定,交换过程可监管。