首页 亿信华辰大数据知识库 ETL是BI(商业智能)的基础,调度是ETL的灵魂

ETL是BI(商业智能)的基础,调度是ETL的灵魂

|亿信华辰大数据知识库2021-12-23

随着企业的发展,各业务线、产品线、部门都会承建各种信息化系统方便开展自己的业务。

    但随着信息化建设的不断深入,由于业务系统之间各自为政、相互独立造成的数据孤岛”现象尤为普遍,业务不集成、流程不互通、数据不共享。这给企业进行数据的分析利用、报表开发、分析挖掘等带来了巨大困难。

    在此情况下,为了实现企业全局数据的系统化运作管理(信息孤岛、数据统计、数据分析、数据挖掘) ,为DSS(决策支持系统)、BI(商务智能)、经营分析系统等深度开发应用奠定基础,挖掘数据价值 ,企业会开始着手建立数据仓库,数据中台。将相互分离的业务系统的数据源整合在一起,建立一个统一的数据采集、处理、存储、分发、共享中心。


什么是ETL?

    ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。
    ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。
一、 数据的抽取(Extract)
    1、确定数据源,需要确定从哪些源系统进行数据抽取
    2、定义数据接口,对每个源文件及系统的每个字段进行详细说明
    3、确定数据抽取的方法:主动抽取/源系统推送;增量抽取/全量抽取;每日抽取/每月抽取
二、数据的清洗转换(Cleaning、Transform)
    数据清洗的任务是过滤那些不完整的、错误的、重复的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
    数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。
三、数据加载

    将数据缓冲区的数据直接加载到数据库对应表中,如果是全量方式则采用LOAD方式,如果是增量则根据业务规则MERGE进数据库


ETL的调度

调度维护
    1) 调度系统参数维护,对调度系统的公共参数:期数、进程数、数据日期、本期开始日期和本期结束日期进行设置和修改。
    2) 下传文件信息维护,维护所有区域的下传文件名称、文件状态、文件数据日期和对应区域的归属关系。
    3) 作业步定义与维护,定义作业对应的实际ETL处理过程,生成作业编号,定义作业类型和作业的驱动关系,作业的运行所需要的条件。
    4) 调度异常处理,对调度过程中出现的异常情况进行处理,提供错误查找、出错重跑功能。
日志管理
    1) 调度过程日志,管理记录调度中的主要过程和异常信息,如调度开始、调度完成、数据库操作异常和读写文件异常的日志。
    2) Job执行日志,管理记录Job执行信息的日志,提供该日志的查询、删除和执行状态重置功能。
    3) Job详细事件日志,管理记录Job执行中的详细事件(清洗记录条数、数据库具体操作情况)的日志,提供对日志的查询、删除操作。
作业调度
    正常情况下的作业调度,对整个ETL过程进行调度,提供分段提交处理和自动提交处理功能。

总结

    ETL是实现BI的基础,因为保证了数据的质量与正确性。如果质量出现问题,最后的报表做出来也是错的。
    市面上很多商业智能BI工具并不自带ETL,而是搭配开源ETL。这样可能会节省一部分费用,但是一旦出现问题就比较麻烦,用户需要将问题反馈到开源社区等待处理,在等待处理的过程中可能会浪费大量的时间,反而得不偿失。亿信ABI就是一款自带ETL的商业智能BI工具。其数据整合功能充分结合了大量项目人员的实施习惯,在整个数据建模的过程中,可以快速创建ETL过程和构建数据模型,操作简单,敏捷易用,提高效率,降低实施难度。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型