亿信华辰

连续3年稳坐商务智能应用榜首

与此同时,亿信华辰在数据治理领域荣登五强

首页行业资讯数据分析

ETL与大数据的关系是什么

时间:2020-07-31来源:知乎浏览数:37

ETL 是”Extract”,”Transform”和”Load”3 个单词的首字母缩写,是数据抽取、转换、装载的意思,一般将 ETL 简写为数据抽取。 ETL 是构建数据仓库和数据挖掘的很重要的一部分。本文通过介 绍 ETL 技术架构,分析常见 ETL 工具,讨论了 ETL 技术对商业领 域的意义。ETL 技术很大程度上提高了数据输入的质量,为大数据 分析和数据挖掘提供巨大的支持。

一、ETL 体系架构

下图为 ETL 体系结构,它是主流 ETL 产品框架的主要组成部分。ETL 是指从源系统中提取数据,转换数据为一个标准的格式, 并加载数据到目标数据存储区,通常是数据仓库。


(一)数据抽取

数据抽取就是从外部不同的数据源中抽取数据,需要确认数 据的来源和以及将到的数据抽取技术。数据抽取分为数据增量抽 取和全量抽取。增量抽取一般有 4 种抽取模式:

①时间戳方式:通过比较需要抽取的数据库系统时间戳与抽取源表的时间戳字段的 值来决定抽取哪些数据,这种方式需要源表中存在一个或多个时间戳字段,并且其值随着新纪录的增加而不断增加,执行数据抽取时,程序通过时间戳对数据进行过滤,抽取设定的时间戳的数据;

②全表对比方式:每次从源表中读取所有记录,然后逐条比较源表 和目标表的记录,将新增和修改的记录过滤读取出来,采用 MD5 校验码。

③触发器方式:根据抽取要求,要建立插入、修改和删除 3 个 触发器,该方法需要用户在源数据库中有创建触发器和临时表的 权限,触发器可以捕获新新增的数据到临时表中,在进行抽取时, 程序会自动从临时表中读取新增的数据。

④志表方式:该方法是在 数据库中创建业务日志表,当系统监控的业务数据发生特定的变 化时,日志表内容会记录更新。日志表的维护需要编写特定的程序代码来完成。

(二)数据转换

数据转换是 ETL 过程中最为繁琐的部分,主要任务包括数据 类型转换、数据格式转换等,可以在数据抽取过程中利用关系数据 库的特性进行转换和在 ETL 引擎工具中完成。 一般来说,从数据源中抽取的数据是不符合入数据仓的要求, 有必要对数据进行转换、清洗、拆分、汇总等处理,解决数据格式的不一致、数据输入错误、数据不完整等问题。进行数据转换的原因 有以下几点:

①数据不完整性:在数据库中有信息缺失,从而导致数据的不完整性。解决的办法是找到错误信息进行补全;

②数据格式错误:指的是缺失数据值或数据超出数据范围的问题,解决办法 是定义域完整性进行格式约束;

③数据不一致性:表现为主表与子 表的数据不能匹配,一般原因是缺少外键的定义,需要找由业务部 门对数据进行核对,修正后再进行抽取。

(三)数据加载

数据加载一般是 ETL 的最后一步。是值将抽取和转换的数据 从数据临时表或者文件中导入到指定的数据仓库,装载数据的最 佳方法一般是取决于所执行操作的类型以及需要装入多少数据。 有两种装载方式:

①一种是直接 SQL 语句进行操作;

②采用关系数 据库特有的装载工具批量进行装载,甚至可以采用多程并行处理 方式加载数据,提高程序运行效率。

二、ETL 常见工具

当选择 ETL 产品时, 最关键的因素是考虑这个产品在你的指定的环境和配置下,这个产品的执行性能。当你选择一个 ETL 工具 时,需要考虑选中工具的因素有:

(1)能够支持分布的数据整合需 要并且要允许你借助于手头的资源和技术

(2)数据整合工具的使 用不应该干扰你现在的环境, 而是应该充分利用由 RDBMS 和 SQL 提供的能力和功能。

通过 ETL 工具,实现 ETL 数据抽取,主要是原因是维护容易。 目前市场上主流的 ETL 工具可以分为两大类:一类是专业 ETL 厂 商的产品,这类产品一般都具备较完善的体系结构和久经考验的 产品,功能复杂而详尽;

另一类是整体数据仓库方案供应商,他们在提供数据仓库存储、设计、展现工具的同时也 提供相应的 ETL 工具。比如亿信华辰的数据工厂系统

三、ETL 技术在商业领域的作用

在商业领域中,商业智能(Business Intelligence)的关键是 从许多的来自不同的企业运作系统的数据,经过提取和清理获得 有用并且准确的数据,经 ETL 过程,合并到企业级的数据仓库里, 从而得到企业数据的一个全局视图,为管理者决策过程提供支持。 ETL 在整个 BI 过程中起到承上启下的作用,ETL 的成败将直接影 响整个 BI 项目的成功与否。ETL 技术可以使得商业分析速度加 快,使公司的业务获得决策更多的决策时间。随着 ETL 技术成本下 降和计算能力的增长, 分析技术开始从内存与存储价格的下降中 获益。同时,随着开源软件挖掘出更有价值的数据,从海量的数据 中发现之前用户的真正搜索需要的数据,支撑决策。

市面上大多BI工具都不含ETL功能,在进行上述项目时,通常会用到BI、ETL两个工具,成本高、花费时间长。而亿信ABI基于这个需求,依赖十余年数仓经验,推出可视化ETL功能,通过简单的拖拽就可以完成ETL过程。

快乐分享
© 2020 ESENSOFT 北京亿信华辰软件有限责任公司| 版权所有:京ICP备07017321号 京公网安备11010802016281号|免责声明

联系
电话

您好,商务咨询请联系

咨询热线:400-0011-866转0

手机咨询:137-0121-6790

社区
交流

产品技术问题交流

bbs.esensoft.com

9分钟快速处理问题