首页 行业百科 数据预处理需要做什么,有哪些流程

数据预处理需要做什么,有哪些流程

|亿信华辰大数据知识库2022-04-26

数据预处理需要做什么,有哪些流程

数据仓库的构建中,数据预处理是关键的一环,它是整个数据仓库的生命线,一直贯穿于项目始终。如果将数据仓库比喻为高楼,那么数据预处理就是地基,建设数据仓库的首要问题,要考虑从不同类型的源系统中提取数据以及要将数据存储在一个相当规模的目标数据库中,这个过程就是数据预处理过程。

数据仓库的构建中,数据预处理是关键的一环,它是整个数据仓库的生命线,一直贯穿于项目始终。如果将数据仓库比喻为高楼,那么数据预处理就是地基,建设数据仓库的首要问题,要考虑从不同类型的源系统中提取数据以及要将数据存储在一个相当规模的目标数据库中,这个过程就是数据预处理过程。
一、什么是数据预处理
数据预处理是指在主要的处理前对数据进行的一些处理,它是一个把数据从数据源依照一定的规则装入到数据仓库的过程,这个过程的实质就是符合特定规则的数据流动过程,从不同异构数据源流向统一的目标数据。数据预处理的主要过程有数据抽取(Extraction)、数据转换(Transformation)和数据加载(Loading),也称为ETL,这个过程是负责将分布的、异构数据源中的数据抽取到临时中间层进行转换、集成等处理,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
二、数据预处理流程
数据预处理包含三个方面的内容:一是“抽取(Extraction)”,指的是将数据从各种原始的业务系统中读取出来,这是所有工作的前提;二是“转换(Transformation)”,指按照预先设计好的规则将抽取的数据进行转换,使本来异构的数据格式能统一起来;三是“加载(Loading)”,将转换完的数据按计划导入到数据仓库中。在构建商务智能系统时,如何正确有效地将分散在各个不同数据源中的信息整合到系统中成为整个系统成败的关键,直接影响到系统的运行效率和最终结果。数据预处理正是解决这一问题的有力方案。
1、数据抽取
数据抽取部分是将数据从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中,在抽取的过程中需要挑选不同的抽取方法,尽可能地提高数据预处理的运行效率。如果已经清楚了数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据,手工数据量有多大,是否存在非结构化的数据等相关的信息,就可以根据这些信息开始进行数据抽取部分的设计。
2、数据转换
数据转换部分实际就是利用有关技术,如数理统计、数据挖掘或预定义的数据转换规则将源数据转化成满足数据质量要求的数据。数据预处理中,花费时间最长的就是数据的转换部分,一般情况下这部分的工作量要占整个数据预处理的2/3。在大多数情况下,数据转换是将数据汇总。在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓库的同步。
3、数据加载

数据加载部分是将转换后的数据加载到数据仓库中。数据加载策略包括加载周期和数据追加策略,数据加载周期要综合考虑经营分析需求和系统训载的代价,对不同业务系统的数据采用不同的加载周期,但必须保持同一时间业务数据的完整件和一致性。

三、关于睿治数据治理平台
睿治智能数据治理平台由亿信华辰自主研发,是一款融合数据治理十大产品模块,覆盖数据全生命周期管理的应用平台,也是目前国内功能齐全的数据治理工具,助力数据标准落地,提升数据质量,实现数据资产融合。睿治数据治理平台融合数据集成、数据交换、实时计算存储、元数据管理、数据标准管理、数据质量管理、主数据管理、数据资产管理、数据安全管理、数据生命周期管理十大产品模块,打通数据治理各个环节,十大产品模块可独立或任意组合使用,快速满足政府、企业各类不同的数据治理场景。
其中,数据集成管理可实现跨部门数据的传输、加载、清洗、转换和整合,支持自定义调度和图形化监控,实现统一调度、统一监控,满足运维可视化需求,提高运维管理工作效率。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型
customer

在线咨询