首页 亿信华辰大数据知识库 数据集成、数据挖掘的定义

数据集成、数据挖掘的定义

|亿信华辰大数据知识库2022-01-11

数据集成、数据挖掘的定义

信息爆炸时代,海量信息给人们带来许多负面影响,最主要的就是有效信息难以提炼,过多无用的信息必然会对有效信息产生干扰和有用知识的丢失。因此,人们迫切希望能对海量数据进行深入分析,发现并提取隐藏在其中的信息,以更好地利用这些数据。

为了发现数据中存在的关系和规则,根据现有的数据预测未来的发展趋势以及挖掘数据背后隐藏知识,数据挖掘技术应运而生。


数据挖掘的定义

数据挖掘是一个通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现从大量的数据中通过算法搜索隐藏于其中信息的过程。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。


数据挖掘的步骤

一、确定挖掘对象
数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至异构性数据的数据源。因此,首先要根据业务需求确定挖掘对象。
二、数据准备
首先,搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据;然后,研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型;再将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.
三、数据挖掘
选择合适的挖掘算法对所得到的经过转换的数据进行挖掘。
四、可视化分析
根据数据挖掘方法,使用可视化技术解释并评估结果。
五、建立知识图谱
将分析所得到的知识集成到业务信息系统的组织结构中去.
数据挖掘过程图

在数据挖掘经常需要数据集成合并来自多个数据存储的数据,存放在一个一致的数据存储中,这些数据源可能包括多个数据库。数据集成有助于减少结果数据集的冗余和不一致,提高后续挖掘过程的准确性和速度。


数据集成的定义

数据集成就是将若干个分散的数据源中的数据,逻辑地或物理地集成到一个统一的数据集合中。数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。实现数据集成的系统称作数据集成系统(见下图),它为用户提供统一的数据源访问接口,执行用户对数据源的访问请求。

数据集成系统模型


数据集成方法

中间件集成方法是目前比较流行的数据集成方法,中间件数据集成系统主要包括中间件和封装器,其中每个数据源对应一个封装器,中间件通过封装器和各个数据源交互。用户在全局数据模式的基础上向中间件发出查询请求。中间件处理用户请求,将其转换成各个数据源能够处理的子查询请求,并对此过程进行优化,以提高查询处理的并发性,减少响应时间。封装器对特定数据源进行了封装,将其数据模型转换为系统所采用的通用模型,并提供一致的访问机制。中间件将各个子查询请求发送给封装器,由封装器来和其封装的数据源交互,执行子查询请求,并将结果返回给中间件。

睿治数据挖掘与集成管理案例

    佛山某区政务服务数据管理局为了解决存在的痛点,主要建设以下内容:
  1. 优化数据架构,替换交换平台;
  2. 建设数据治理平台,提升数据质量
  3. 助力无纸化改革,优化无纸化入学方案
  4. 数据可视化管理
运用亿信华辰数据集成管理系统取得了显著成效:
  1. 由政务服务数据管理局大数据中心对接教育局报名数据和各部门数据,减少教育局对接工作;
  2. 建设数据治理平台,将所对接的问题数据进行治理,提升数据质量;
  3. 优化数据比对算法,将教育局报名数据和各部门数据进行智能匹配,提升数据比对率;
  4. 政务服务数据管理局将比对结果反馈到教育局,完成核实与录取过程,将对接和比对的工作量完全交给系统,彻底解放人工工作量。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型