首页 亿信华辰大数据知识库 数据分析、数据挖掘、数据统计、OLAP 的共同点与差异

数据分析、数据挖掘、数据统计、OLAP 的共同点与差异

|亿信华辰大数据知识库2021-09-06

数据分析、数据挖掘、数据统计、OLAP 的共同点与差异

大数据领域经常会看到数据分析、数据挖掘、数据统计、OLAP等等专业词汇,那么它们到底有什么含义、有什么区别?

数据分析

数据分析是指用适当的方法对收集来的大量数据进行分析,提取有用信息,将它们加以汇总和理解并消化,形成结论,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的重点是观察数据,需要对数据的变化趋势、比较特征等作出解释,以问题为导向,从数据上去发现问题、分析问题,甚至提出解决问题的方案,一般数据分析需要形成解释性的或结论性的数据报告。

数据分析的目的是基于具体的应用从一堆看起来杂乱无章的数据中提取有用的信息,从而找出所研究对象的内在规律来支持企业决策。可以说,它是对数据更深层次的整理。

数据分析基本分为几个步骤:识别需求->收集数据->分析数据->过程改进。


数据挖掘

数据挖掘是指按照既定的业务目标从大量的数据中通过算法进行探索、揭示隐藏其中的规律性并进一步模型化的先进、有效的的过程。数据挖掘更多的是运用算法和模型去发现潜藏在数据深层次的规律,数据挖掘的计算和规则较复杂,需要处理海量数据,对运算的能力要求较高。

数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据的类型可以是结构化的、半结构化的,甚至是异构型的。挖掘的方法也有很多种,应用最多的有关联规则,聚类,分类,以及离群点检测。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。高级的应用如航空航天,智慧城市等。

数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至异构性数据的数据源。

数据挖掘主要是面向决策,从海量数据中挖掘不为人知、无法直观得出的结论。例如内容推荐、相关度计算等。此工作更注重数据内在联系,数据仓库组建,分析系统开发,挖掘算法设计,甚至很多时候要亲力而为的从ETL开始处理原始数据,因此对计算机水平有较高要求。一般广度上不及数据分析,但深度上更为深入。

一般数据挖掘的流程是:问题理解和提出→数据准备→数据整理→建立模型→评价和解释。


数据统计

数据统计,是互联网传媒行业或其他操作流程的数据统计的统称,通过概率、统计、离散的数学方法建立合理模型,充分发掘数据内容,揭示事物在特定时间方面的数量特征,以便对事物进行定量乃至定性分析,精准快速的查找与分类。数据统计更多的偏向于数学,尤其是统计学,也就是数据的处理和计算,可能只是到指标和报表的层面;

数据统计就是目前常用的数据统计软件有SAS、SPSS、EXCEL等等。


OLAP

联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。OLAP主要是基于不同物理分布的数据库进行针对分析的处理技术,而不是面向具体事务的,面向具体事务的应用主要涉及终端用户,比如铁路的售票人员的售票行为。OLAP是将不同物理分布的数据进行整合分析得到汇总,统计信息,基于数据仓库。它不仅是一种数据的展现和观察方式,基于多个维度的交叉细分,能够让分析人员从多个角度、多个层面去观察和理解数据,也是一个建立数据系统的方法,核心思想就是建立多维度的数据立方体,以维度(Dimension)和度量(Measure)为基本概念,辅以元数据,实现可以钻取、切片、切块、旋转等灵活、系统、直观的数据展现。

总结

数据分析就是对数据进行分析、汇总、得出结论、做出决策这样一个过程;

数据挖掘就是运用更复杂的方法从数据中找到未知的、有用的、隐藏的规则;

数据统计就是通过统计学方法对数据进行排序、筛选、运算、统计等处理,得出结论,以便精准快速的查找与分类

OLAP就是指基于数据仓库让用户在线地从多个维度观察某个度量值,从而为决策提供支持。

比如一家超市:

数据统计就是每天记录当天卖了多少种商品,总销售额是多少。

数据分析适用场景根据记录,发现哪种商品卖得多,哪种卖得少。

数据挖掘就是对比了一段时间的记录,知道在夏天适合卖商品A、冬天适合卖商品B。

OLAP就是为了更好的管理数据,形成了一套存储、管理数据的系统方法论。

从上述4个概念,又可以延伸到现在比较火的一个概念,商业智能BI。

商业BI为什么这么受欢迎,因为它是一个能帮助企业做出合理业务决策的工具。BI工具已成为数据统计、数据分析、数据挖掘、OLAP的集成应用。以亿信ABI为例,它是一种一站式数据分析平台,具备多种核心功能,支持多种数据源接入,能自动高性能地对数据进行处理建模,管理数据指标,融合了人工智能技术来对数据进行分析与挖掘,能够满足各类企业的复杂需求。

如果对BI感兴趣,可以免费体验下一站式数据分析平台亿信ABI。

认为本内容有帮助
1
您可能需要的数据产品
亿信华辰助力政企数字化转型