大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。是允许开发者们或是将写好的程序放在“云”里运行,或是使用“云”里提供的服务,或二者皆是。类似目前很多舆情监测软件大数据分析系统,大数据平台是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等为一体的平台。那么,要如何搭建一个数据分析平台呢?
一、何为数据分析
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,
二、数据分析作用
1、现状分析
1)企业现阶段的整体运营情况,通过各个经营指标的完成情况来衡量企业的运营状态,以说明企业整体运营是更好了还是坏了,好的程度是如何,坏的程度又到哪里。
2)企业各项业务的构成,让你了解企业各项业务的发展及变动情况,对企业经营状况有更深入的了解。
2、原因分析
进行现状分析之后,我们对企业的整体运营情况有了一个基本的了解,但是不知道运营情况具体好在哪里,差在哪里,是什么原因引起的。这时候我们就需要开展原因分析,以进一步确定业务变动的具体原因。
3、预测分析
在了解企业运营现状后,有时候还需要对企业未来发展趋势做出预测,为企业制定经营目标以及提供有效的策略参考与决策依据,以确保企业的可持续健康发展。 预测分析一般通过专题分析来完成,通常在制定企业季度、年度等计划时进行,其开展的频率没有现状分析及原因分析高。
三、数据分析平台结构
1、数据采集层
底层就是各种数据源,主要是对企业底层数据的采集和解析,将零散的数据整合起来,包括企业的核心业务数据、用户数据、日志数据、集团数据等等,通常有传统的ETL离线采集和实时采集两种方式
2、数据储存和处理层
有了数据底层的数据,然后根据需求和场景的不同进行数据预处理,储存到一个合适的持久化储存层中,比如说OLAP、机器学习、数据库等等
3、数据分析层
这里就要用到BI分析系统,如果是传统的数据挖掘还有SPSS,这一层主要是对数据进行加工,然后进行深层次的分析和挖掘。
4、数据应用层
根据业务需求不同划分出不同类别的应用,主要是对最终的数据进行展示和可视化,如上图的数据报表、仪表板、数字大屏、及时查询等等。
四、如何搭建数据分析平台
1、确定数据源
当今的IT生态系统,需要对各种不同种类来源的数据进行分析。这些来源可能是从在线Web应用程序,批量上传或feed,流媒体直播数据,来自工业、手持、家居传感的任何东西等等。
2、数据采集
这个过程包括分析,验证,清洗,转换,去重,然后存到适合你们公司的一个持久化设备中(硬盘、存储、云等)。
3、存储数据
一旦数据进入大数据系统,清洗,并转化为所需格式时,这些过程都将在数据存储到一个合适的持久化层中进行。
4、数据处理和分析
在这一阶段中的一部分干净数据是去规范化的,包括对一些相关的数据集的数据进行一些排序,在规定的时间间隔内进行数据结果归集,执行机器学习算法,预测分析等。
5、数据的可视化和数据展示
展示经过各个不同分析算法处理过的数据结果。该步骤包括从预先计算汇总的结果(或其他类似数据集)中的读取和用一种友好界面或者表格(图表等等)的形式展示出来。这样便于对于数据分析结果的理解。