一、大数据与大数据平台
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据平台是为了计算,现今社会所产生的越来越大的数据量。以存储、运算、展现作为目的的平台。是允许开发者们或是将写好的程序放在“云”里运行,或是使用“云”里提供的服务,或二者皆是。
二、大数据平台的功能
1、速度快
结合列式数据库架构(相对于基于行的非并行处理传统数据库)和使用大规模并行处理技术,不仅能够大幅提高性能(通常约100到1000倍),还可以实现更低且更透明的定价机制。
2、容纳海量数据
利用计算机群集的存储和计算能力。不仅在性能上有所扩展,而且其处理传入的大量数据流的能力也相应提高。
3、利用Hadoop
Hadoop已成为大数据领域中的主要平台。利用Hadoop作为用于持久性和轻量型数据管理的高效益平台。
4、兼容传统工具
确保平台已经过认证,可以兼容传统工具。
5、提供数据分析功能
确保大数据平台不仅支持在数秒钟内准备并加载数据,还支持利用高级算法建立预测模型,轻松部署模型以进行数据库内计分。同时使数据科学家能够使用现有统计软件包和首选语言。
6、为数据科学家提供支持
数据科学家在企业IT中拥有着更高的影响力和重要性,快速、高效、易于使用和广泛部署的大数据平台可以帮助拉近商业人士和技术专家之间的距离。
三、大数据平台的结构
1、数据收集层
底层就是各种数据源,主要是对企业底层数据的收集和解析,将零散的数据整合起来,包含企业的核心事务数据、用户数据、日志数据、集团数据等等,一般有传统的ETL离线收集和实时收集两种方式。
2、数据贮存和处理层
有了数据底层的数据,然后依据需求和场景的不同进行数据预处理,贮存到一个合适的持久化贮存层中。
3、数据剖析层
这里就要用到BI剖析体系。
4、数据使用层
依据事务需求不同划分出不同类别的使用,主要是对最终的数据进行展现和可视化。
四、大数据与大数据平台的应用
首先我们要有数据源,然后对数据进行收集和存储,在这基础上,再进行分析和应用,形成我们的产品和服务,而产品和服务也会产生新的数据,这些数据会循环进入我们的流程中。当这个循环体系成为一个智能化的体系,便会成为一种新的模式,然后具体运用到实际的应用中,一种是精准化定制,二是预测。
1、精准化定制
第一种是精准营销,现在已经比较常见的互联网营销,网页的推广等,或者是基于地理位置的信息推送,当我到达某个地方,会自动推送周边的消费设施等;
第二种是选址定位,包括零售店面的选址,或者是公共基础设施的选址;
第三种是个性化产品,比如智能化的搜索引擎搜索同样的内容,每个人的结果都不同,或者是一些定制化的新闻服务,或者是网游等。
这些全都是通过大数据平台对用户需求的
大数据分析,然后提供相对定制化的服务。
2、预测类应用
第一类是风险预警类的,比如疫情预测,日常健康管理的疾病预测,设备实施的运营维护,公共安全,以及金融行业的信用风险管理等;
第二类是实时优化类的,比如智能线路规划,实时定价等;
第三类是支持类的,小到企业的运营决策,证券投资决策,医疗行业的临床诊疗支持,以及电子政务等。