一、什么是大数据
我们可以从数据管理难题的角度来描述大数据:由于数据量、数据速度和数据多样性方面的需求日益增加,人们无法使用再传统数据库来解决这种难题。大数据的定义很多,不过大部分定义都包含所谓大数据的“三个 V”的概念:
多样 (Variety):包括多种来源和格式(例如 Web 日志、社交媒体互动、电子商务与在线交易、金融交易,等等)的数据;
高速 (Velocity):从生成数据的时间到向用户提供可付诸行动的见解的时间,企业对速度的要求越来越高。因此,需要以相对较短的时间(从每天一次到实时)完成数据的收集、存储、处理和分析;
量大 (Volume):数据量从 TB 级到 PB 级不一而足。
二、什么是大数据平台
大数据平台是指以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,包括了统一的数据计算和存储中心、数据采集中心、运维管控中心、
数据治理中心、开放共享中心和应用中心。大数据平台是为了计算,现今社会所产生的越来越大的数据量。集数据处理、数据接入、查询检索、数据存储、应用接口、分析挖掘等为一体,以存储、运算、展现作为目的的平台。是允许开发者们或是将写好的程序放在“云”里运行,或是使用“云”里提供的服务,或二者皆是。
三、大数据平台的功能
1、速度快
结合列式数据库架构(相对于基于行的非并行处理传统数据库)和使用大规模并行处理技术,不仅能够大幅提高性能(通常约100到1000倍),还可以实现更低且更透明的定价机制。
2、容纳海量数据
利用计算机群集的存储和计算能力。不仅在性能上有所扩展,而且其处理传入的大量数据流的能力也相应提高。
3、利用Hadoop
Hadoop已成为大数据领域中的主要平台。利用Hadoop作为用于持久性和轻量型
数据管理的高效益平台。
4、兼容传统工具
确保平台已经过认证,可以兼容传统工具。
5、提供数据分析功能
确保大数据平台不仅支持在数秒钟内准备并加载数据,还支持利用高级算法建立预测模型,轻松部署模型以进行数据库内计分。同时使数据科学家能够使用现有统计软件包和首选语言。
6、为数据科学家提供支持
数据科学家在企业IT中拥有着更高的影响力和重要性,快速、高效、易于使用和广泛部署的大数据平台可以帮助拉近商业人士和技术专家之间的距离。