谈起大数据,很多人都不陌生,不管是专业,非专业人士都耳熟能详。而所谓大数据分析,就是在研究大量的数据的过程中寻找模式、相关性和其他有用的信息,从而,对规模巨大的数据进行分析。帮助企业更好地适应变化,并做出更明智的决策。那么,大数据分析的数据有哪些类型呢?
从数据来源分析,可分为:机器和传感器数据、移动数据、人为数据、交易数据。
1、机器和传感器数据
包括功能设备创建或生成的数据,例如智能温度控制器、智能电表、连接互联网的家用电器和工厂机器。这些设备可以自动向中央服务器传输数据,还可以配置为与互联网络中的其他节点通信,这样就可以对数据进行分析。来自物联网的数据可以用于构建分析模型,提供规定的指令(如警示技术人员在真正出问题之前检查设备),连续监测预测性行为(如当传感器值表示有问题时进行识别)。
2、移动数据
能够上网的智能手机和平板上的App都能够追踪和沟通无数事件,从App内的个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)到交易数据(如搜索产品的记录事件)。
3、人为数据
人为数据为使用文本分析功能进行分析提供了丰富的数据源泉。广泛存在于文档、电子邮件、音频、图片、视频以及通过维基、博客,尤其是社交媒体产生的数据流。
4、交易数据
大数据平台能够获取更海量、时间跨度更大的结构化交易数据,不仅仅包括POS或电子商务购物数据,还包括行为交易数据,例如Web服务器记录的互联网点击流数据日志。这样就可以对更广泛的交易数据类型进行分析。
从数据结构分析,可以分为:非结构化数据、半结构化数据、结构化数据
1、非机构化数据
非结构化数据是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本,图像,声音,影视,超媒体等信息)。比如网页,有的网页很长有的很短;还有就是语音﹑视频﹑图片这些都是非结构化数据。
2、半结构化数据
所谓半结构化数据,就是介于完全结构化数据(如关系型数据库,面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,XML、HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
3、结构化数据
能够用数据或统一的结构加以表示的固定格式和有限长度的数据。例如数字、符号。传统的关系数据模型,行数据,存储于数据库,可用二维表结构表示。
如何认知大数据?
想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:
第一层面是理论,理论是被广泛认同和传播的基线,也是认知的必经途径。是从对大数据价值的探讨来深入解析大数据的珍贵所在;也是从大数据的特征定义理解行业对大数据的整体描述和定性以及从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,即大数据价值体现的手段和前进的技术。从云计算,分布式处理技术,存储技术和感知技术的发展来说明大数据从采集,处理,存储到形成结构的整个过程。
第三层面是实践,实践是大数据的最终价值体现。也是从互联网的大数据,企业的大数据和个人的大数据等方面来描绘大数据已经展现的美好景象及即将实现的蓝图。