据统计,在数据挖掘过程中,数据预处理工作量占到整个过程的60%-70%。在实际从数据源获取的数据中,这些数据通常都是脏数据。所谓的脏数据就是包含以下几种情况的数据:数据缺失(数据属性值为空)、数据噪声(数据值不合理)、数据不一致(数据前后矛盾)、数据冗余(数据量或者属性数目超过数据分析的需求)、数据集不均衡(不同类型的数据量相差过大)、异常值(不在数据集标准范围内的值)、数据重复(数据集中多次出现的数据)。
1、数据预处理方法
数据预处理方法可以大致分为四类:数据清理、数据集成、数据归约和数据变换。
1.1数据清洗
企业从数据源获取的数据一般是不完整的、有噪声的和不一致的。数据清理主要针对数据数值上的各种异常情况的处理,数据清理常见的有以下:缺失值处理、噪声值和离群处理、不一致性处理。通过填充缺失的值、光滑噪声数据、识别删除离群点并纠正数据的不一致性来清理数据。主要是达到如下目标:格式标准化,噪声数据、无关数据和异常数据清除,处理遗漏数据、空缺值,错误纠正,重复数据的清除,识别删除孤立点等。
1.1.1缺失值的处理
缺失值的处理方法,主要是基于数据的分布特性和数据的重要性采用不同的方法。主要分为以下几种:
删除:若数据缺失严重,覆盖率较低,且重要性较低。可以只丢弃缺失项处的值,也可以丢弃包含缺失项的整条数据记录,这得看该条数据记录上其它的数据是否有价值,尤其是在数据样本较少的情况下,需要权衡。
填充:包括中位数,随机插值,多重差补法,热平台插补,拉格朗日插值,牛顿插值等模型填充;使用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。目的是使用最可能的值填充空缺值。也可以将所有元组按照某些属性分类,然后用同一类中属性的平均值填充空缺值。例:一个公司职员平均工资收入为3000元,则使用该值替换工资中“基本工资”属性中的空缺值。
1.1.2离群点处理
离群点指处于标准分布范围之外的数据,也就是个别与数据总体特征差别较大的点。对于离群点的处理,应该首先判断离群点数据量与是否有用,如果有相当一部分量与数据总体特征差别较大的点,那此时就要考虑这些点能不能被称为离群点了。若是无用点则可以当做噪声处理,若是有用的则保留。因此,相比于处理离群点,识别离群点是一个更重要的问题。识别离群点的方法有很多,比如基于统计学的方法、基于邻近性的方法、基于聚类的方法、基于分类的方法等。
1.1.3噪声处理
噪声是一个测量变量中的随机误差或者方差,包括错误的值或偏离期望的孤立点值,对于噪声数据有如下几种处理方法:分箱去噪,聚类法识别孤立点,回归去噪。
1.2数据集成
数据分析任务多半涉及数据集成。数据集成将多个数据源中的数据合并存放在一个一致的数据存储,如数据仓库中。这些源可能包括多个数据库、数据方或一般文件。建立数据仓库的过程实际上就是数据集成,是一个提供观察这些数据的统一视图的过程。
1.2.1实体识别问题
在数据集成时候,来自多个数据源的实体有时并不一定是匹配的,例如:如何才能确信一个数据库中的people_id和另一个数据库中的p_id值是同一个实体,通常,可以根据数据库或者数据仓库的元数据来避免模式集成中的错误。
1.2.2 冗余问题
数据集成通常会导致数据冗余,如同一属性多次出现,统一属性命名不一致等用相关性检测冗余:数值型变量可计算相关系数矩阵,标称型变量可计算卡方检验。
1.2.3 数据值的冲突和处理
对于数据中的同一实体,来自不同数据源的属性值可能不同,这可能是因为表示、比例、或编码、数据类型、单位不统一、字段长度不同。不同数据源,在统一合并时,保持规范化,去重。
1.3数据归约
数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约通过如聚集、删除冗余特征或聚类来降低数据的规模,规约之后的数据仍接近于保持原数据的完整性,但数据量相对小的多,这样进行挖掘的性能和效率会得到很大的提高。并结果与归约前结果相同或几乎相同。数据归约方法主要有:维规约、数量归约、数据压缩。
1.3.1维归约
通过删除不相关的属性减少数据量并保证信息的损失最小,通常采用属性子集选择方法找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布
1.3.2数量归约
通过选择替代的、较小的数据表示形式来减少数据量。这些技术可以是有参的或者无参的。有参方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据。有参的数值归约技术有以下两种:回归和对数线性模型;无参的数值归约技术有3种:直方图,聚类,选样。
1.3.3数据压缩
有无损压缩和有损压缩。主要有损数据压缩方法是小波变换和主要成分分析,小波变换对于稀疏或倾斜数据以及具有有序属性的数据有很好的压缩效果。
1.4数据变换
数据变换主要是找到数据的特征表示,通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。常见的数据变换策略如下:
光滑:去掉噪声,包括分箱、回归和聚类。
属性构造:由给定的属性构造出新属性并添加到数据集中。
聚集:对数据进行汇总或聚集。
规范化:把属性数据按比例缩放,使落如一个特定的小区间,如[0.0, 1.0]。
离散化:将定量数据向定性数据转化。比如年龄的原始值用区间标签(0~10, 11~20)或者概念标签(如youth)替换。