睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

浅谈金融数据应用之不均衡样本处理

时间:2022-11-27来源:半情歌浏览数:290

随着数字经济时代的到来,数据建模分析技术在金融机构的客户细分、精准营销、风险评估、欺诈识别、智能服务等多个业务领域得到了广泛应用,机器学习也逐渐成为大数据分析的关键技术。但在实际应用中往往面临数据建模样本类别倾斜、算法可解释性匮乏等挑战,本文将从不均衡建模样本问题的处理思路出发,浅谈金融数据的机器学习建模应用实践。

1.什么是不均衡样本问题 

在实际应用场景中,类别间的实例数量不均衡(甚至严重倾斜)是极为常见的。以欺诈交易识别场景为例,欺诈性质的交易仅占全量交易记录的极少部分,少数类别(涉诈样本)与多数类别(正常样本)的比例甚至可能会达到1:1000以上,而少数类别样本往往包含着关键信息。这导致分类器过多地从多数样本中学习信息要素,很容易将绝大多数新样本判定为“多数类别”,因此不能很好地完成建模预测。这种因样本中某类别数据远多于其他类别数据而造成模型对少数类别识别不准确的问题,即是样本不均衡问题。

2.不均衡样本建模性能的评估方法 

利用不均衡样本建模,即使分类器对新的少数类别实例的识别能力很弱,也能获得很高的总体分类正确率(accuracy)。因此,应考虑采用更具有区分力的指标。混淆矩阵(confusion matrix)、准确率(precision rate)、召回率(recall rate)与F值(F-Score)的关系见下图所示。

仍以欺诈交易识别为例,业务目标可能更偏向于找出所有涉诈交易(高召回率),而非是否意外将更多正常客户也纳入了筛查范围(高准确率)。理想情况下,我们当然希望两者兼而有之:既能识别涉诈交易,又能节约排查成本。但在实际应用时,我们必须处理二者的权衡关系,即是否要以降低召回率来提高精度,抑或反向为之,相关权衡效果如下表所示。

准确率和召回率的关系可以通过PR曲线展现,在同一个模型下,二者通常呈反向相关,曲线越靠右上侧,模型性能越好。如下图所示,B能够完全包络C,说明B模型全面由于C模型;A只能在一部分区域包络B,则需要以准确率和召回率相等的点作为用于比较的“平衡点”,可以认为A模型优于B模型。PR曲线一般受样本类别变化的影响非常明显。ROC(receiver operating characteristic)曲线表现的是假正率(FP)和真正率(TP)之间的关系,线下面积一般称为ROC-AUC(area under curve)。曲线越靠近左上方、线下面积越大(一般在0.5至1之间),说明模型性能越好。如下图所示,A模型的性能表现优于B。

因为ROC曲线没有将假负率(FN)考虑进来,在样本类别分布变动时,其变化程度不大,因此,样本越不均衡,ROC曲线可能会显得越过于乐观,实用性相较于PR曲线较弱。K-S(Kolmogorov-Smirnov)曲线,又称作洛伦兹曲线。实际上,K-S曲线的数据来源和本质与ROC曲线是一致的,K-S曲线只是把真正率、假正率都作为纵轴,横轴则由选定的阈值来充当。真正率和假正率的差值称作K-S值,值越大,模型的预测准确性越好,一般KS>0.2即可认为模型有较好的预测性能。

不均衡样本的处理思路通常分为数据驱动型和算法驱动型方案,前者在数据预处理阶段通过采样降低数据的不均衡程度,后者对现有算法进行改进,使其更倾向于少数类数据。

1.数据驱动型方案 

数据驱动型方案通过改变训练集不同类别实例数量分布来降低类别间不均衡度,通常较容易实现,并对提升模型识别精准度有一定效果,称为重采样技术,可分为欠采样、过采样,也可将两种技术联合使用。欠采样技术(undersampling)是指从多数类别样本中剔除一些实例,或者说只从多数类别样本中留存部分实例。常见的欠采样技术及对比见下表。

过采样技术(oversampling)即把少数类别实例复制多份,或者从少数类别实例中合成新的实例。后者也称为数据增强算法,即在不实质增加数据的情况下,从原始数据加工出更多近似同分布的可参考实例。需要注意的是,

第一,对于数据间关联性强显著的情况(例如产品加工过程、设备故障溯源等数据特征间存在物理关系的场景),过采样技术容易导致数据脱离现实情况;

第二,对于样本极度不均衡的情况(例如少数类别实例数量仅有几个),过采样技术没有应用的意义。常见的过采样技术及对比见下表。

在使用采样技术时,可以参考以下原则: 在多数类别实例绝对数量较多且远多于少数类别时,考虑同时使用欠采样与过采样(常用组合有SMOTE+ENN和SMOTE+Tomek Links)。 欠采样与过采样后,少数与多数类别实例数量不需要达到1:1,通常这一比例可能适得其反,因为与现实数据分布情况相差甚远。可以尝试陆续增加少数类别样本占样本总体数量比例,并通过上文的评估指标和具体的线上测试选择合适的比例。 考虑多尝试不同的欠采样与过采样比例,并基于召回率、准确率、PR曲线、KS曲线等评估手段选择性能最优的数据分布。 

2.算法驱动型方案 

代价敏感型(cost-sensitive)学习是在模型算法的损失函数层面进行优化,为不同的分类错误给予不同惩罚力度(权重),在调节类别平衡的同时,也不会增加计算复杂度。常见的方法见下表。

不同模型对不均衡样本的敏感度是有差异性的。例如,相比逻辑回归模型,决策树在不均衡数据上面的表现要更好一些,因为前者考量的是全体样本的最小损失,而后者在按照增益递归划分数据的时候,仅考虑局部的增益。而基于采样与集成树模型的方式,在不均衡数据上的表现要更胜一筹。集成学习(ensemble learning)指的是通过重复组合少数类别实例与采样获得的与之数量相当的多数类别实例,训练若干(弱)分类器并将其共同预测结果作为最终输出的方法。分类器的组合使得单一学习的方差被平均化,由此提升模型整体的泛化能力和性能。常见的采样与集成学习请见下表。

此外,RUSB、SmoteBoost、balanced RF等其他集成方法,也值得在实践中加以实验。在样本类别不均衡很极端的情况下(例如少数类别只有几十个实例),可以将分类问题考虑成异常检测(anomaly detection)问题。异常检测的重点不在于找出类间差别,而是为其中一类进行建模,通过数据挖掘方法发现与数据集分布不一致的异常数据,也被称为离群点、异常值检测等。无监督异常检测按其算法思想大致可分为几类:基于聚类、统计、分类模型(one-class SVM)、深度学习(孤立森林)以及神经网络(自编码器AE)的方法等。为进一步比对上述不均衡样本处理思路异同,本文选用Bank Marketing Data Set和Abalone两个数据集,主要基于imbalanced-learn包完成数据处理工作。

1.数据集说明 

两个数据集均来自USI,Bank Marketing Data Set为银行营销数据集,少数类别实例与多数类别实例比约为1:9,主要根据客户历史营销响应数据,结合对市场未来需求数据、相关行业政策数据等,预测未来周期内客户营销响应;Abalone为鲍鱼数据集,通过物理测量来预测鲍鱼的年龄,该数据集少数类别实例与多数类别实例比约为1:129,且少数类别实例数量极少,主要作为极端案例与银行营销数据集做对比。

2.试验方法 

以不做样本均衡化处理的逻辑回归作为基线模型,比对前文所提到的部分样本不均衡处理方法的特点。

3.不均衡样本实例处理结果比对 

银行营销数据集的ROC曲线与PS曲线如下所示。

鲍鱼数据集的ROC曲线与PS曲线如下所示,9种方法的AUC分别为。

两个数据集的ROC和PS曲线线下面积如下表所示。

根据如上曲线和数据特点,可有以下评估结论: 对于银行营销数据集而言,可以采用集成方法或SMOTE与欠采样的结合来做样本均衡化处理;对于鲍鱼数据集来说,SMOTE与欠采样的结合方案,更适合用于样本的均衡化处理。 从PR曲线的线下面积来看,鲍鱼数据集可能不适用于传统的均衡化方案(这种极度不均衡的情况也常见于欺诈识别等金融业务领域),可考虑采用异常检测方法。 前文已经提到,ROC曲线对于数据不均衡的敏感度不如PR曲线,两个数据集实验中,ROC-AUC均远大于PR-AUC。 集成学习和SMOTE与欠采样结合方案的学习时间通常最长,对于追求速度的实时业务场景(例如实时欺诈识别),应考虑替代方案。 以上就是不均衡样本处理的实证研究。在具体实施中还需要针对个性化的问题进行具体分析,通过实际应用不断积累实战经验。另外,参考文献中基本涵盖了上述方法的出处论文,感兴趣的读者也可做进一步学习。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询