信用评分系统的研究

2018-11-20 07:47彭妍陈宣霖
消费导刊 2018年6期
关键词:特征选择

彭妍 陈宣霖

摘要:消费者在金融机构进行借贷的历史数据的记录非常多,指标庞大。然而并非所有的数据都能够对借贷判断起到作用。为了使得金融机构能够对用户有正确的借贷选择,本文利用分箱和特征筛选法得到具有50个指标的评分体系,最终利用决策树模型对数据进行精确度检验,结果表明:决策树模型在信用评分系统应用精确度非常高。

关键词:信用评分系统 分箱 特征选择 决策树模型

引言

随着日益增长的物质文化需求,消费信贷业务有着迅速发展的趋势,而长期以来,如何规避信用风险是各金融机构面临的主要问题,因此构建完整有效的信用评分体系十分关键和迫切。其基本原理是基于对消费者的利用信用历史记录和人口特征等大量数据进行详尽的分析,建立出最佳的信用评估模型,预测违约情况,值得在实践中推广,本文将对此进行探索。(数据来源于2018年东证期货杯建模竞赛)

一、指标选取

指标太多会导致模型结果偏差较大,因此需要对指标做降维处理,筛选更为重要的指标,使得数据更为简化,本文首先使用分箱法对连续型指标进行处理。

(一)分箱处理

分箱法是指通过考察“邻居”(周围的值)来平滑存储数据的值,用“箱的深度”表示不同的箱里有相同个数的数据,用“箱的宽度”来表示每个箱值的取值区间,将连续变量离散化将多状态的离散变量合并成少状态。假设要将某个自变量的观测值分为k个分箱,一些常用的分箱方法有:等宽分箱、k均值聚类分箱、Best-KS法等。本文使用最优分箱法对将需要离散化的连续性变量进行处理,避免了数据中无意义的波动,也避免了极端值的影响,增强了数据的稳定性和健壮性,这里展示其中一个指标的分箱结果:

(二)特征选择

在将连续型变量进行分箱处理后,仍含有较多的指标,鉴于此进一步对数据进行特征选择处理,特征选择基本思想是从原始特征中选择出一些最有效特征以降低数据集维度。导致分类器下降的原因往往是因为这些高纬度特征中含有无关特征和冗余特征,因此特征选择的主要目的是去除特征中的无关特征和冗余特征。本文通过Fllter法衡量变量之间的相关性,采用皮尔逊相关系数来评估,最终选择了最重要的指标共504-用于建模。(这里只展示前20个指标)

二、非平衡樣本的处理

由数据原始数据Y频数表可知,数据集存在严重的非平衡性。由于正常用于大于违约用户;留存客户大于流失客户。即Y=0(正样本)和Y=1(负样本)的数据量相差很大,对于最终的预测结果会严重倾向于多数的正样本类,导致对负的分类错误率很高,本文采用过采样法解决非平衡样本的问题,在Y=1中的数据随机抽取95%,在Y=0中的数据随机抽取5%后建立新的数据集进一步做后续模型的分析。

三、决策树模型

决策树是在各种情况发生的概率已知的基础上,通过构成决策树来对项目风险进行评估,并对其可行性进行判断。其基本思想是根据一些分割原则,将大量的训练集数据划分类。基本步骤是对于给定训练集数据先按一定的分割原则一分为二,得到的两个子集再按另一种分割原则一分为二,如此重复,直到合适的程度。基于此,将决策树模型应用于上文中含有50个指标的信用评分系统,得出其判断精确度结果表明,决策树模型精准度高达96%。

四、建议

根据本文选择的指标和模型结果对贷款人提出以下建议:

1.对于信用卡累计逾期月份较多的,建议以后在于使用信用卡时尽量提前还款,来降低累计逾期月份数和累计逾期金额数。

2.由于不良还款记录一般不易消除,所以在以后建议还款记录保持良好,从而再下次银行贷款期可以通过模型识别。

3.对于银行贷款,如果要贷大笔金额,可以先从小额贷款开始,然后按时还款,或者提前还款。

猜你喜欢
特征选择
正交基低冗余无监督特征选择法
网络入侵检测场景下的特征选择方法对比研究
基于实例学习和协同子集搜索的特征选择方法
基于最大信息系数和近似马尔科夫毯的特征选择方法
Kmeans 应用与特征选择
基于GA和ELM的电能质量扰动识别特征选择方法
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
非线性电路多软故障的智能优化递阶特征选择诊断方法
基于特征选择和RRVPMCD的滚动轴承故障诊断方法