基于数据挖掘的信用卡申请客户信用评价问题研究

2018-03-06 07:41郭龙飞严广乐
经济研究导刊 2018年5期
关键词:信用卡数据挖掘逻辑

郭龙飞,严广乐

(上海理工大学 管理学院,上海 200093)

银行通常运用信用评分模型来决定是否接受一个客户的信贷。一般采用基于客户的经济状况、能力和条件的传统的判断方法,银行会对信用卡申请客户使用信用评分模型做分类。但是,随着大数据技术的不断发展,数据挖掘的新技术不断出现。Python的第三方库有更好的方法,同时支持一些新兴的预测模型和分类技术,如随机森林、逻辑斯特回归等。此外,如果是一个好的信用评分模型,它就可以帮助管理者做出更合理的选择。本文主要是提出一种用来解决现有模型不适应大规模的非结构化数据、缺失数据等问题的信用卡申请人分类的模型,然后比较两种评分模型在信用卡申请人分类预测中的性能表现。

一、信用评分模型原理介绍及数据挖掘方法

(一)模型介绍

信用评分模型是一种有监督职能的学习模型(Supervised Learning),数据由一群自变量x和对应的因变量y构成。传统零售信用模型中,x大致分为客户的基本信息(年龄、性别、职业、学位等)、财务信息(收入、每月生活消费、每月信贷还款额等)、产品信息(LTV、信用卡类别、个人贷款用途等)、征信信息(前6个月被查询次数、前6个信用卡最大利用率、未结清贷款数等),而一般取值0—1因变量y可以定义为在未来12个月是否出现欠款90天等。信用评分模型可以将信用卡申请人未来的行为进行一定程度的预测,使用数值形式表示出来,可以判断申请人在接下来的某时间段内违约的几率。

建立合适的信用评分模型。首先获取申请人的个人信息和银行提供的相关资料,接着对信息进行数据处理,选用合适的算法,建立信用评分模型,进行价差验证,得出客户的综合信用评分,算出一个合格的标准,判定客户是否通过申请。不同的指标数据类型不一致,有的用是、否,有的用离散的数值,有的用区间段。这里我们统一用1,2,3等离散的数值来预处理一下。

(二)数据挖掘方法

1.随机森林模型

随机森林是基于统计理论的数据挖掘技术,可以理解为是用随机的方式建立森林,这个森林有着许多决策树。得到森林后,输入数据,用每一棵决策树来判断,看看这个样本划分到哪一类,接下来看看哪一类被选择得最多,就预测样本属于哪一类。在建立模型的过程中,需要注意的是树的分支。假定输入了N个样本,那么采样也采N个样本。这样的话,训练时每一棵决策树的输入样本都不是全部的样本,最终就不容易出现过拟合。最后来进行列采样,我们从M个特征中选择m个(m必定要远小于M)。虽然每一棵决策树都很弱,但是如果组合起来就很强大了。

2.逻辑回归模型

逻辑回归其实就是套用了一个逻辑函数的回归。回归就相当于一个函数y=f(x),表示的是自变量x和y的关系。可以通过历史数据对未来世界将要发生的结果进行预测。

本文的主要研究目标在于探讨信用卡申请者信用评分机制,使银行能够建立信用风险监控的防线。首先,从已有的很多的有关客户背景、行为和信用的数据中,银行能挖掘出“好客户”和“坏客户”的一些特征。其次,根据数据建立相应的信用评分模型。再次,分别用不同的分类方法对数据进行处理,得到结果,并进行分析对比,得出最佳的信用评分模型。

具体步骤是:(1)输入数据。把缺失值清理掉,留下的数据作为输入数据。(2)数据标识。原来的数据按照指标依次分成1,2,3,4等级。目标变量是客户的状态,把它设置成1,2来分别表示坏客户和好客户。(3)划分原数据。把数据集划分成两部分,即训练集和验证集,训练集用来训练模型,后者用来验证所建模型。(4)选择数据挖掘方法。本文用随机森林和逻辑回归方法来预测。

二、模型的建立及实证分析

在借鉴传统评分指标选择的基础上,选择的个人信用评分的指标要考虑我国的具体国情。具体指标如下:

第一,客户信息。客户信息指标记录了申请客户个人包括年龄、受教育情况、房产状况的基本信息,为银行了解客户的还款能力和意愿提供了一定的依据。

第二,执业情况。客户的收入水平可以由他的工作情况间接显示,可以作为考察客户信用水平的重要指标。

第三,经济能力。客户家庭成员收入状况、住房位置情况、贷款与否和债务情况等,个人经济状况指标是反映贷款客户还款能力最直接的指标。

第四,信用状况。包括客户之前其他信用贷款记录情况,这个反映了客户的信用道德水平。

这里选择了一些传统的指标作为特征变量,将各个特征变量按信用表现进行分组,且用1,2,3等数字表示。

现在评分模型中共有11个变量可以作为解释变量。另外,模型的应变量可以表示为:Lebel=1好客户/2坏客户该模型用python语言实现,从银行内部数据的资料中,选取了4522个数据进行模型训练和检验,其中88.4%是“坏客户”。选取期中3149个数据用于训练模型,1373个数据用于检验模型。

表1

(一)用随机森林来分析

结果如表1。

根据以上数据做出混淆矩阵如表2。

表1

表2

其中,1代表好客户,2代表坏客户。1311是测试集里的好客户的个数,61是坏客户的个数。实际上是好客户预测的也是好客户是1188人;实际上是好客户预测的是坏客户是123人;实际上是坏客户预测的是好客户是28人;实际上是坏客户预测的也是坏客户是33人。

预测的准确率=(1188+33)/1373*100%=88.93%

将好客户预测为坏客户的概率=123/1373*100%=8.96%

将坏客户预测为好客户的概率=28/1373*100%=2.04%

(二)用逻辑回归来分析

同样的用逻辑回归来预测,用python程序建立logistic模型后得到的结果整理成混淆矩阵如表3。

预测的准确率=(1050+91)/1373*100%=83.10%

表3

好客户预测为坏客户概率=152/1373*100%=11.07%

坏客户预测为好客户概率=18/1373*100%=1.31%

由结果不难发现随机森林预测结果相比后者的准确率是要高一点的。

三、结论

从以上实验可以看出,我们的模型在将好客户判断为坏的客户来说,无论是训练样本还是测试样本,随机森林的预测精度都大于逻辑斯特回归模型;在第二类误判,即将坏客户判断为好客户这一类,对于训练样本和测试样本来说,逻辑斯特的预测精度要大于随机森林回归模型。考虑实际情况,第二类误判就是将坏客户判定为好客户从而接受其贷款申请会给银行造成的损失更大,这是极其不好的。然而纵观全局,从整体来说,随机森林的整体预测精度能达到88.93%,而逻辑回归的整体预测精度仅能达到83.10%。

综上所述,两种方法都可用来作为判定的模型,其中逻辑斯特回归目前在信用评价领域运用较为广泛,而随机森林算法是近几年来随着大数据技术的发展才有的比较成功的算法。从实验结果中还可以看出,模型的稳健性是逻辑斯特回归的优点,而缺点在于其预测精度不如随机森林算法;对于后者,其模型的训练效果和预测精度都很好。综上所述,本文认为利用随机森林算法建立信用评分模型是比较合适的方法。

在当今社会信息爆炸的环境下,合理利用科学的大数据技术构建合理的信用评价模型成为制约信贷行业发展的关键。信用评估是通过机器学习等技术建立信用评分模型,然后对信贷申请客户的未来的行为进行预测,并根据客户的各种特征变量将其划分为“好客户”和“坏客户”。用这种方法做出的分类对于现如今的信贷的风险控制有着至关重要的作用,只要利用得当,对企业的发展会大有益处的。

[1]李卯.个人信用评分模型比较数据挖掘分析[J].时代金融,2017,(2):295-298.

[2]任潇,姜明辉,车凯,王尚.个人信用评估组合模型选择方案研究[J].哈尔滨工业大学学报,2016,(5):67-71.

[3]刘武成,谈超洪.基于数据挖掘的信用卡信用评分模型[J].微型机与应用,2014,(9):73-76.

[4]萧超武,蔡文学,黄晓宇,陈康.基于随机森林的个人信用评估模型研究及实证分析[J].管理科学,2014,(6):111-113.

[5]张丽娜,赵敏.我国商业银行个人信用评分指标体系分析[J].市场周刊(理论研究),2007,(8):115-117.

[6]马海英.基于神经网络及Logistic回归的混合信用卡评分模型[J].华东理工大学学报:社会科学版,2008,(2).

[7]Left Not Easy.机器学习中的算法——决策树模型组合之随机森林与GBDT[J/OL].知识天地,2016-10-10.

猜你喜欢
信用卡数据挖掘逻辑
刑事印证证明准确达成的逻辑反思
改进支持向量机在特征数据挖掘中的智能应用
逻辑
创新的逻辑
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
招商银行:招行两大APP支持信用卡免费还款
女人买买买的神逻辑
信用卡资深用户
软件工程领域中的异常数据挖掘算法