基于数据挖掘的G银行信用卡客户流失预测研究

2022-03-19 23:36沈哲

中国市场 2022年8期

摘要：商业银行在信用卡营销的过程中，面临着存量客户流失的严峻问题。通过数据挖掘对流失的客户进行分析，不仅能挽留可能流失的客户，也可以使商业银行有针对性地优化产品、提升管理。文章利用决策树算法建立信用卡客户流失预测模型，对信用卡流失客户进行预测。经过测试，模型运行效果良好，具有较好的客户管理意义。

关键词：信用卡;客户关系管理;决策树;流失预测

中图分类号：F832.4;F224-3 文献标识码：A 文章编号：1005-6432（2022）08-0049-04

DOI：10.13939/j.cnki.zgsc.2022.08.049

近年来，不少商业银行的业务重心已从公司业务向零售业务转移。公司业务客户集中，产品偏个性化，受宏观经济、政策导向及个别客户业务波动影响大;而零售业务小而分散，产品相对标准化，批量营销、维护，行业分布贴近民生，周期性弱，受市场影响小，基础客群较为稳定。部分转型的商业银行中，零售业务创造的营业收入比重过半，已超过公司业务的营业收入，零售业务在商业银行中的地位逐渐凸显。

而信用卡作为零售业务的“排头兵”，在银行零售业务的发展过程中占有举足轻重的地位。信用卡业务的前期推广需要大量人力、物力的投入来占领市场，构建信用卡生态圈，同业间竞争非常激烈。

随着互联网金融的快速发展，各大网络平台也陆续推出了花呗、京东白条等类信用卡产品。这些互联网平台不仅有着天然的消费场景，而且结合大数据的优势，利用金融科技对消费客户进行精准营销，无论营销的覆盖面，还是精准度都大大优于传统商业银行，使得信用卡市场竞争更加激烈。

1 背景

就商业银行而言，信用卡新客营销的难度和成本远大于存量客户的挽留成本。信用卡新客户的营销难度逐年加大，需要由专业的团队发掘客户需求、产品准确推送并做好相关的售后服务，同时还会面临同质产品的竞争，现在营销往往还会借助场景的搭建。而信用卡的存量客户已和银行建立了业务关系，只需了解客户流失的原因，设计有针对性的挽留方案，重新激活客户需求（李伟等，2019）。

G银行的信用卡销户概念包括两类：银行根据一定的规则主动销户和客户主动销户。销户的原因很多，在整个信用卡业务周期的过程中都有可能产生销户行为。

G银行对于停滞客户会定期进行提取，然后给这批停滞客户发短信进行触动，如果没有效果，会集中进行销户处理。如果客户主动打电话要求销户，G银行会安排销户挽留，通常客服人员会在电话中对要求销户的客户进行挽留。

目前，G银行每年信用卡的销户量超过5万，G银行只有在客户提出申请销户，或者客户满足银行主动销户规则的时候，G银行才会安排销户挽留。由于无法对客户是否流失进行预测，因此销户挽留没有提前量。

2 理论基础

2.1 数据挖掘理论

现今的信息化社会，数字生活已渗透各个角落，人们的生产、生活中留下了各式各样的数据。数据挖掘就是将生活中的数据删减、填补、清洗后，将参差不齐的信息整理为具备分析意义的基础数据，从中提取有價值的数据，寻找内部规律，发掘隐藏含义，作为决策或者预测的依据。

金融、电信、医疗等行业拥有庞大的客户信息，具备数据挖掘的先天优势。特别是银行业，随着金融科技的全面推广，不少商业银行已将大数据、区块链、人工智能等科技手段融入到零售业务的管理中，及时在市场中抢占了技术优势。

2.2 客户关系管理理论

客户关系管理（简称CRM）原本是企业生产经营中的一个概念，指企业不应仅以简单的产品销售为目的，而更强调以客户为中心的一系列综合服务方案。提出企业应通过现代的信息技术和科技手段，在生产、销售和服务等方面提升自己的经营管理能力，为客户提供差别化的个性服务，提高客户的满意度，实现收益的最大化。

降低客户流失率，更是客户关系管理的基础要求。提前对可能流失的客户进行预测，根据不同客户的特征，分别制订个性化的客户关怀和挽留策略。后台服务创造的价值，可以超过前台营销，企业综合管理能力的提升可以带来“双赢”的良好局面。

3 实证研究

3.1 样本数据

样本数据是指客户主动联系银行“申请销户”或者银行发起执行“申请销户”的动作，即可定义为“流失”;对应的流失时间分别为客户主动“申请销户”的时间或者银行执行“申请销户”的时间。流失客户在样本数据中定义为正样本。

与流失客户对照的是非流失客户，取某个时间点上，其观察期内没有流失，同时在表现期内有完整的行为数据的客户，即为非流失客户。非流失客户在样本数据中定义为负样本。

样本数据从基础数据中抽取2019年和2020年部分行为数据，观察期定为6个月，取2019年10月1日至2020年9月30日的流失客户构成正样本，取2019年10月1日的非流失客户作为负样本，构成整个样本数据。

基于当前数据，选择6个观察点来设定观察期和表现期的时间窗口，6份正样本的流失客户在观察期内都没有流失，但在表现期内逐渐申请销户或者由银行进行批量销户，见表1。通过观察正样本的消费、取现、还款、查询行为的次数、金额、时间等趋势变化，同时有条件的判断客户的投诉、违约、迟缴、争议账等行为来预测我行客户流失（邓致，2019）。

基于2019年10月1日至2020年9月30日的销户客户数据统计个人流失客户，剔除其中的高端卡客户、测试客户、银行内部客户等

3.2 变量选择

基于对本次业务需求，建模过程中需要用到信用卡客户的属性特征及价值特征，通过对G银行信用卡中心客户信息的分析，从数据源中选取的变量主要包括以下四类：①个人基本信息：性别、年龄、职业、学历、户籍、婚姻等;②卡基本信息：最高卡龄、持有卡数以及信用额度等;③客户流失信息：是否流失标识、流失时间、是否主动流失等信息;④客户行为信息：消费、转账、还款等行为信息，最近查询间隔天数等信息。

对以上几类的变量进行筛选，从中选取客户画像特征明显、卡类信息差别性较大，具有典型客户行为动作，对可能导致未来客户流失关系较大的变量，剔除关联性弱，不具备分析意义的维度。

精简分析变量，尽量减少其他数据的干扰性，从中选取43个有代表性的宽表变量，作为模型分析数据。其中部分宽表变量如表2所示（程勇等，2019）。

3.3 确定算法

信用卡客户流失预测模型的目的是在客户提出申请销户或者满足销户规则之前及早的预测到客户流失，即可以将客户服务与关怀提前，从而降低客户销户率。故根据客户属性特征及过去一段时间内的行为特征，预测信用卡客户在未来一段时间内流失的可能性是建模需求的核心。

在对特征变量初步分析后，用数据分析工具SPSS提供的模型进行训练和测试，分别选择决策树和神经网络模型进行训练，通过对其结果进行比较，发现决策树具有较好的性能并且容易理解，因此选择决策树C5.0作为预测模型（张宇等，2015）。

决策树的图形表示是一种倒树形的结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。通过学习样本得到一个决策树，这个决策树能够对新的数据给出正确的分类。决策树C5.0是基于C4.5算法的升级，更适用于数据挖掘。在模型建立阶段使用代价矩阵调整置信率，同时使用Boosting技术多次迭代以调整样本权重，提高了模型预测的准确性。

3.4 模型建立

基于确定的样本数据库，利用SPSS数据分析工具构建决策树信用卡客户流失预测模型，模型的应变量为“是否流失标识”，其定义如表3所示。

由于主动申请销户的客户数量过少，因此在建模过程中不区分主动或者被动销户，只考虑流失客户。另外，未来保证非流失客户在观察期内有完整的行为数据，因此非流失客户需要成为信用卡客户半年以上。

模型训练前，先根据上述是否流失标识定义做样本数据的选择。选择流失与正常的客户如表4所示。

随机选定70%的数据作为训练数据，剩余30%的数据作为测试数据，分布如表5所示。

在进行模型训练的时候，对数据进行了处理加工，先使用特征选择节点进行特征选择，然后使用不同的模型进行训练并比较了模型训练的结果。

对于分类模型，判定模型结果好坏的指标有精确率、召回率和F测度，其公式如下：

精确率=模型预测为正且实际为正的样本数量模型预测为正的样本数量（1）

召回率=模型预测为正且实际为正的样本数量实际为正的样本数量（2）

F测度=2×精确率×召回率精确率+召回率（3）

在实际业务开展中，特别是流失预测模型中，需要提高模型的覆盖率，以尽可能的识别所有可能流失的客户，同时需要提高模型的精确度。在模型训练过程中设置不同的代价矩阵来获得不同的模型性能。在默认设置下精确度达到0.76以上，但是只覆盖0.43左右的可能流失的客户。

对业务部门来讲，可以在市场营销活动的时候覆盖尽可能多的可能流失的客户。这时候，需要训练模型进一步提高其召回率，通过调整模型的代价函数，使模型的覆盖率提升，而其精确率还满足一定的条件。具体设置如图1所示。

在该设置下，模型训练后的变量重要性如图2所示。

前十变量重要性依次是：最近消费间隔天数、最近查询间隔天数、平均还款次数、消费是否校验密码、最近动账交易间隔天数、平均还款金额、平均查询次数、最高卡片等级、平均消费金额、年龄。

其训练数据上的混淆矩阵如表6所示（0：未流失;1：流失）：

测试数据上的混淆矩阵如表7所示（0：未流失;1：流失）：

在测试集和训练集上的增益圖如图3所示。

其模型结果的性能指标如表8所示。

从模型结果可以看到，通过调整模型设置，随着召回率上升到0.8以上，模型精确率下降到0.45左右，虽然精确率下降明显，但覆盖率也同步大幅提升，达到本次模型建立的目的，将预测范围尽可能覆盖到可能流失的客户。F-测度值在默认参数时测试值为0.55，模型调整后F-测度值略有上升，说明实验的有效性也有所提高。

从AUC和Gini系数的指标来看，原模型测试数据AUC值为0.868，Gini系数为0.736，调整后数值均有提升，并且在训练数据上模型的表现更好。从这两个指标来看，模型的预测能力均处于可以接受的范围内，因此可以在实际应用中使用该模型进行预测。

4 模型应用

信用卡客户流失预测模型主要结合信用卡业务开展，作为客户挽留或者市场营销等业务活动的参考依据。不同于其他模型，信用卡客户流失预测模型应用需注意以下两点。

第一，尽管流失预测模型能够帮助银行判断可能流失的客户，但是在流失真正发生前，银行很难直接利用其名单进行客户挽留。因此，需要将流失预测的结果与客户关怀或者有针对性的市场营销活动结合起来。

第二，信用卡客户流失预测模型的建设，在流失客户选取上倾向于选择更多的样本。在模型的实际应用中，由于流失客户数量并没有这么多，因此精确度会下降。故流失预测模型最为看重的是召回率，即尽可能的不要漏掉可能流失的客户，以保障模型能够帮助银行尽可能的识别可能流失的客户，从而通过客户关怀或者营销活动进行更多的接触，以降低客户的流失率。

信用卡客户流失预测模型应参照市场营销活动的应用场景，在制定和执行市场营销活动的过程中，借助模型的能力提高业绩考核，改造和优化现有业务流程。因此，信用卡客户流失预测模型的应用建议落地在商业银行的营销管理中，成为整体营销管理系统的一部分，对预测流失的客户进行客户关怀，或者开展有针对性的提前挽留、市场营销等活动。

模型建设中以G银行存量客户为依据，通过决策树进行客户分类预测，有较好的本地化效果。但是商业银行的客户结构是不断变化的，故在模型后续的应用过程中需根据客户数据进行动态调整，提高预测的精准度。

5 总结与展望

本文通过对G银行存量信用卡客户的数据挖掘，用决策树C5.0算法进行建模，对信用卡流失客户进行预测。经过测试该模型运行效果良好，召回率在可接受范围，下一步可将该模型投入到实际应用中。后续一方面将信用卡客户流失预测模型应用到营销管理过程中，对可能流失的客户实施挽留策略，实时监控流失率的变化;另一方面定期更新基础数据，修正、优化模型，不断提升预测的覆盖面和准确性。

参考文献：

[1]程勇，梁吉祥.基于数据挖掘的掌银客户流失预测建模方法研究[J].中国金融电脑，2019（8）：51-60.

[2]邓致.信用卡客户流失预测模型研究[J].金融科技时代，2019（9）：22-25.

[3]李伟，孙新杰，陈伟.基于数据挖掘的客户流失预测研究[J].电脑知识与技术， 2019，15（10）：7-8.

[4]张宇，张之明.一种基于C5.0决策树的客户流失预测模型研究[J].统计与信息论坛，2015，30（1）：89-94.

[作者简介]沈哲（1981—），男，汉族，浙江宁波人，研究生，供职于中国光大银行股份有限公司宁波分行，研究方向：银行金融管理。

1913500783331