混合型数据判别的二阶段法及其在个人信用评级中的应用

2023-01-06 10:48赵雪艳徐新华
关键词:样本容量连续型弓形

赵雪艳,徐新华

(南昌大学 经济管理学院,江西 南昌 330031)

一、引言

数量化理论是由日本学者林知己夫教授在1940年提出,他先后提出了六类数量化理论,其中数量化Ⅰ—Ⅳ类已被国内外广泛使用。菅民郎等对定性数据进行判别的数量化Ⅱ类方法及应用进行了梳理[1]53;岩坪秀一对数量化理论进行了研究[2]63。在日本最常用的定性数据判别分析方法是数量化Ⅱ类,在法国是Disqual法,对应分析法是研究定性变量构成的交互汇总表揭示变量之间的联系,出现了“弓形效应”。Ter Bcjf提出对应分析法存在一个弊端,第二排序轴在许多情况下是第一轴的二次变形,把这种现象称为“弓形效应”[3]168。为修正“弓形效应”,避免可能导致错误分析结果,Hill和Gauch在对应分析法的基础上提出了除趋势对应分析(Detrended Correspondence Analysis,DCA)[4]49,Braak提出了除趋势典范对应分析(Detrended Canonical Correspond Analysis,DCCA)[5]18,Saito和Otsu提出了OSMOD MODEL[6]8;足立浩平提出了等质性分析[7]489;Aoki和Sato提出了Hermitian多项式的修正法[8]6。

据调查,国内关于对应分析法弓形效应修正方法的研究较少,主要在修正方法的应用上,提出典型相关分析的增量建模方法,通过协方差分解,实现对典型相关性的精确计算,在保证计算准确性的前提下,提高了运算效率。贾晓妮对DCA、典型相关分析(Canonical Correlation Analysis,CCA)和DCCA三种排序方法进行了总结,讨论了它们在中国草地植被群落中的应用现状,并且提出由于DCCA考虑了“弓形效应”修正,因此DCCA的使用效果最佳[9]392。李镇清用描述群落最小剩余码的平均码长L(S)测度群落总复杂性,用Renyi熵测度非组织复杂性,并将它们之差(S)作为组织复杂性或群落结构复杂性的测度,以CCA和剩余分析RA为基础,发展一种包括环境、空间格局和物种相互作用三个方面因素的植物群落数量分析方法,并在数据变化中分离出了这几个方面的变化[10]320。

人们越来越多地意识到数据的重要性,对大数据分析方法进行了大量的研究。何育朋提出大规模数据库中的海量数据多具有混合属性,传统算法往往忽视多种属性之间的关联性,算法复杂,聚类速度慢,效果差,对此提出一种基于划分聚类的混合大规模数据库中数值型数据聚类算法,实现了混合大规模数据库中数值型数据的聚类[11]120。刘超等为了解决混合型数据的聚类问题,将聚类方法K-prototypes与ClustMD进行比较,改进了关键参数选择方法。结果表明,当数据相关关系强、数据缺失严重或非连续变量较多时,建议使用K-prototypes[12]65。李鑫、白亮将基聚类与原数据看作一个混合型数据,提出了一种基于混合型数据表示的聚类集成算法,该算法通过不断迭代更新获得更好的基聚类,且结果保持了对原数据类结构和基聚类的一致性,与其他聚类集成算法进行了比较,基于混合型数据表示的聚类集成算法是有效的[13]91。

关于信用评级方法研究,目前最常用的方法有判别分析法、神经网络、Logistic模型。在国外,Wiginton将Logistic模型与判别分析法对比,认为Logistic模型比判别分析法效果更好[14]759。West认为神经网络模型并不比Logistic预测效果好[15]1133。Myers和Forgy采用判别分析法建立了信用评分模型对特定领域作了实证分析[16]780。在国内,方匡南等运用判别分析法构建样本评分模型,再用神经网络法对样本进行评分预测,并对神经网络预测得分进行降序排列得到有序样本,最后进行有序样本最优分割,实现了个人信用的等级划分[17]93。廖欣婷等随机抽取了8 371名银行信用卡客户的样本数据,利用构建Probit与Logistics模型对其信用卡逾期风险进行评估[18]72。陈湘州等以2014—2019年深交所中小企业板制造业中符合要求的中小企业为样本,基于MLP神经网络构建了中小企业供应链金融信用风险评估模型,结果表明,所建立模型的准确率高、稳定性强,是中小企业供应链金融信用风险评估的理想模型。邱泽国等基于Lasso-RF两阶段特征选择,选取逻辑回归、支持向量机、随机森林、决策树等常用的信用评估分类算法,分别从准确率、精确率、召回率和F1值4个指标证明了两阶段特征选择方法在个人信用风险评估上具有更好的分类效果[19]90。曹小林等以贝叶斯网络理论为基础,构建了基于贝叶斯网络的个人信用评价模型,采用随机森林算法对各指标的重要性进行了预测,并以人人贷数据为研究样本建立树增强朴素贝叶斯网络模型进行实证研究,通过对样本内和外预测精度的考察,验证了模型的稳健性[20]154。王晓慧、李云飞针对个人信用等级的多分类问题进行了研究,通过建立个人信用风险评价指标体系,运用判别分析法构建关于样本的评分模型,得到判别得分;再用神经网络法对样本进行评分预测,得到对应得分,并对神经网络预测得分进行降序排列得到有序样本,最后进行有序样本最优分割,从而实现个人信用的等级划分[21]65。赵海鹏、李丹从个人信贷的定义出发,先总结了国内外个人信贷评估的经验理论,再根据模型评价和综合评判两个方面进行模式创新,通过实证研究,挖掘出了决定我国个人信用状况的重要变量,又利用Logistic回归这一经典计量模型扩展了客户进行信用评分[22]113。

国内外学者在对应分析法“弓形效应”修正方法及应用方面已经取得了丰富的研究成果,避免了可能错误的分析结果。关于定性数据的数量化理论,日本学者林知己夫先后提出了六类数量化理论,经研究发现数量化Ⅱ类出现了“弓形效应”,“弓形效应”的出现会降低正判别率(Correct Discriminant Rate,CDR),同时不能真实再现原始数据信息,可能导致错误的分析结果,需要修正。随着大数据时代的来临,人们越来越重视数据的重要性。如何从大量的、杂乱无章的、难以理解的数据中抽取并推导出具有某些特定价值、意义的数据显得至关重要,国内外学者对于大数据分析方法研究取得了一定成果。信用评级目前最常用的方法——判别分析法、神经网络和Logistic模型中,哪一种判别方法的判别性能更好,目前还没有一致的结论。本研究的目的是提出一种修正数量化Ⅱ类“弓形效应”,同时实现混合型大数据判别分析方法二阶段判别分析法(以下简称二阶段法),并将其应用到个人信用评级中。

本文的创新点主要体现在三个方面。第一,检验了数量化Ⅱ类“弓形效应”的存在及存在形式,根据变量间相关关系的强弱,提出了“弓形效应”修正方法二阶段法的两种模型M3、M4。第二,随着云时代的来临,大数据吸引了越来越多的关注,人们越来越多地意识到数据的重要性,大数据的特点是定量与定性数据混合于一体,数据量庞杂,然而只能对定性或定量数据进行判别的数量化Ⅱ类、Disqual法、线性判别分析法等不能满足现实需求。为实现大数据分析,需要对二阶段法进行进一步的拓展研究,提出判别模型M5,使其实现定性定量混合型数据的判别,更好的服务实务界。第三,将拓展后的二阶段法M5应用到个人信用评级中,个人信贷数据为定量定性混合型,研究结果显示二阶段法的判定性能优异。

二、混合型数据判别方法的理论基础

数量化Ⅱ类研究定性数据是根据个体观测指标特征来推断该个体所属类型的一种判别分析方法。其基本思想是以反应矩阵为基础,对各类目赋予适当的得分,根据已知若干母体中的n个样本对于Q个项目的观测结果寻求线性判别函数,进而对母体的样本进行判别分类。

(1)

根据Fisher判别准则,借助方差分析的思想,通过准则函数方差比η2最大,求解线性判别函数,寻找最优的判别系数αjk,将不同性质的类在最大程度上进行分离,从而达到类判别的效果。方差比为:

(2)

(3)

对式(3)进行整理:

等式两边同时乘以T的逆矩阵:

(T-1B-λI)α=0

(4)

I表示单位矩阵,λ(=η2)表示特征值,α表示特征向量。

求解式(4),需除去各项目中的任意一类目(可为第1个或最后1个),找到T-1B的特征值λ,求解特征向量α。特征向量即判别系数矩阵α是将特征向量按照特征值λ大小顺序从左往右排列的矩阵,记为α=[α1,α2,…,αm]。将α中的α1、α2作为第一、二象限判别系数,在二维坐标轴上做出相应的散点图,其散点图呈现“弓形”,把这种现象称为“弓形效应”。数量化Ⅱ类存在“弓形效应”,对判别结果存在两个方面的不良影响:

(1)根据个体指标推断该个体属于哪个类别时,由于出现“弓形效应”,会降低正判别率(CDR)。

(2)对判别结果进行因子分析时,不能正确反映潜在连续型变量(Potentially Continuous Variables,PCV)即原始数据信息(本文设定原始数据信息为等间隔递增),可能导致分析结果与PCV信息不符,得出错误结论。

为修正“弓形效应”,本文提出二阶段法M3、M4,为实现混合型数据判别提出拓展的二阶段法M5。

(一)二阶段法(M3、M4)——“弓形效应”修正

传统定性数据判别分析法数量化Ⅱ类存在“弓形效应”,对判别结果主要存在两个方面的不良影响:

(1)主要目的是对样本数据进行群判别时,第一、二排序轴间的相关关系将产生“弓形效应”,影响判别性能,降低正判别率。

(2)主要目的是对判别结果进行因子分析时,由于“弓形效应”的存在将导致不能正确反映潜在连续型变量信息,可能导致错误的分析结果。

另外,在实际应用中,自变量间存在较强相关关系和较弱或没有相关关系的情况。二阶段法根据变量间的相关关系强弱提出两种判别模型M3、M4,M3主要针对自变量间存在较强相关关系的情况,M4主要针对变量间存在较弱或不相关,但自变量与基准变量间存在较强相关关系的情况。二阶段法主要包括两个步骤:

步骤1:找到适合的第一象限判别系数,对定性数据进行数量化;

(1)M3:CCA(Gjvs G-j|GE)

GE表示基准变量,Gj表示其中一个自变量,G-j表示除Gj以外的所有自变量,从Gj以及G-j中除去GE的回归效果后进行CCA。当各自变量间存在较强相关关系情况下,去除基准变量GE的影响,可以期待提高判别系数的有效性,提高正判别率。

(2)M4:CCA(Gjvs GE|G-j)

从Gj以及GE中除去G-j的回归效果后进行CCA,当各自变量间相关关系较弱,但是各自变量与基准变量间存在较强相关关系的情况下,去除其他自变量的影响,可以期待提高判别系数的有效性,提高正判别率。

步骤2:对数量化后的数据进行线性判别分析LDA。

(二)拓展的二阶段法M5——混合型数据判别

数据多为定量、定性的混合型,只能对定性数据进行判别的二阶段法不能适应当下需求,因此对二阶段法需要做进一步的拓展研究,使其实现混合型数据判别,主要包括三个步骤:

(1)为定性变量找到最适合的第一象限数量化系数M3:CCA(Gjvs G(-j)|Ge),从Gj以及G-j中除去GE的回归效果后进行CCA。通过数量化系数对定性变量进行数量化,生成连续型数据。

(2)将自变量中的定量变量与数量化后的连续型变量进行合并,生成判别分析模型中的连续型自变量。

(3)对连续型自变量与基准变量进行线性判别分析LDA,实现混合型数据判别。

为了对以上模型的判别性能进行对比及检验,将进行模拟数据分析,主要从CDR指标进行评价。

三、数量化Ⅱ类“弓形效应”检验

对应分析法在对定性数据数量化过程中出现了“弓形效应”,“弓形效应”的存在可能导致错误的分析结果,为此关于对应分析法“弓形效应”的修正方法进行了大量研究,并取得了丰富的研究成果。数量化Ⅱ类是对定性数据进行数量化再进行判别分析,那么在对定性数据数量化过程中是否存在“弓形效应”?如果存在,是以怎样的形式存在?本文通过模拟数据对这两个问题进行考察。

(一)模拟数据生成

1.生成潜在连续型变量

潜在连续型变量满足正态假定,生成要素包括:样本容量N;基准变量GE,E表示类别号;自变量(x1,x2,…,xn);均值向量μE;相关系数矩阵∑=(σij)n×n,其中σij=cov(xi,xj),i,j=1,2,…,n。根据以上要素生成潜在连续型变量(Potential Continuous Variables,PCV),即原始数据信息。

2.生成定性变量

对生成的连续型变量可采用两种方式生成定性变量:(1)对自变量进行等段数、等间隔、递增的分割;(2)对自变量进行不等段数、等间隔、递增的分割。具体采用哪一种方式可根据数据的分布情况进行选择,对分割后的变量赋予相应的类别数据,即生成定性变量。生成的定性变量将保持潜在连续型变量递增的特性。如图1所示生成的连续型自变量x1、x2、x3,可以采用第二种方式,不等段数、等间隔、递增的分割,生成定性变量。

(二)“弓形效应”的检验

数量化Ⅱ类是否存在“弓形效应”,要从理论证明存在一定困难,目前最直接有效的方法是通过模拟数据进行检验。通过以上方法生成的定性数据进行数量化Ⅱ类分析,检验“弓形效应”是否存在。“弓形效应”存在形式的影响因素主要考虑样本容量n。

样本容量n分别取300、1500、6000、30000,图1是自变量x1、x2、x3第一、二象限数量化系数分布图,判别影响大小排序x1>x2>x3。

“Ο”表示x1、“△”表示x2、“×”表示x3图1 变量x1、x2、x3的第一、二象限数量化系数分布图

(三)检验结论

1.生成的潜在连续型变量是按照等间隔递增分割的,那么希望数量化Ⅱ类对定性数据进行数量化后,数量化系数能够反映递增这一原始数据信息,从图1的研究结果发现,第一、二象限数量化系数没有真实再现递增现象,出现了“弓形效应”。

2.数据的样本容量无论大小都存在“弓形效应”,对“弓形效应”强弱的影响不大。

3.对判别效果影响最大的变量x1,受“弓形效应”影响最显著。

四、二阶段法与数量化Ⅱ类判别性能的比较

(一)M3与数量化Ⅱ类的比较

二阶段法M3,当各自变量间存在较强相关关系情况下,在数量化过程中去除基准变量GE的影响,可以提高判别系数的有效性,提高正判别率。模拟数据分析首先通过训练数据建立判别模型,再通过测试数据检验模型的判别性能,比较M3与数量化Ⅱ类判别性能的优劣。训练数据和测试数据分别选取多种不同的自变量个数、样本容量,分别生成100组数据,应用M3和数量化Ⅱ类对数据进行判别分析,可计算出M3的100个CDR和数量化Ⅱ类的100个CDR,两两进行比较并分别累计优胜次数,并对比较结果进行Wilcoxon检验,如表(1)所示。

(二)M4与数量化Ⅱ类的比较

二阶段法M4,当各自变量间相关关系较弱,但是各自变量与基准变量间存在较强相关关系的情况下,去除其他自变量的影响,可以期待提高判别系数的有效性,提高正判别率。M4与数量化Ⅱ类的对比分析如表2所示。

表1 M3与数量化Ⅱ类的CDR比较与Wilcoxon检验

(三)M3与潜在连续型变量及数量化ⅡCDR的比较

1.M3与潜在连续型变量及数量化ⅡCDR的比较

表3取K=10,对数据进行潜在连续型变量、数量化Ⅱ类和M3三种判别方法进行了判别分析,发现当样本容量小于1500时,数量化Ⅱ类的平均CDR大于潜在连续型变量的CDR,这属于不合理现象,表明数量化Ⅱ类在样本容量N很小的情况下会夸大CDR。

2.M4与潜在连续型变量及数量化ⅡCDR的比较

表4取K=10,对数据进行潜在连续型变量、数量化Ⅱ类和M4三种判别方法进行判别分析,与M3的分析结论一样,当样本容量小于1500时,数量化Ⅱ类的平均CDR大于潜在连续型变量的CDR,再次表明数量化Ⅱ类在样本容量N很小的情况下会夸大CDR。

表2 M4与数量化Ⅱ类的CDR比较与Wilcoxon检验

表3 潜在连续型变量、数量化Ⅱ类和M3的判别性能比较

(四)0.632 Bootstrap推断

在实际数据分析中,没有测试数据,只有样本数据,希望从样本数据中推断出测试数据的结果,因此,使用0.632 Bootstrap推断。检验数量化Ⅱ类和M3、数量化Ⅱ和M4的判别性能,对数据进行0.632 Bootstrap推断,训练集中含有63.2%的数据,测试集中含有36.8%的数据,是小数据错误率估计的最好办法。结果如表5、表6所示。

表4 潜在连续型变量、数量化Ⅱ类和M4的判别性能比较

(五)结论

数量化Ⅱ类出现了弓形效应,降低了正判别率,为修正弓形效应提出二阶段法,即在第一阶段进行数量化,修正弓形效应;在第二阶段进行线性判别,以便在不受弓形效应影响的情况下进行判别分析。作为第一阶段的数量化方法,提出了两种模型M3和M4。当说明变量间存在较高相关关系的情况下应用M3模型,当说明变量间相关关系较低时应用M4模型。表5和表6的分析结果如下:

表5 数量化Ⅱ类和M3的判别性能比较(0.632 Rootstrap)

表6 数量化Ⅱ类和M4的判别性能比较(0.632 Rootstrap)

1.训练数据

(1)表1、表2的CDR优胜次数表明,样本容量越增加M3、M4优于数量化Ⅱ类的效果越明显。

(2)表1、表2的分析结果显示,当变量个数K较小时,M3、M4与数量化Ⅱ类判别性能分界点所需的样本容量较小;当变量个数K较大时,M3、M4与数量化Ⅱ类判别性能分界点所需的样本容量较大。

(3)表3、表4的分析结果显示,当样本容量较小时数量化Ⅱ类的CDR比潜在连续型变量的CDR大,说明当样本容量较小时数量化Ⅱ类夸大了CDR,二阶段法M3、M4的CDR接近但小于潜在连续型变量,没有出现夸大CDR的情况。

2.测试数据

(1)表1、表2的分析结果显示,对于所有样本,M3、M4的判别性能都高于数量化Ⅱ类。

(2)表1、表2的CDR优胜次数表明,随着样本容量的增加,M3、M4优于数量化Ⅱ类的效果越明显。

(3)表5、表6的0.632Bootstrap分析结果显示,测试数据二阶段法M3、M4的CDR均高于数量化Ⅱ类,说明0.632Bootstrap做出了比较精准的推断。

五、二阶段法的拓展M5

(一)模拟数据生成

1.连续型变量的生成

生成连续型变量,将变量分成两组,一组A1,A2,……用来进行数量化,另外一组B1,B2,……,对判别分析影响排序A1>A2>……,B1>B2>……,基准变量GE,E表示类别号。

2.定性变量生成

(二)找到适合的第一象限系数对定性数据进行数量化

(三)线性判别分析LDA

(四)模拟数据研究

由表7的分析结果显示,M5的判别性能会随着自变量个数和样本容量的增加而更加优异。

表7 M5的判别性能

六、二阶段法在个人信用评级中的应用

个人信用评级体系是一个国家信用体系的重要组成部分,在国民经济增长与社会生活的各个方面,尤其是在商业银行开展个人消费信贷业务中发挥重要作用。在西方发达国家,个人信贷制度已有100多年历史,这些国家的个人信用评级体系已经相当发达和完善。完善的个人信用评级体系不仅能进一步提高市场资源配置效率,而且可以促进个人信贷消费,拉动市场消费状况,从而改变目前主要由投资拉动的经济增长方式,进一步改善社会信用状况。银行信用政策,包括信用形式、期限金额等的确定,必须建立在对客户信用状况科学评估分析的基础上,才能达到既从客户的交易中获取最大收益,又将客户信用风险控制在最低限度的目的。由于未对客户信用状况作科学评估,一味追求客户定单,而造成坏账损失的教训屡见不鲜,如何对客户信用状况作科学评估分析,就需要科学的评估方法。本文将运用二阶段法M5建立判别模型,对银行信用卡客户违约情况进行判别,对客户信用状况作科学评估,进一步检验M5的判别性能。

(一)样本选择与数据来源

本文选取了商业银行信用卡客户资料库数据为研究对象,判定的对象为客户是否违约,拖欠贷款3个月以上视为违约,将数据分为违约和非违约两个群,样本容量为3000,其中违约的样本量为1000,约占总样本量的33.3%,非违约的样本量为2000,约占总样本量的66.7%。

(二)变量的选择

个人信用主要受到以下几个方面的影响:个人基本情况、家庭基本情况、收入情况、信用卡使用情况、不良记录等,因此本文选取了与之相关的13个自变量即G1~G13,其中G1~G7为定性变量,G8~G13为定量变量,基准变量为GE,各变量说明如表8所示。

(三)数据处理与判别分析

表8 变量说明

表9 M5的判别性能

七、结语

假定定性自变量后存在潜在连续型变量,基准变量与自变量可以通过线性判别函数进行判别。第一,检验了数量化Ⅱ类“弓形效应”的存在及存在形式,提出了“弓形效应”修正方法二阶段法;第二,随着大数据时代的来临,吸引了越来越多的关注,人们越来越多的意识到数据的重要性,大数据的特点是定量与定性数据混合于一体,数据量庞杂,然而只能对定性或定量数据进行判别的判别分析法不能满足现实需求,提出的二阶段法M3、M4虽然修正了“弓形效应”的影响,提高了正判别率,但是只能对定性数据进行判别并不能满足实务界的需求,为了实现大数据分析,需要对二阶段法做进一步的拓展研究,使其实现定性定量混合型数据的判别,更好的服务实务界;第三,将拓展后的二阶段法应用到个人信用评级中,个人信贷数据为定量定性混合型,研究结果显示二阶段法M5的判定性能优异。

猜你喜欢
样本容量连续型弓形
2018-2019年石家庄市弓形杆菌致病基因的分布及其特征分析
思维建模在连续型随机变量中的应用
降低弓形换位线圈换位尺寸偏差研究
采用无核密度仪检测压实度的样本容量确定方法
两个独立随机变量和的分布求解方法
连续型美式分期付款看跌期权
连续型广义乘法定理的辨析教学
蒙特卡罗模拟在计量经济学中的应用
分层抽样技术在课堂满意度调查中的应用研究
浅谈混凝土强度合格性评定