基于机器学习的上市公司违约概率估计模型构建

2022-08-20 09:21陈蓉蓉

现代计算机 2022年12期

陈蓉蓉

（贵阳信息科技学院信息工程系，贵阳 550025）

0 引言

1990年沪深交易所相继成立，2019年7月注册制正式落地，2020年12月退市新规正式落地，随着资本市场制度的不断完善，给投资者和企业家均带来了良好机会和制度保障。2020年上市公司突破4000家，已经成为全球范围内第二大交易所。2020年期间因连续2年亏损被实施特别处理（ST）的股票有76只，数量再创历史新高。如何有效监测上市公司信用风险，保障资本市场平稳运行成为一个亟待解决的问题。2021年8月9日发布的《关于促进债券市场信用评级行业健康发展的通知》指出，“信用评级机构应当长期构建以违约率为核心的评级质量验证机制，制定实施方案，2022年底前建立并使用能够实现合理区分度的评级方法体系，有效提升评级质量。”通知明确了违约概率是构建信用评级的核心。Maltritz采用复合KMV模型，利用日交易市场数据，基于极大似然估计法计算2007—2009年金融危机期间美国银行业的违约概率。郑德渊借鉴KMV和复合KMV计算违约距离的函数形式确定违约距离，并将标准正态分布函数转换成支付违约概率。本文将基于机器学习中的Logistic回归、Probit回归、决策树、AdaBoost回归从上市公司不同维度指标中筛选出显著性较高指标，指标的筛选遵循剔除冗余信息、同时保留最大违约判别能力的原则。在构建违约概率估计模型时优先选择精度较高、可解释性较强、模型较简洁的Logistic回归模型，通过预测对模型进行评估。

由于上市公司财务数据需要经过审计，数据来源更可靠，利用上市公司财务数据来构建违约概率估计模型，相比于利用股票收益波动率、股权市场价值为基础或资产账面价值、收入现金流历史数据为基础计算的违约概率更具稳定性、可靠性。同时机器学习方法更适合运用在特征较多的模型构建，它能够从海量特征中优先筛选出最显著的特征，这是与传统统计学方法的不同，这一优势可以更好地运用于多维度指标体系的上市公司模型构建。

1 数据来源

由于商业银行通常出于对企业信息的保密而不对外公布相关数据，因此违约的数据无法直接获得。本文将2015—2019年上海证券交易所网站公布的被实施特别处理（ST）的股票所对应的上市公司作为发生违约的样本，未被处理的上市公司作为对照样本。这样做主要有以下几点原因：

（1）上市公司被实施特别处理（ST）通常由于两种情况，一种情况是上市公司经过审计连续两个会计年度的净利润都是负值，另一种情况是公司最近一个会计年度每股净资产低于股票面值。在这种情况下，公司支付违约风险增大，因而可被定义为违约。

（2）上市公司的财务数据通常需要经过审计，其数据信息相对于非上市公司更为可靠。

本文选取了短期贷款数量较多的制造业上市公司作为样本进行研究。筛选出2015—2019年59家制造业被实施特别处理（ST）的上市公司，同时随机选取了141家制造业上市公司中财务数据正常的企业作为对照组，总计200家制造业上市公司作为测算违约概率的样本。上市公司的财务数据来自于万得（Wind）金融数据库。

2 指标体系

在估计违约概率时，选择上市公司被实施特别处理（ST）的前一年的财务数据作为模型中的解释变量，以公司是否违约作为被解释变量（发生违约即ST公司取值为1，未发生违约即非ST公司取值为0）来构建模型。在选择影响公司违约概率的因素时通常遵循体现公司经营成果、偿债能力，并且具有可操作性、整体性、可比性的原则最终选取了28个财务指标作为公司经营状况的指标代表，将企业财务指标综合分为长期偿债能力、短期偿债能力、现金流量能力、股东获利能力、运营能力、盈利能力以及发展能力七个维度，每个维度下的具体指标如下：

（1）长期偿债能力。资产负债率（ZCFZL）、流动资产比率（LDZCBL）、固定资产比率（GDZCBL）、流动负债比率（LDFZBL）、产权比率（CQBL）、已获利息倍数（EBIT/利息费用）（LXBS）。

（2）短期偿债能力。流动比率（LDBL）、速动比率（SDBL）、营运资金对总资产比率（YYZZCBL）。

（3）股东获利能力。每股收益（MGSY）、每股净资产（MGJZC）。

（4）现金流量能力。每股经营活动现金净流量（MGXJLL）、现金比率（XJBL）、现金净流量对流动负债比率（XJJLDFZBL）。

（5）盈利能力。营业利润率（YYLRL）、总资产净利润率（ZZCJLRL）、净资产收益率（JZCSYL）、总资产报酬率（ZZCBCL）、销售净利率（XSJLL）。

（6）运营能力。应收账款周转率（YSZKZZL）、存货周转率（CHZZL）、应付账款周转率（YFZKZZL）、固定资产周转率（GDZCZZL）、总资产周转率（ZZCZZL）。

（7）发展能力。资产总计（N年，增长率）（ZCLJ）、营业收入（N年，增长率）（SRLJ）、营业利润（N年，增长率）（LRLJ）、股东权益（N年，增长率）（QYLJ）。

3 指标选择与模型构建

3.1 数据预处理

将所有自变量转为数值型变量，将因变量转为分类变量。统计每个变量的缺失值情况，由于数据是从万得（Wind）金融数据库里根据公司的财务报表整理得来，因此不考虑数据存在异常值的情况，只对数据作缺失值的填补，缺失值填补利用R语言中missForest包进行数据插补。missForest是基于随机森林算法的缺失值填补的非参数方法，适用于任何类型的数据（连续、离散），同时填补效果相比于均值、中位数填补更接近真实值，效果更好。

3.2 指标选择

采用Logistic回归模型，自变量的筛选使用AIC准则结合逐步回归方法。AIC（赤池信息准则）是衡量模型拟合优良性和模型复杂度的一种标准。逐步回归是一种线性回归模型自变量选择方法，解决了多重共线性问题的同时保留了最显著的变量。经过多次变量的进入和剔除，逐步回归得到最终模型的=127.32，这与起始的154.97相比有了较大的降低，说明模型有了明显的优化。分析最终的回归结果得到，较显著的变量有MGJZC、GDZCBL、ZZCZZL、CQBL、QYLJ，因此只将这五个变量作为自变量引入模型中，得到的Logistic回归结果如表1所示。

表1 逻辑回归结果

可以看到，当只引入较显著的GDZCBL、CQBL、MGJZC、ZZCZZL、QYLJ五个变量时，ZZCZZL变量变得不再显著，最为显著的变量为MGJZC（每股净资产）。

采用Probit回归模型，自变量的选取仍采用逐步回归的方法，经过多次的变量进入和剔除，最终得到逐步回归的结果。Probit回归得到的结果与Logistic回归相似，逐步回归得到的变量较显著的有MGJZC、GDZCBL、ZZCZZL、QYLJ和CQBL，这与Logistic回归得到的结果一致，只引入这五个变量的结果如表2所示。从回归结果可以看出，只引入五个变量后ZZCZZL变量也变得不再显著，这与Logistic回归类似。

表2 Probit回归结果

决策树回归得到的结果如表3所示，从决策树增长过程中结点的选择可以看出变量MGJZC、QYLJ、ZCLJ较为显著。其中的MGJZC（每股净资产）、QYLJ（股东权益（年，增长率））在Logistic回归和Probit回归中也是较为显著的变量。

表3 决策树回归结果

表4显示了在AdaBoost建模过程中每个变量被选为结点属性的权重的比较，从而也反映了变量的重要性。AdaBoost回归模型中较显著的变量为MGJZC、QYLJ、ZCLJ，结果与决策树回归结果一致。

表4 变量重要性

表5汇总了以上模型中显著性较高的变量。

表5 显著性变量汇总

综合上述四种方法，将显著变量全部引入Logistic模型中，运用逐步回归的方法得到最终的模型如表6所示。

表6 回归结果

该模型的=125.01。

最终的上市公司违约概率估计指标由衡量股东获利能力的每股净资产、衡量运营能力的总资产周转率、衡量发展能力的资产总计（年，增长率）、营业收入（年，增长率）与股东权益（年，增长率）与衡量长期偿债能力的固定资产比率组成。

3.3 模型构建

Logistic回归模型对于判断二分类变量的关系具有良好的效果，同时该模型不需要对有关变量做限制性统计假设，方法较为简单，所需参数较少，可操作性、可解释性较强，同时以极大似然法所求的估计量相比较其他模型使用的最小二乘法所得到的估计量准确性更高。考虑到前提假设、变量选择、模型构建等各方面的因素，下文将采用Logistic回归模型对违约概率进行估计，估计模型如下：

4 模型预测与评估

4.1 训练集

将模型（1）在训练集样本上进行预测的混淆矩阵如表7所示，训练集的误判率为11.5%。

表7 训练集结果

4.2 测试集

首先选择2020年上海证券交易所公布的被实施特别处理的36家上市公司作为违约样本，同时随机选择64家运营正常的上市公司作为对照样本，利用模型（1）和样本公司在发生违约前一年的财务数据对其发生违约年份的违约概率进行估计。样本公司的财务数据主要来自于万得（Wind）金融数据库中公司的年报。测试集样本的混淆矩阵如表8所示，最终得到测试集的误判率为12%。

表8 测试集结果

5 结语

信用风险是资本市场各主体高度关注的一类风险，它的核心是违约概率的估计，本文通过机器学习方法筛选出显著性较高的财务指标，并结合Logistic回归构建违约概率估计模型。上市公司的财务指标众多，不同维度的指标反映了上市公司不同层面的能力，如何从众多指标中筛选出具有较大判别能力的指标从而构建违约概率估计模型是本文的重点。而机器学习方法克服了传统统计学方法无法解决特征多、样本少的问题，本文对于指标的选择同时综合了多种方法，最终得出衡量股东获利能力的每股净资产、衡量运营能力的总资产周转率、衡量发展能力的资产总计（年，增长率）、营业收入（年，增长率）与股东权益（年，增长率）与衡量长期偿债能力的固定资产比率指标对于上市公司的违约风险具有较好的判别能力。将以上指标结合Logistic回归构建的违约概率估计模型在训练集和测试集上的预测效果较好。