基于机器学习模型的公司债券违约预警研究

2023-05-30 05:18王佩佩李侠
经济研究导刊 2023年1期

王佩佩 李侠

摘   要:以Stacking集成学习方法融合XGBoost、GBDT、随机森林模三種基本算法构建预测模型,对企业债券是否违约进行预测。实验结果表明:融合模型的预测精准率、召回率和F1度量指标的可靠性明显高于单一模型;各基学习器的学习能力越强,关联程度越低,模型融合后的预测效果越好。此外,净资产收益率ROE、资产负债率、票面利率、流动比率、资产净利率ROA是影响企业是否违约的重要关注指标。

关键词:债券违约;预警模型;集成学习;重要指标

中图分类号:F830.91        文献标志码:A      文章编号:1673-291X(2023)01-0098-03

一、研究背景

近些年来,随着我国实体经济的不断增长,债券市场得到高速发展,市场规模持续扩张、债券品种逐渐多样化,债券违约问题越来越难以把控。自2014年“11 超日债”利息无法按期全额支付,成为国内首例实质性违约的公募债券后,我国债券违约事件频发,违约风险增速较以往大幅提高。

截至2021年年末,我国债券市场存量规模达到302.26亿元,其中信用债、利率债和同业存单的存量规模分别达到62.98万亿、225.35万亿和13.93万亿,占比分别为20.84%、74.56%和4.61%。随着债券市场的不断发展,公司债券违约风险逐渐增大,2021年1—10月我国违约债券公司达到74家,规模达到1 098亿(数据来源于Wind)。由以上数据可知,我国债券市场的违约风险愈加严重,在公司债券违约逐渐成为常态化的背景下,利用数据分析以及机器学习方法构建一个有效的公司债券违约预警模型,以防范和应对潜在的债券违约风险,对债券市场的稳定健康发展有重要的理论和现实意义。

二、文献综述及理论框架

债券违约预警是指通过挖掘公司数据和违约风险之间的关系,预测公司发生债券危机的概率。在目前国内外的文献研究中,学者对于公司债券违约风险的研究主要以案例分析和政策建议为主,例如虞李辉、胡婕莹[1]和窦鹏娟[2]等。我国债券市场发生的第一次违约记录在2014年,由于债券违约历史较短,可观测样本不够充分,且信息不对称情况严重,所以利用机器学习构建公司债券预警模型的文献相对较少。随着计算机和信息技术的发展,信息壁垒变低以及信息获取技术的成熟,为企业各方面的财务数据分析提供了基础。本文通过机器学习建立公司债券违约预警模型。一方面为市场投资者提供投资决策参考,避免由于判断失误遭受巨额损失,另一方面也可以为发行债券的公司提供违约预警,及时改善公司经营,避免违约状况的发生。

回顾国内外相关文献发现,logistic模型是研究债券违约问题的主要方法之一。吴世农、卢贤义[3]以我国上市公司为研究对象,应用Fisher线性判定分析、多元线性回归分析和Logistic回归分析三种方法发现相对同一信息集而言,Logistic预测模型的误判率最低。生柳荣等人[4]通过建立Logistic模型分析债券发行体违约影响因素,从而建立违约预警系统,促进债券市场资源高效配置。肖艳丽、向有涛[5]认为,基于单一模型的债券违约风险预测不能充分挖掘数据的有效信息,会影响模型的预测精度从而导致结果出现一定的偏差。组合预警模型能够将单一模型的缺点弱化(Wu et al.[6];Jiang et al.[7])。郭兆灵[8]将多元化的21个风险特征指标加入Lasso-logistic回归模型进行研究,最终选取了11项企业集团信用风险关键预警指标。林同源[9]使用CART-bagging算法构建了三类预警模型,证明非财务指标与宏观指标对优化以财务数据为基础的预警模型的作用有限。

三、实证分析

(一)样本的选取

本研究选取我国2016—2020年有存续债,且披露数据较为完整的1 753家企业为对象。其中,一家企业在相同年份发行的不同债券,及不同年份的数据看为不同的样本,记为一条数据,共得到15 800条实证数据。

(二)预测指标变量的选取

在选取预测指标变量时,通过研读相关文献,最终考虑从企业的综合能力和债券属性两个层面构建预测指标体系,具体指标如表1所示。

(三)模型构建

集成学习分为三大类:基于投票式的bagging模型、基于提升式的boosting和基于模型融合的Stacking模型,本文选用Stacking模型对企业债券是否违约进行预测。以下为具体步骤。

第一步,数据预处理。采用one-hot编码和数据归一化的思想,对数据进行标准化的处理。其中,省份按照经济发达程度(依据2020年GDP总额)划分为1—5级,十个行业按同一级数据处理,其他数据采用归一化思想进行整合,最终满足机器学习使用。

第二步,SMOTE 过采样。SMOTE是对随机过采样算法的一种改进方案。由于随机过采样采取简单复制样本的策略来增加少数类样本,容易产生模型学习到的信息不够泛化的现象。因此采用SMOTE方法进行修复。SMOTE的基本思想是基于K-最邻近模型(KNN)对少标签样本进行随机生成的采样算法,计算公式如下:

xnew=xi+rand(0,1)×(yi-xi),i=1,2,...,n

本研究中包含15 622 个未违约正常样本(记为0)和178个危机样本(记为1),样本的比例约为88∶1,样本比例极其不平衡。为有效改进,本文采取SMOTE过采样进行处理,处理后二者的比例为1.55∶1(15 622∶10 019),这样将有效解决非平衡数据集的问题,消除过采样的随机性。

第三步,数据集划分。划分出80%作为训练集数据(包含12 498个未违约债券样本,142个违约债券样本),剩下的20%(包含3 124个未违约债券样本,36个违约债券样本)作为测试集数据。

第四步,Stacking融合学习模型。Stacking是通过一个元分类器或者元回归器来整合多个分类模型或回归模型的集成学习技术。本文将随机森林(RF)、GBDT、XGBoost作为基学习器,分别以5折交叉验证的方式进行训练,每一次的交叉验证包含两个过程,一是基于训练集训练模型;二是基于训练集训练生成的模型对测试集进行预测。最终将得到的融合结果放入元学习器逻辑回归模型中,用于企业债券违约的预测。

(四)模型结果与分析

1.预测结果对比与分析。本文将单个基学习器的评价指标结果与集成融合学习模型结果进行比较,验证stacking集成学习对预测结果提升效果,如表2所示。

表2 单一模型和融合模型的结果汇总

F1-score又称平衡F分数,输出的F1-score值越接近1,代表模型在处理不平衡集时误判的概率越低。从表2可以看出,融合模型的结果误判率要优于单一模型。精准率意味着将未违约的企业债券预测为违约企业债券的可能性越低。从整体来看,单一模型的精准率普遍低于融合模型,且RF+GBDT+XGBoost三模型融合的综合评价得分最高,说明模型融合对预测效果具有提升作用。就融合模型来看,通过比较RF+XGBoost和RF+GBDT可以发现,单一模型的效果越好,模型融合后的效果也相对更好。此外,GBDT+XGBoost模型的综合结果相较于其他三种最差,这是因为GBDT与XGBoost 的原理都是基于提升法,属于相近的模型。说明我们采用stcking融合模型的方法建立企业债券违约预警模型是较为合理的选择。

2.预测指标重要程度分析。在违约结果预测的过程中,每项指标的重要程度有所差异。基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好。本文依据Gini差值,从总模型结果中对预测指标的重要性进行了排序。

从单个变量来看,排名前五的指标分别为:净资产收益率ROE、资产负债率、票面利率、流动比率、资产净利率ROA。

净资产收益率(Return on Equity,简称ROE),又称股东权益报酬率,是净利润与平均股东权益的百分比,该指标体现了自有资本获得净收益的能力。根据杜邦分析法,净资产收益率=资产净利率(净利润/总资产)×权益乘数(总资产/总权益资本)。其中,权益乘数表示企业的负债程度,资产负债率高,权益乘数就大,公司会有较多的杠杆利益,因此债券违约的风险也就越高。

资产负债率又称举债经营比率,它是用以衡量企业利用债权人提供资金进行经营活动的能力,以及反映债权人发放贷款的安全程度的指标。一般来讲,资产负债率越高,企业的财务风险就越大,发生不偿债的几率也越大。票面利率也就是债券的名义利息率,债券的名义利率越高,一方面会使得企业定期还本付息越大,另一方面也促使更多的投资者来购买企业债券。一旦企业经营过程中出现现金流不足,资金链断裂,较高的还本付息额就会恶化企业的财务压力,一旦难以承受,将导致不可避免的违约风险。

流动比率是流动资产对流动负债的比率,一般用来衡量企业流动资产在短期债务到期以前,可以变为现金用于偿还负债的能力。一般说来,比率越高,说明企业资产的变现能力越强,短期偿债能力亦越强;反之则弱。

资产净利率ROA主要用来衡量企业利用资产获取利润的能力,这一比率越高,说明企业全部资产的盈利能力越强。通过将违约样本和正常样本进行比较发现,发生债券的企业资产净利率ROA通常较低,甚至为负值,而未发生债券违约的企业资产净利率ROA通常较高。

从整体维度来看,企业盈利能力方面对企业债券是否违约的影响最大。反映企业盈利能力的三个指标变量:净资产收益率ROE、资产净利率ROA和总资产报酬率均在前十之列。这是因为企业盈利能力通常反映企业在一定时期赚取利润的能力,盈利能力越高,企业的发展越稳定,经营管理问题越少,偿还债务的资本更雄厚,因此,发生债券违约的风险也较小。

企业偿债能力是指企业偿还到期债务的承受能力或保证程度,包括偿还短期债务和长期债务的能力,与企业债券是否违约有直接相关关系。本研究所选取的代表企业偿债能力的三个指标:流动比率、速动比率和现金比率也都排名靠前,比较符合预期结果,这说明模型构造较为合理。

四、总结与启示

本文以2016—2020年企业发行债券为研究样本,从企业的综合能力和债券属性两个层面构建指标体系,先是采用SMOTE 算法进行过采样处理,然后使用Stacking算法融合了随机森林、GBDT 和XGBoost 模型,并将融合模型与单个模型的效果进行了比较。实验结果表明,第一,本文所提出的Stacking融合模型算法具有较好的效果。融合模型的准确率和稳定性普遍优于单一模型,并且,单一模型的效果以及模型之间的同质性也会影响到融合模型的效果,对今后建立企业债券违约的预测方法具有一定的借鉴意义。第二,利用Gini系数值衡量了对企业债券违约风险影响最大的十个指标,并对前五的指标进行了详细分析。其中,净资产收益率ROE、资产负债率、票面利率、流動比率、资产净利率ROA是主要影响指标,Gini系数值占比40%以上,在今后的研究中可对这些指标进行重点关注。

参考文献:

[1]   虞李辉,胡婕莹.市场化背景下债券违约问题解构及其处置机制研究[J].新金融,2021,(12):14-20.

[2]   窦鹏娟.新常态下我国公司债券违约问题及其解决的法治逻辑[J].法学评论,2016,(2):143-153.

[3]   吴世农,卢贤义.我国上市公司财务困境的预测模型研究[J].经济研究,2001,(6):46-55,96.

[4]   生柳荣,陈海华,胡施聪,彭雁,于天祥.企业债券信用风险预警模型及其运用[J].投资研究,2019,(6):25-35.

[5]   肖艳丽,向有涛.企业债券违约风险预警——基于GWO-XGBoost方法[J].上海金融,2021,(10):44-54.

[6]   Wu C.,Wang J.,Chen X.,et al..A novel hybrid system based on multi -objective optimization for wind speed forecasting[J].Renewable Energy,2020,(146):149-165.

[7]   Jiang P.,Liu Z.,Niu X.,et al.A combined forecasting system based on statistical method, artificial neural networks, and deep learning methods for short - term wind speed forecasting[J].Energy,2021,(217).

[8]   郭兆灵.基于Lasso-logistic回归的企业集团信用风险研究[J].财会学习,2020,(13):193,195.

[9]   林同源.基于CART-Bagging算法的债券违约预警模型研究[J].全国流通经济,2021,(19):148-152.

[责任编辑   文   欣]