Logistic回归分析的研究及应用

2019-02-04 16:07李婧娴

新教育时代·教师版 2019年42期

李婧娴

摘要：本文由传统的线性回归中因变量为分类变量的局限性出发，引出广义线性回归模型。再由Logistic回归模型与线性回归模型的比对，研究了Logistic模型的理论推导过程，介绍了模型中的连接函数和发生比概念。最后尝试使用Logistic回归模型在金融数据中进行简单应用。

关键词：Logistic回归模型广义线性回归连接函数

引言

在传统的线性回归模型中，自变量的变量类型和值域是没有限制的。但是线性回归模型中对于因变量的假设是连续的、服从标准正态分布的。而在实际的应用中往往会出现与线性回归的因变量为连续变量的假设相违背的情形，特别的是当因变量取为分类变量时会与传统的线性回归模型的假设相矛盾[1]。

在线性回归模型的Gauss-Markov假设中，首先由于回归方程中对自变量值域没有限制，因此作为自变量，，......的函数，因变量的值域也为。在由线性模型进行估计或预测时，当取值很大时可能超出[0，1]区间，这与的值域矛盾。同时这里的自变量和因变量的关系也不再具有显著的线性。可见当因变量为分类型变量而不是数值型变量时就无法满足传统的线性回归模型的Gauss-Markov假设。此时我们不再可以直接使用传统的线性回归模型的参数估计、检验和模型的拟合优度评价等[2]。

一、广义线性模型

广义线性模型是正是拓展上述经典的线性回归模型对于因变量假设的局限性——因变量可以在服从非正态分布的情形下，通过连接函数将非线性模型进行了线性转化。传统线性模型中要求因变量服从正态分布，而此时广义线性模型中对于因变量的要求扩展至服从指数分布族。而常见的正态分布、伯努力分布（或稱为二项分布、两点分布）等均属于指数分布族[3]。

当随机变量的概率密度函数满足如下形式时：

就可以称随机变量服从指数分布族：上式当中的被称为标准参数或自然参数，并表示为的平均数的一个函数;为标准参数的函数，因此也是的平均数的一个函数;被称为离散参数，并起到衡量的方差的角色;为和离散参数的某一函数，且仅由和确定。与则依据不同的分布而确定[4]。

假设此时模型中的自变量记为，，......，对应的因变量记为，再令，其中为未知的参数。再假设，并且满足，那么我们根据上述定义得到的模型即为广义线性模型，将上述的函数称为连接函数。

特别需要注意的是，连接函数确定了广义线性模型的均值结构。对于服从不同分布的因变量对应了不同的连接函数，进而确定了不同的广义线性模型。连接函数顾名思义，起到了将因变量的数学期望值的函数和自变量的线性组合相“连接”起来的桥梁作用，将非线性模型——自变量与因变量呈非线性关系，完成向“线性”——自变量的线性组合的转化过程。

二、Logistic回归模型

在广义线性模型的框架下，Logistic回归属于其中的一种：因变量选定为指数分布族中参数记为的伯努利分布，同时连接函数取为。

假设因变量服从参数为的伯努利分布，则其概率密度函数如下式所示：

这表示概率为;概率为，那么的期望也为，这里将连接函数取为：

再将模型中的个自变量记为，，......

则。最后由上述两式联立可得下式：

在Logistic回归分析中，我们将发生比（odds）定义为事件发生的条件概率与不发生概率之比，即

由可知，并且决定了发生比odds的变化方向;当时，发生比odds不受自变量变化的影响。

我们将回归方程两边指数化则可以得到：

如果将增加一个单位，则有：

再将上述第二个等式与第一个等式相除可以得到：

因此代表由于增加一个单位而导致的发生比产生的变化。如果大于等于0，表示因增加一个单位而导致的发生比的增加，反之为减少。因此，由上述推导可知，表示由对应的增加一个单位而导致的发生比的变化。

三、Logistic回归分析的应用

1.指标选取与数据预处理

本文选取了2016年11月30日及其之后第20日的2691支沪市和深市的股票交易数据。本文选择了二元的自变量：其一是2016年11月30日当日各只股票流通市值（记作CirculatingMarketValue），即当日内发生交易的流通股股数与当时股价的乘积;其二是2016年11月30日当日各只股票的涨跌幅（记作Return_20D），即当日股票价格的涨跌值/昨日收盘价*100。本文的因变量选择为2016年11月30日之后第20日各只股票的涨跌情况（记为Forward_Return），这里将根据2016年11月30日及之后第20日的涨跌幅，对各股票价格的涨跌情况进行处理：若上涨则定义为1，若持平或下跌定义为0。

这里需要对各只股票流通市值（CirculatingMarketValue）进行预处理。首先对各只股票的流通市值取为对数，取对数的处理并不会改变数据的单调关系，但对于数据的尺度进行了改变，这可以减少大市值股票对模型的影响。其次再对取对数后的股票流通市值进行标准化处理（记作LN_CirculatingMarketValue），即取对数后的各股票流通市值数据减去其均值后再除以其标准差。这可以使得最终在模型中选入的自变量LN_CirculatingMarketValue和自变量Return_20D量级相当。

本文中选取的指标和经过预处理后的部分数据如表一所示：

2.模型的建立与实验结果

本文使用了matlab编程软件提供的广义线性模型函数工具箱进行模型拟合：我们调用了其中的glmfit函数，并将distr的参数选取为binomial，表示本文模型中的因变量选定为服从伯努利分布，再将link的参数选取为logit，表示本文模型中的连接函数选为，表示伯努利分布的参数。

根据matlab编程软件返回的计算结果，我们得到的Logistic回归方程如下式所示：

再根据matlab软件返回的各参数的统计量依次为-14.35、-3.97和3.97以及对应的值均小于0.05可知，上述模型中的三个参数均显著，同时整个方程也是显著，拟合是有效的。本文中模型的建立说明我们可以尝试使用当日的股票的涨跌幅和当日的流通市值数据来预测20天后股票的涨跌情况。这具有一定的实际应用价值。

参考文献

[1]吴晓刚.广义线性模型[M].格致出版社，上海人民出版社，2011.

[2]贾俊平、何晓群、金勇进.统计学[M].中国人民大学出版社，2014.

[3]庞素琳.Logistic回归模型在信用风险分析中的应用.数学的实践与认识[J].2006.

[4]于立勇，詹捷辉.基于Logistic回归分析的违约概率预测研究.财经研究[J].2004.