多元线性回归模型中处理多重共线性方法对比

2020-09-12 14:04范圣岗奚书静
科技风 2020年23期

范圣岗 奚书静

摘 要: 存在多个指标的多元线性回归模型容易发生多重共线性问题,利用手动剔除法、逐步回归法、主成分回归法解决此问题,并构造人口迁移对教育资源冲击测定模型对比三者差异。输出结果显示手动剔除法与逐步回归法剔除无效指标后对模型的预测更具真实性,而主成分回归法虽保留了各项指标,但其结果可能是偏离现实的。

关键词: 多重共线性;手动剔除法;逐步回归法;主成分回归法

1 教育资源指标的选定与多元线性回归方程

1.1 教育资源冲击问题简介与指标选取

人口大量向城镇进行迁移必然会给当地的教育资源带来巨大冲击,当发生教育资源失衡时,可能导致教师负担加重和教学场地供应不足,最终地区的教育持续恶性发展。表1给出我国某县教育资源的相关数据,指标“师生比”开始从左至右依次设为x1,x2,…,x6,Y。

1.2 多元线性回归模型与共线性问题

多元回归模型Y  ^ -β0+β1x1+β2x2+…+βnxn+ε利用最小二乘法(minQ=min∑ m j=1 [Yj-(β0+∑ n i=1 βixij)]2)得的参数是真实值的无偏估计。对数据输出得到方程:

Y  ^ =-0.015+0.545x1+0.008x2+0.034x3-0.002x4-0.005x5+0.104x6

输出结果显示人均教学面积与人均图书册数对Y成反比,即学生的人均拥有图书越多则学生成绩越差,这与基本逻辑不符。利用模型输出方差膨胀系数VIFi= 1 1-R2i 判断出多个指标存在多重共线性问题(VIF≥10),出现此原因可能是选取的指标存在着高度相关关系。

2 共线性问题的改进与比对

2.1 手动剔除变量

对两个VIF值偏大的指标x5,x6进行剔除,得到多元回归方程:

Y  ^ =-0.035+0.932x1-0.009x2+0.032x3+0.003x4

在手动剔除了VIF值偏大的指标后,剩余四个变量做多元回归拟合后的VIF值均呈现下降趋势:VIF1=4.616,VIF2=5414,VIF3=9.884,VIF4=16.292,并且此模型的统计量p=000,R2=0.959表明方程有较好的显著性及对模型很好的解释性。根据x4的VIF值,进一步剔除x4得多元回归模型:Y  ^ =-0039+1.009x1+0.012x2+0.033x3,各系数均与正常逻辑相符。

2.2 逐步回归法

逐步回归中的前进法:对各指标与Y  ^ 的一元回归系数并进行F检验,记F值的集合为 F(1)1,F(1)2,…,F(1)m ,则F(1)max=max F(1)1,F(1)2,…,F(1)m ,若F(1)max大于给定显著性水平α下F分布的分位数Fα(1,n-2),则将F(1)max对应指标xiγ作为最终回归指标之一,再将xiγ与其他指标两两组合对Y  ^ 做二元回归方程,并记各二元回归方程对应F值集合 F(2)1,F(2)2,…,F(2)m-1 的最大值为F(2)max,若F(2)max≤Fα(1,n-3)则停止筛选,选对应的回归方程为最终结果,若F(2)max>Fα(1,n-3),再选入下一个指标配对并做关于Y  ^ 做三元回归方程,重复上述步骤。

利用SPSS软件进行逐步回归得到最佳的多元回归方程:Y  ^ =-0.039+1.011x1+0.033x3,逐步回归的结果显示学生的成绩主要与师生比例、教育投入有关。

2.3 主成分回归法

主成分回归法将相关性强的一组指标x1,x2,…xn通过替换Z=AX生成一组满足协方差Cov(Zi,Zj)=0(i≠j)的综合指标Z1,Z2,…Zm,其中Z=(Z1,Z2,…Zm)T,A=(αi,j)m×n,X=(α1,α2,…,αn)T。通过指标的协方差矩阵的特征值大小顺序确定主成分Z1,Z2,…Zm,使其累计贡献率∑ m j=1 γj/∑ m i=1 γi≥0.8。主成分进行多元回归有Y  ^ =μ0+μ1Z1+μ2Z2+…+μnZn+ε,再结合各指标在主成分上的载荷系数得到最终结果。由于各指标呈高度相关性,此处较为特殊的是仅提取一个累计贡献率为86.70%的主成分Z,下表为各指标对Z的载荷系数:

给出Z与Y的回归方程Y  ^ =0.064+0.011Z,再代入上表中的载荷系数得Y  ^ =0.064+0.009735x1+0.00979x2+0.010318x3+0.010824x4+0.010153x5+0.010604x6。主成分回归虽然保留了六个指标,但是明显的缺陷是Y  ^ 的下限为0.064。

3 人口迁移对教育资源冲击测定

设X1,X2,…,X6分别为地区原有教师数、高级教师数、教育经费投入(千元)、教学面积、图书数、设备数,原有学生数为Q0,则xi= Xi Q (i≠2),x2= X2 X1 ,学生增加ΔQ后有Q1=Q0+ΔQ,则人口迁移的冲击率为 |Y  ^ Q-Y  ^ Q1| Y  ^ Q 。

例:某地区原有学生数为Q0=2000人,X1=100,X2=5,X3=2500,X4=1000,X5=2500,X6=300,学生增加量為ΔQ=500,对冲击率测定:

4 结语

通过测定发现手动剔除法与逐步回归法有着一定的相似性,而主成分回归法与其他两方法差异较大。其主要原因是主成分回归法虽然保留了各项指标,但对各项指标赋予的系数较小,导致结果对于各项指标不敏感。在改进多重共线性问题时,若主成分回归法赋予常数项系数过大时,应该考虑慎用此方法。

参考文献:

[1]蔡素丽.多元线性回归模型应用实证分析[J].廊坊师范学院学报(自然科学版),2017,17(04):5-8.

[2]魏红燕.回归分析中多重共线性的诊断与处理[J].周口师范学院学报,2019,36(02):11-15.

项目: 大学生创新创业训练计划:201910602262

作者简介: 范圣岗(1998—),男,汉族,广西柳州人,本科,研究方向:生物数学、应用概率统计。