白杨河4至5月平均流量多项Logistic回归分析与预报

2021-08-27 02:19琪美格
地下水 2021年4期
关键词:因变量回归方程基线

琪美格

(新疆维吾尔自治区水文分析计算中心,新疆 乌鲁木齐 830000)

在中长期水文预报实践中,会遇到预报对象是分类因变量的情况,如一条河流未来来水是偏丰、正常还是偏枯。本文通过选用五圣宫水文站前期预报因子,将4至5月平均流量构建为反映春季来水偏丰、正常或偏枯的分类因变量,对分类因变量未来各类可能发生的概率用多项Logistic回归分析进行尝试性的预报,确保符合精度要求。

1 基本思路

多项Logistic回归分析是指通过一组预报因子,采用多个二值Logistic回归方程,来描述分类因变量各类与参照类相比的条件下预报因子对预报对象的作用。

如果预报对象y(分类因变量)有J个类别,令第j(j=1、2、…、J)类的概率为Pj,则预报对象的样本观测值在这J个类别中的分布服从多项分布,且∑Pj= 1。若用xk(k=1、2、…、m,m是预报因子总数)表示预报因子,aj和bjk分别表示第j类的常数项和预报因子回归系数,则多项Logistic回归方程可表示为:

ln(pj/pJ)=aj+bj1·x1+…+bjk·xk+…+bjm·xm(j=1、2、…、J-1)

上述方程是以分类因变量最后一类(J)为基线的,可见,在每个类别j与基线类别J之间建立了J-1个二值Logistic回归方程。若令P=∑(Exp(aj+bj1·x1+…+bjk·xk+…+bjm·xm)),则分类因变量各类可能发生的概率Pj的计算式为:

Pj=Exp(aj+bj1·x1+…+bjk·xk+…+bjm·xm)/P(j=1、2、…、J-1)

基线对应的常数项与回归系数均为0,故基线类别可能发生的概率PJ=1/P。

2 多项Logistic回归分析与预报

2.1 构建4-5月平均流量分类因变量

五圣宫水文站1981-2019年3月下旬旬平均流量Q、2月中旬降水量R、1月上旬旬平均气温T及4至5月平均流量Q4-5序列SPSS数据文件(仅显示局部)见图1。

计得Q4-5序列多年均值为2.44 m3/s。本次约定,Q4-5低于2.20 m3/s(即距平值﹤-10)时,来水量为偏枯,对应的分类因变量Y取1;介于2.20 m3/s和2.68 m3/s之间(即距平值介于-10和10之间)为正常,Y取2;高于2.68 m3/s(即距平值﹥10)为偏丰,Y取3。构建的分类因变量Y序列见图1。

图1 五圣宫水文站分类因变量及前期预报因子序列

2.2 多项Logistic回归分析

SPSS操作步骤为:

步骤1:在图1中依次单击菜单“分析→回归→多项Logistic”,从弹出的多项Logistic回归对话框左侧的列表框中选择“Y”,移动到因变量列表框,选择“Q”、“R”和“T”,移动到协变量列表框。

步骤2:单击“统计量”按钮,在打开的对话框中勾择“个案处理摘要”、“步骤摘要”、“模型拟合度信息”、“分类表”、“拟合度”、“估计”和“似然比检验”,单击“继续”按钮返回多项Logistic回归对话框。

步骤3:单击“确定”按钮,执行多项Logistic回归的操作。

2.3 回归效果的统计检验

SPSS输出的回归效果统计检验结果如下:

(1)案例处理摘要:39个分类因变量个案全部有效,其中偏枯18个,正常9个,偏丰12个。

(2)模型拟合信息:仅包含截距项的模型和最终模型的似然比检验结果,其-2倍对数似然值分别为82.517、54.992,2=27.524,自由度为6,显著性水平ρ=0.000<0.001,表明最终模型要优于只含截距项的模型,即最终模型成立,说明模型中至少有1个预报因子有统计学意义。

(4)似然比检验:预报因子中,1月上旬旬平均气温T的显著性水平ρ小于0.5,其余因子都小于0.05,说明在0.5显著性水平下,预报因子对多项Logistic回归方程的贡献都有统计学意义。

(5)以类别3为基线的多项Logistic回归方程参数估计

分类因变量Y各类可能发生的概率Pj的计算式为:

P1=Exp(11.334-13.830*Q-0.842*R-0.173*T)/(1+Exp(11.334-13.830*Q-0.842*R-0.173*T)+Exp(8.244-10.727*Q-0.673*R-0.182*T))

P2=Exp(8.244-10.727*Q-0.673*R-0.182*T)/(1+Exp(11.334-13.830*Q-0.842*R-0.173*T)+Exp(8.244-10.727*Q-0.673*R-0.182*T))

P3=1/(1+Exp(11.334-13.830*Q-0.842*R-0.173*T)+Exp(8.244-10.727*Q-0.673*R-0.182*T))

式中:P1是类别1与基线类别3相比较得到的预测概率(偏枯型),P2是类别2与基线类别3相比较得到的预测概率(正常型),P3是基线类别3的预测概率(偏丰型)。

(6)分类表中总的正确预测百分率为59.0%,说明多项Logistic回归方程的预测效果良好。

2.4 预报

五圣宫水文站2020年3月下旬旬平均流量Q为0.754 m3/s,2月中旬降水量R为2.3 mm,1月上旬旬平均气温T为-8.7℃,代入上述3个类别的预测概率计算式,计得P1、P2、P3分别为0.42、0.32和0.26。

可见,P1值最大,所以分类因变量取1的可能性最大,即五圣宫水文站2020年4-5月平均流量预计为偏枯的可能性较大。实际情况是1.86 m3/s,低于偏枯的上限值2.20 m3/s,属于偏枯型,预报正确。

3 结语

(1)选用前期预报因子,用多项Logistic回归分析对分类因变量Y未来各类可能发生的概率进行预报,是一次成功的尝试。

(2)多项Logistic回归模型拟合信息表明,最终模型成立,且至少有1个预报因子有统计学意义;拟合优度检验显示,模型拟合优度较好;似然比检验表明,预报因子对模型的贡献在0.5信度下都有统计学意义;分类表显示,模型的预测效果良好。

(3)2020年4-5月平均流量的丰枯趋势的预报结果为正确,说明该技术在中长期水文定性预报方面有一定的实用价值。

猜你喜欢
因变量回归方程基线
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
航天技术与甚长基线阵的结合探索
一种SINS/超短基线组合定位系统安装误差标定算法
走进回归分析,让回归方程不再是你高考的绊脚石
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
一种改进的干涉仪测向基线设计方法
技术状态管理——对基线更改的控制