Logistic模型的局部影响分析

2012-11-08 00:53
关键词:计算公式对数曲率

光 琳

(江苏联合职业技术学院 连云港财经分院, 江苏 连云港 222003)

Logistic模型的局部影响分析

光 琳

(江苏联合职业技术学院 连云港财经分院, 江苏 连云港 222003)

利用曲率方法研究了Logistic模型的局部影响,推导出了漂移扰动、加权扰动、自变量扰动及因变量扰动下的曲率计算公式,最后给出了实例分析,证实了结论的有效性.

Logistic模型; 局部影响; 曲率; 扰动

0 引言

在工程上以及医学、流行病学、生物学等学科中,人们经常需要研究二分变量与诸多自变量的相互关系,Logistic模型作为其中一种重要的模型,日益受到人们的重视.关于Logistic模型,人们已经做了大量的研究,但主要集中在参数估计理论、假设检验理论以及模型的应用方面,而对其模型的统计诊断在国内相关的参考文献并不多见.

识别Logistic模型的异常点及强影响点的诊断统计量主要有Score统计量,广义cook距离,似然距离等,它们都是刻划了删除个别数据点对回归分析的影响.删除个别数据点其实不过是模型扰动的一种方式[1],由数据删除模型(CDM)与均值漂移模型(MSOM)的等价性可以清楚地看到:删除一个数据点相当于加进一个扰动向量而得到的模型,但模型的扰动方式并不限于删除数据这一种扰动方式,还有别的一些扰动方式,如方差加权模型等.本文利用Cook[2]提出的曲率方法研究了Logistic模型在各种扰动情况下的局部影响,得出了影响曲率的计算公式,从而探测出模型的强影响点.

Logistic模型是一种广义的线性模型(GLM),应变量Y1,Y2, …,Yn是相互独立的,而且Yi~B(Pi),EYi=Pi=P(Yi=1),在这种模型下,

(1)

其中xi=(1,xi1,…,xi,p-1)T,β=(β0,β1,…,βp-1)T.

对应的对数似然函数、Score函数与观察信息矩阵分别是为:

(2)

(3)

(4)

其中X=(x1,x2,…,xn)T,p=(p1,p2,…,pn)T,y=(y1,y2,…,yn)T,

W=diag(w1,w2,…wn),wi=pi(1-pi) .

本文主要研究(1)式的Logistic模型.

1 局部影响分析

局部影响分析是考虑模型的扰动而建立起来的统计诊断方法,它最早由Cook[2]提出,其后许多统计学家如Thomas and Cook[3], Escobar and Meeker[4]和 Poon and Poon[5]等发展了局部影响分析方法.在统计诊断研究中,该方法已被广泛应用于许多模型,例如韦博成等[1]分析了线性模型的局部影响,Thomas等[3]讨论了非线性模型及广义线性模型的情形,曾林蕊等[6]研究了半参数广义线性模型的局部影响分析,解锋昌等[7]研究了具有结构变化的线性回归模型的局部影响分析,吕敏红等[8]研究了时间序列的局部影响分析.我们首先回顾 Cook 的局部影响分析方法的基本思想,然后将其应用到Logistic模型,导出其局部影响分析的曲率度量及计算公式.

根据Cook[2],韦博成等[1]的讨论,影响图在ω0处d方向的影响曲率可表示为

Cd=2|dTFd|

(5)

2 Logistic模型的局部影响分析的曲率计算公式

上面介绍了局部影响分析的基本公式,下面我们将这些结果应用到Logistic模型,讨论常见的几种扰动模式.

2.1 均值漂移扰动

考虑均值漂移扰动模型[9],扰动后模型的对数似然函数为

(6)

ω0=0表示对应的似然函数没有扰动.

由(5)式有

进而得到影响曲率的计算公式为

Cd=2|dTFd|=2|dTWTX(XTWX)-1XTWd|

(7)

2.2 方差加权扰动

方差加权扰动模型[1]是研究影响分析的重要模型,经扰动ω后的对数似然函数转化为加权形式

(8)

其中

ω=(ω1,ω2,…,ωn)T,ω0=1表示无扰动.

于是,可算得

根据(5)式,得

进而得到影响曲率的计算公式为

Cd=2|dTFd|=2|dTΛTX(XTWX)-1XTΛd|

(9)

2.3 自变量的扰动

假设扰动ω加在第i列,即Xi转化为Xi(ω)=Xi+ω,在此扰动下,MSOM转化为[1]

(10)

于是,对数似然函数可化为

其中li表示第i分量为1其他分量为0的p维向量.因此,在d方向上的影响曲率的计算公式为

2.4 因变量的扰动

因变量yi受到扰动变为yi+ωi,i=1,2,…,n.其对数似然函数可表示为[10]

ω0=0表示对应的似然函数没有扰动.

进而

于是

相应影响曲率的计算公式为

Cd=2|dTFd|=2|dTX(XTWX)-1XTd| .

3 数值实例

资料为50位急性白血病人的生存时间y与在入院后取得的淋巴浸润等级X1,出院后有无巩固治疗X2的关系[11].该数据曾被多次引用,我们用Logistic模型,根据R软件拟合的结果,得到

在此基础上,利用R软件编程计算可得到局部影响图(这里我们以影响矩阵的对角元的相反数为纵坐标,数据序号为横坐标).我们以前两种扰动方式为例,得图1.

图1 局部影响图

由图(a)可知,第11,20,37,39,43,46号点由于漂移扰动而产生较大影响,是强影响点;由图(b)可知,第16,22,41号点由于加权扰动而成为强影响点,另外第20,43,46号点影响也相对较大.

利用R软件编程计算这两种扰动下的影响矩阵的绝对值最大的特征值λ1及其相应的特征向量dmax,得到扰动时dmax分量绝对值散点图,如图2所示,可以看出,与图1中得到的结果完全一致.

图2 扰动时|dmax|的散点图

[1] 韦博成, 鲁国斌,史建清. 统计诊断引论[M]. 南京: 东南大学出版社,1991.

[2] Cook R D. Assessment of local influence[J]. J R Statist Soc B,1986,48(3):133-169.

[3] Thomos W, Cook R D. Assessing influence on regression coefficients in generalized liner models[J].Biometrika,1989,76:741-749.

[4] Escobar L A, Meeker W Q. Assessing influence in regression analysis with censored data[J].Biometrics,1992,48:507-508.

[5] Poon W Y, Poon W S. Conformal normal curvature and assessment of local influence[J]. J R Statist, Soc B,1999,16(1):51-61.

[6] 曾林蕊,朱仲义. 半参数广义线性模型的局部影响分析[J]. 华东师范大学学报:自然科学版,2005(4):18-25.

[7] 解锋昌,李爱萍,李勇. 具有结构变化的线性回归模型的局部影响分析[J]. 河海大学学报:自然科学版,2005,33(6):717-720.

[8] 吕敏红,郭鹏江. 时间序列的局部影响分析[J]. 西北大学学报:自然科学版,2011,41(1):1-4.

[9] 熊加兵. 带右删失数据非线性模型的统计分析[D]. 扬州:扬州大学,2007.

[10] 谢书培,韩俊林. Logistic回归模型的统计诊断与实例分析[J]. 聊城大学学报,2011, 24(1):27-31.

[11] 薛毅,陈立萍. R软件建模与R软件[M]. 北京:清华大学出版社,2007.

[责任编辑:李春红]

LocalInfluenceofLogisticModel

GUANG Lin

(Lianyungang Branch of Finance and Economics, Jiangsu Union Technical Institute, Lianyungang Jiangsu 222003, China)

This paper systematically discusses the local influence of Logistic statistical model by use of the curvature method. The counting formulas of curvature for mean shift perturbation, case weights perturbation, arguments perturbation and the dependent varible perturbation are derived. At last, a case study are given to illustrate our results.

Logistic mode; local influence;curvature;perturbation

O212.1

A

1671-6876(2012)02-0129-05

2012-02-29

光琳(1980-), 男, 河南灵宝人, 讲师, 硕士研究生, 研究方向为概率与数理统计.

猜你喜欢
计算公式对数曲率
大曲率沉管安装关键技术研究
一类双曲平均曲率流的对称与整体解
电机温升计算公式的推导和应用
含有对数非线性项Kirchhoff方程多解的存在性
指数与对数
指数与对数
半正迷向曲率的四维Shrinking Gradient Ricci Solitons
2019离职补偿金计算公式一览表
对数简史
Esn+1中具有至多两个不同主曲率的2-调和超曲面