响应变量随机缺失下广义线性模型的经验似然

2015-06-10 08:41莉,陈
关键词:情形线性定理

闫 莉,陈 夏

(陕西师范大学 数学与信息科学学院,陕西 西安710119)



响应变量随机缺失下广义线性模型的经验似然

闫 莉,陈 夏*

(陕西师范大学 数学与信息科学学院,陕西 西安710119)

研究响应变量随机缺失下广义线性模型的经验似然推断。首先构造未知参数的经验似然比函数,并证明其渐近分布为卡方分布;其次得到参数的若干估计量并得到了其渐近分布,研究结果可以直接构造参数的置信区间或置信域;最后利用模拟计算验证所提方法的优良性质。

经验似然;广义线性模型;缺失数据;置信域

广义线性模型(GeneralizedLinearModel,GLM)的理论是对线性模型经典理论的重要推广,自从1972年Nelder和Wedderburn引入此模型以来[1],它已应用到许多领域。近年来,在实际应用中,带有缺失数据的统计分析成为研究的热点问题。基于此,本文讨论响应变量随机缺失下,GLM的经验似然推断。

经验似然方法作为一种非参数统计推断方法由Owen在1988年提出[2-3]。经验似然方法在构造置信域方面有许多突出的优点,例如,无需对渐近方差进行估计、置信域的形状由数据自行决定、域保持性、变换不变性、Bartlett纠偏性以及无需构造枢轴统计量等。许多统计学者已将经验似然方法应用到处理各种数据的问题[4-13]。在GLM的经验似然研究方面,1994年文献[14]利用拟似然函数方法讨论了GLM的经验似然。2006年文献[15]研究了一种推广的经验似然方法。2011年,文献[16]考虑了带有缺失数据的GLM的经验似然推断。然而,上述工作均是利用拟似然函数方法研究经验似然问题,即在假定均值函数和方差函数都能正确设定的情形下讨论。利用拟似然方程方法,仅在均值函数有正确设定的情形下,2014年文献[17]讨论了固定设计和自适应设计情形下GLM的经验似然推断。基于完全数据方法,文献[18-19]讨论了缺失数据下GLM的拟似然估计和经验似然推断问题。

(1)

考虑响应变量yi有缺失的情形,即在模型(1)中得到了不完全样本{(yi,Xi,δi):1≤i≤n},其中Xi可以观测,若yi缺失,则δi=0,否则δi=1。这里假定yi是随机缺失(Missing at Random, MAR)的情形,即选择概率为

P(δi=1|yi,Xi)=P(δi=1|Xi)=π(Xi)。

(2)

在缺失数据的统计分析中,MAR是一种常见的假定且在很多实际应用中是合理的[21]。

(3)

把其解定义为β0的极大拟似然估计(Maximum Quasi-likelihood Estimate, MQLE)。

本文从拟似然方程(3)的观点出发,讨论了响应变量随机缺失下GLM的经验似然推断。为了处理缺失数据,提出了未知参数的两种类型的经验对数似然比统计量,并证明了其渐近分布为卡方分布。为了与正态逼近方法进行比较,同时构造了未知参数的两类估计量并得到了它们的渐近正态性。

该工作对已有成果有以下改进。第一,利用了拟似然方程方法讨论缺失数据下GLM的经验似然问题,这不同于2011年文献[16]的工作。文献[16]利用拟似然函数方法,即在假定均值函数和方差函数都正确设定的情形下,讨论该问题。这里,仅假定均值函数(1)有正确设定。第二,文献[16]讨论了随机设计情形,如前文所述,这可以看作是本文固定设计的特例。第三,虽然文献[19]利用拟似然方程方法讨论了缺失数据下GLM的经验似然,但该文仅利用完全数据方法处理缺失数据,这在缺失率较高的情况下效率可能会降低。本文利用加权和借补方法以提高经验似然推断的效率。

1 方法与主要结果

1.1 基于完全数据方法的经验似然

(4)

(5)

的解。

1.2 基于加权方法的经验似然

如在节1.1提到的,可构造一个关于参数β的加权经验对数似然比函数

(6)

这里

如果选择概率π(·)未知,则上述经验似然比函数ln,W(β)不能直接用于统计推断。此时,可用核光滑方法估计它,在一定的条件下,可以得到估计的加权经验对数似然比函数与此处定义的ln,W(β)有相同的渐近分布。此处讨论选择概率π(·)已知的情形。

1.3 基于借补方法的经验似然

(7)

(8)

1.4 主要结果

(C1) 联系函数μ(t)二阶连续可导,选择概率函数π(x)有连续导数,且infxπ(x)>0。

(C3) 存在δ>0,使得

定理2在条件(C1)—(C3)下,有

为了应用定理2去构造参数β0的置信域,需要给出Fn和Gn的估计,即

2 模拟研究

本节给出几个模拟例子解释所提出的方法。通过计算,发现所提方法在所构造置信区间的覆盖率和区间长度方面的优势。为简单计,这里仅考虑参数为一维的情形。

在模型中,取β0=1,μ(t)=et,设计变量Xi来自于给定种子的均匀分布U(0,I),使其在模拟中保持不变,模型误差ei来自于均匀分布U(-1,1)。对于不同的样本量n=30、60、120基于以下三种选择概率分别产生2 000个随机样本:

(1) 如果样本满足|x-1|≤1,取π1(x)=P(δ=1|x)=0.8+0.2|x-1|, 否则取为0.95。

(2) 如果样本满足|x-1|≤4.5,取π2(x)=P(δ=1|x)=0.9-0.1|x-1|,否则取为0.1。

(3) 取π3(x)=0.6对所有x。

以上三种选择概率对应的平均缺失比率分别大约为0.07、0.22和0.4。

表1 参数β0=1的置信区间的经验覆盖率Tab.1 Empirical coverage probabilities of the confidence intervals for β0=1

表2 参数β0=1的置信区间的平均区间长度Tab.2 The Average lengths of the confidence intervals for β0=1

由表1和表2,可得到如下结论:

(ⅰ) 在选择概率为π2(x)和π3(x)的情形下,IEL方法相比其他几种方法而言,有较短的区间长度和较高的覆盖率。对选择概率π1(x),IEL有稍长的区间长度,但有更高的覆盖率。这表明当缺失率较大时,回归借补方法是必要的。

(ⅲ) 对每一种缺失率而言,当样本量增加时,置信区间长度会减少而经验覆盖率会增加。而且,缺失率会影响区间长度和覆盖率。

3 定理的证明

以下用c表示正常数,每次出现其值可不同。为了证明主要结论,首先给出以下引理。

引理1在条件(C1)—(C3)下,有

(9)

(10)

(11)

其中ηi(β0)可取为ηi,W(β0)或ηi,I(β0)。

证明(a) 首先证明引理1对ηi,W(β0)成立。仅证明(9)式,(10)—(11)式的证明类似。易知

其中‖λ‖=1。由中心极限定理和Cramér-Wold定理知,为证明(9)式,只需证明对ε>0,有

(12)

由条件(C2)和(C3)知,

(13)

由条件(C1)和(C3)易知Sn≤cFn,故

(14)

由Cauchy-Schwarz不等式、(13)和(14)式以及条件(C1)—(C3)可得(12)式。因此(9)式得证。

(b) 现证明该引理对ηi,I(β0)成立。计算可得,

ηi,I(β0)=ηi,W(β0)+

由大数定律知,

(15)

由此,结合(a)的结果可知引理对ηi,I(β0)成立。

定理1的证明由引理1,利用Owen[2-3]提到的方法可以得到本定理的证明。

定理2的证明由条件(C1)—(C3)以及文献[14]的引理1,可得

注意到引理1的(9)式,定理得证。

4 结论

在响应变量随机缺失的情形下,研究了广义线性模型中的经验似然推断问题。仅在基于均值函数正确设定的情形下,利用加权和借补方法,提出了未知参数的两类经验对数似然比统计量和估计量,并得到了它们的渐近分布。所得结果可直接应用于统计推断。和现有方法相比,本文构造的统计量提高了经验似然在构造置信域方面的效率,尤其在缺失率较高的时候表现较为明显。此方法利用一类简单而重要的拟似然方程进行研究,仍需进一步改进,以便能处理更加一般的拟似然方程。

[1] Nelder J A, Wedderburn R W M. Generalized linear models[J]. Journal of the Royal Statistical Society, Series B, 1972, 135(3):370-384.

[2] Owen A B. Empirical likelihood ratio confidence intervals for a single function[J]. Biometrika, 1988, 75(2): 237-249.

[3] Owen A B. Empirical likelihood ratio confidence regions[J]. The Annals of Statistics, 1990, 18(1): 90-120.

[4] Qin J, Lawless J. Empirical likelihood and general estimating equations[J]. The Annals of Statistics, 1994, 22(1):300-325.

[5] Chen S X, Qin Y S. Empirical likelihood confidence intervals for local linear smoothers[J]. Biometrika, 2000, 87(4):946-953.

[6] Wang Q H, Rao J N K. Empirical likelihood-based inference under imputation for missing response data [J]. The Annals of Statistics, 2002, 30(3):896-924.

[7] Zhu L X, Xue L G. Empirical likelihood confidence regions in a partially linear single-index model[J]. Journal of the Royal Statistical Society, Series B, 2006, 68(3):549-570.

[8] Xue L G, Zhu L X. Empirical likelihood for a varying coefficient model with longitudinal data[J]. Journal of the American Statistical Association, 2007, 102(478):642-654.

[9] Xue L G, Zhu L X. Empirical likelihood semiparametric regression analysis for longitudinal data[J]. Biometrika, 2007, 94(4):921-937.

[10] Qin J, Zhang B. Empirical-likelihood-based inference in missing response problems and its application in observational studies[J]. Journal of the Royal Statistical Society, Series B, 2007, 69(1):101-122.

[11] Wang D, Chen S X. Empirical likelihood for estimating equations with missing values[J]. The Annals of Statistics, 2009, 37(1):490-517.

[12] Xue Liugen, Xue Dong. Empirical likelihood for semiparametric regression model with missing response data[J].Journal of Multivariate Analysis, 2011, 102(4):723-740.

[13] Yan Li, Chen Xia. Empirical likelihood for partly linear models with errors in all variables[J]. Journal of Multivariate Analysis, 2014, 130: 275-288.

[14] Kolaczyk E D. Empirical likelihood for generalized linear models[J]. Statistica Sinica, 1994, 4:199-218.

[15] Chen S X, Cui H J. An extended empirical likelihood for generalized linear models[J]. Statistica Sinica, 2006, 13:69-81.

[16] Xue Dong, Xue Liugen, Cheng Weihu. Empirical likelihood for generalized linear models with missing responses[J].Journal of Stastical Planning and Inference,2011, 141(6):2007-2020.

[17] Yan Li, Chen Xia. Empirical likelihood for generalized linear models with fixed and adaptive designs[J]. Statistics, 2014, DOI: 10.1080/02331888.2014.929135.

[18] 闫莉,陈夏.缺失数据下广义线性回归拟似然估计的强相合性[J].陕西师范大学学报:自然科学版, 2010, 38(2):15-17.

[19] 闫莉,陈夏.缺失数据下广义线性模型的经验似然推断[J]. 统计与信息论坛, 2013, 28(2): 14-17.

[20] Chen K, Hu Y, Ying Z. Strong consistency of maximum quasi-likelihood estimators in generalized linear models with fixed and adaptive designs[J]. The Annals of Statistics, 1999, 27(4):1155-1163.

[21] Little R J A, Rubin D B. Statistical analysis with missing data[M].New York: John Wiley & Sons,2002.

[22] 高启兵, 吴耀华.广义线性回归拟似然估计的渐近正态性[J].系统科学与数学, 2005, 25(6):738-745.

[23] Chen Xia, Chen Xiru. Adaptive quasi-likelihood estimator in generalized linear models[J]. Science China Mathematics, 2005, 48(6):829-846.

[24] Yin Changming, Zhao Lincheng. Asymptotic normality and strong consistency of maximum quasi-likelihood in generalized linear models[J].Science China Mathematics, 2006, 49(2):145-157.

[25] Zhang Sanguo, Liao Yuan. On some problems of weak consistency of quasi-maximum likelihood estimates ingeneralized linear models[J]. Science China Mathematics, 2008, 51(7):1287-1296.

[26] Zhu Chunhua, Gao Qibing. Asymptotic properties in generalized linear models with natural link function and adaptive designs[J]. Advances in Mathematics, 2013, 42(1):121-127.

〔责任编辑 宋轶文〕

Empirical likelihood for generalized linear models with missing responses

YAN Li, CHEN Xia*

(School of Mathematics and Information Science, Shaanxi Normal University,Xi′an 710119, Shaanxi, China)

The application of the empirical likelihood method to a generalized linear model with missing responses at random is considered. Firstly, a class of empirical likelihood ratios for the unknown parameter are defined such that any ratio in the class is asymptotically chi-squared. Secondly, a class of estimators for the parameter are constructed and the asymptotic distributions of the proposed estimators are obtained. Our results can be used directly to construct confidence intervals and regions for the parameters of interest. Finally, some simulations are conducted to illustrate the proposed methods.

empirical likelihood; generalized linear models; missing data; confidence region

62J12

1672-4291(2015)03-0001-05

10.15983/j.cnki.jsnu.2015.03.131

2014-11-09

国家自然科学基金资助项目(11201276); 陕西省自然科学基金资助项目(2014JQ1042); 中央高校基本科研业务费专项资金项目(GK201503012,GK201503015)

闫莉,女,讲师,博士,主要研究方向为非参数统计。E-mail: lyan@snnu.edu.cn

*通信作者:陈夏,男,副教授。E-mail: xchen80@snnu.edu.cn

O212.1

A

猜你喜欢
情形线性定理
J. Liouville定理
渐近线性Klein-Gordon-Maxwell系统正解的存在性
线性回归方程的求解与应用
避免房地产继承纠纷的十二种情形
四种情形拖欠劳动报酬构成“拒不支付”犯罪
A Study on English listening status of students in vocational school
二阶线性微分方程的解法
“三共定理”及其应用(上)
出借车辆,五种情形下须担责
Individual Ergodic Theorems for Noncommutative Orlicz Space∗