高维非正态总体协方差阵检验的检验统计量

2018-03-05 00:41闫梓心刘忠颖张兆元
长春师范大学学报 2018年2期
关键词:估计量样本量协方差

闫梓心,刘忠颖,王 娇,张兆元

(1.长春师范大学数学学院,吉林长春 130032;2.长春师范大学工程学院,吉林长春 130032)

我们考虑单样本问题,即令X1,X2,…,XN是独立的p维随机向量,每个Xi能被表示为

(1)

其中,μ是p维常数向量,∑为p×p的正定阵.并且随机向量Zi=(Zi1,Zi2,…,Zip)′的均值向量为0p×1,协方差阵为p阶单位阵I,i=1,2,…,N.在对大维数据进行统计检验时,检验假设

H0:∑=Iv.s.H1:∑≠I.

被很多研究者关注[1-6].文献[1,4-6]在建立检验统计量时对tr(∑-I)2进行了估计.本文给出tr(∑-I)2的一个无偏估计量,证明它是相合的,并借助模拟实验说明我们提出的估计量的优良性.

1 tr(∑-I)2的估计量

在对tr(∑-I)2进行估计时,因为tr(∑-I)2=tr(∑2)-2tr(∑)+p,需要给出tr(∑2)和tr(∑)的估计量.众所周知,协方差阵的一个优良的估计量是样本方差阵

[指导教师]刘忠颖(1977- ),女,讲师,硕士,从事多元统计分析研究。

定理1 对于模型(1),tr(∑-I)2的无偏估计量为

为了说明相合性,我们沿用文献[8]提出的渐近框架和假设:

当N、P→时,

A1:N/p→c∈(0,),

A2:tr(∑2)/p→a∈(0,),

A4:‖∑∘∑‖<,‖∑‖<,

证明 由文献[8]中定理2,可以得到,在假设A1、A2和A3成立下,

记Zi=(Zi1,Zi2,…,Zip)′,∑=(σij)p×p.则

在下面的推导中将一直采用样本方差的这种表示方式.显然可以得到

其中,

同理,可以得到

在假设A2、A4和A5下,当N,p→时,D(trS/p)→0.由切比雪夫不等式,可得到

定理1和定理2说明了统计量T1是无偏的、相合的.

2 模拟与应用

利用Monte Carlo模拟说明我们提出的估计量的功效.

在模拟中,给出均值向量是零向量以及协方差矩阵∑=(0.2|i-j|).取样本量和随机向量维数为N,p=50,100,150,200,循环次数为5000.关于分布,取以下三种情况:

①Zi=(Zi1,Zi2,…,Zip)′中的Zi1,Zi2,…,Zip是独立同分布的,都服从标准正态分布N(0,1).

③令Zij=(ωij-8)/4,其中ωi1,ωi2,…,ωip是独立同分布的,都服从自由度是8的χ2分布.

在每一种情形下,计算f(∑)=tr(∑-I)2/p、T1/p、f(∑)与T1/p的标准误e1.一般容易想到的tr(∑-I)2的估计量是T2=tr(S-I)2,为了比较,我们还计算了T2/p、f(∑)与T2/p的标准误e2.

表1 基于①计算f(∑)、T1/p、f(∑)与T1/p的标准误e1、T2/p、f(∑)与T2/p的标准误e2

表2 基于②计算f(∑)、T1/p、f(∑)与T1/p的标准误e1、T2/p、f(∑)与T2/p的标准误e2

表3 基于③计算f(∑)、T1/p、f(∑)与T1/p的标准误e1、T2/p、f(∑)与T2/p的标准误e2

表1中数据是来自①的分布,表2中数据是来自②的分布,表3中数据是来自③的分布.从表1、表2、表3中的数据可以看出:无论是样本量和维数的大小关系如何(只要它们的比值收敛),T1/p的值都十分接近tr(∑-I)2/p的值,标准误非常小,而T2/p的值和标准误都不好,这充分地说明我们提出的估计量比T2要好.

我们收集了20个在校大学生的通话数据如表4所示.

表4 在校大学生的通话数据

将表4中数据都取了常用对数,然后利用MATLAB软件编程计算了这组数据的总体协方差矩阵与单位阵间的tr(∑-I)2/p的估计值为0.7910.因为我们提出的估计量的良好性质,可以认为这个数字是很接近真值的.

3 结语

本文给出了tr(∑-I)2的一个无偏及相合估计量,这个估计量不受样本量和维数的大小关系的限制(只要它们的比值收敛),同时对总体分布也没有限制,故它可以被用在多种多元分布中.而且利用Monte Carlo模拟给出三个表格,这几个表格中的数据说明了本文提出的估计量的值很接近真值.运用此估计量,对所收集的在校大学生通话数据的总体协方差阵函数进行了估计.

[1]Wang Cheng.Asymptotic power of likelihood ratio tests for high dimensional data[J].Statistics and Probability Letters,2014,88(2):184-189.

[2]Jiang Tiefeng,Yang Fan.Central limit theorems for classical likelihood ratio tests for high-dimensional normal distributions[J].The Annals of Statistics,2013(41):2029-2074.

[3]Chen Binbin,Pan Guangming.CLT for linear spectral statistics of normalized sample covariance matrices with the dimension much larger than the sample size[J].Bernoulli,2015(21):1089-1133.

[4]Ery Arias-Castro,Sebastien Bubeck,Gabor Lugosi.Detecting positive correlations in a multivariate sample[J]. Bernoulli,2015(21):209-241.

[5]Wang Cheng,Yang Jing,Miao Baiqi,et al.Identity tests for high dimensional data using RMT[J].Journal of Multivariate Analysis,2013(118):128-137.

[6]Wang Qinwen,Yao Jianfeng.On the sphericity test with large-dimensional observations[J].Electronic Journal of Statistics,2013(7):2164-2192.

[7]Thomas J Fisher.On testing for an identity covariance matrix when the dimensionality equals or exceeds the sample size[J].Journal of Statistical Planning and Inference,2012(142):312-326.

[8]Tetsuto Himenoa,Takayuki Yamada.Estimations for some functions of covariance matrix in high dimension under non-normality and its applications[J].Journal of Multivariate Analysis,2014(130):27-44.

[9]Cai Tony,Ma Zongming.Optimal hypothesis testing for high dimensional covariance matrices[J].Bernoulli, 2013(19):2359-2388.

[10]Chen Songxi,Zhang Lixin,Zhong Pingshou.Testing for high dimensional covariance matrices[J].Journal of the American Statistical Association,2010(105):810-819.

猜你喜欢
估计量样本量协方差
医学研究中样本量的选择
最小二乘估计量优于工具变量估计量的一个充分条件
航空装备测试性试验样本量确定方法
用于检验散斑协方差矩阵估计性能的白化度评价方法
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
浅谈估计量的优良性标准
二维随机变量边缘分布函数的教学探索
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器
基于配网先验信息的谐波状态估计量测点最优配置
样本量估计及其在nQuery和SAS软件上的实现——均数比较(二)