任意缺失模式缺失数据不同填补方法效果比较*

2013-09-07 09:02张秋菊刘美娜
中国卫生统计 2013年5期
关键词:均数单调骨密度

张 桥 李 宁 张秋菊 刘美娜△

任意缺失模式缺失数据不同填补方法效果比较*

张 桥1李 宁2张秋菊1刘美娜1△

目的 探讨任意缺失模式下缺失数据的填补方法,并对不同方法填补效果进行比较和评价。方法 结合我国北方绝经期妇女钙需要和膳食评估应用研究课题的数据,调用SAS软件中IML模块产生任意缺失模式模拟数据,通过MI和MIANALYZE过程实现缺失数据的填补,同时应用准确度和稳定度两个评价指标来评价各方法填补的效果。结果 PS方法填补3次在本文模拟的任意缺失模式的缺失数据中填补效果最佳,MCMC方法填补效果并不理想。结论 在填补任意缺失模式的缺失数据时,MCMC并不是唯一的多重填补方法,通过多重填补的PS方法、PMM方法和REG方法把数据填补成单调缺失后,再用相同方法进行一次填补也是一种可选择的填补方法。

缺失数据 任意缺失模式 多重填补 数据模拟

1.哈尔滨医科大学公共卫生学院卫生统计学教研室(150081)

2.宁波市疾病预防控制中心免疫预防所

△通信作者:刘美娜,E-mail:liumeina369@163.com

数据缺失是实验研究和调查研究中一个普遍存在的问题〔1〕,如何正确的处理、分析所缺失的数据在数据分析中占有重要地位。缺失数据的类型按照不同的分类方法可划分不同类别,按缺失机制分类和按缺失模式分类两种划分方法〔2-3〕。

按照由Little和Rubin在1976年提出的缺失机制分类,缺失数据可以分为完全随机缺失(missing completely at random,MCAR)、随机缺失(missing at random,MAR)和非随机缺失(not missing at random,NMAR)三类〔4〕。如果所缺失的数据发生的概率既与已观察到的数据无关也与未观察到的数据无关,则该缺失数据类型为MCAR;如果缺失数据的发生概率与所观察到的变量是有关的,而与未观察到的数据特征无关,则该缺失数据类型为MAR;若数据既不属于完全随机缺失也不属于随机缺失,那么该缺失数据类型就属于NMAR〔5〕。按照数据缺失模式可以分为单调缺失模式和任意缺失模式两类〔6-7〕,为了简单明了可以通过图1来形象的理解,其中是5个变量,1~5是5个样本,“×”表示数据能观察到,“.”表示数据缺失。

图1 数据缺失模式

单调缺失模式如图1(a)所示,对数据集进行适当的行列变换后,可以得到这样一个矩阵,它呈现出一种层级缺失的模式,矩阵中的元素yj缺失时,则对任意的P≥j,元素yp也是缺失的;任意缺失模式如图1(b)所示,数据缺失具有随意性,没有任何规律可循,即使通过行列变换也无法看出任何规律。

对于任意缺失模式的数据处理,查阅相关文献发现常用的就是把缺失值直接删除即Ad Hoc法或多重填补(multiple imputation,MI)中的马尔科夫链蒙特卡洛(markov chain monte carlo,MCMC)方法〔8〕,对于纵向数据有时也采用单一填补中的LOCF(last observation carried forward)方法〔9〕。本文将探讨 Ad Hoc法、LOCF填补、多重填补中的回归方法、预测均数匹配(predictive mean matching,PMM)方法、趋势得分(propensity score,PS)方法、MCMC方法这六种方法对任意缺失模式下缺失数据的填补效果。

资料与方法

1.资料来源

本文所用数据来源于国家科技支撑计划项目:我国北方绝经期妇女钙需要和膳食评估应用研究。此课题是一个为期两年人群干预研究,研究对象282名,通过分层随机方法分为四组,3个钙干预组和1个信息干预组。分别在干预前、干预1年后、干预2年后三个时间点对干预对象进行调查和样品采集,获得研究对象的体格检查、一般情况、饮食情况、体力活动情况和心理与应对等信息,同时对研究对象进行骨密度检测,所采用仪器是美国Norland XR-36双能X线骨密度仪,包括腰椎、髋骨和全身骨三个部位,获得相应部位的骨密度T值。本文主要选用志愿者的身高、体重、年龄以及三次骨密度检查的腰椎骨密度T值作为模拟实验的参考数据。

2.数据基本状况

参考数据中身高、体重、年龄和第一次腰椎骨密度T值为完整数据,共282例,第二次和第三次腰椎骨密度T值分别缺失63人和80人,因此剩余人数分别是219和202例。参考数据中各变量的均数和标准差见表1。

表1 参考数据各变量的均数和标准

表2是参考数据中各变量间的相关系数矩阵。

表2 参考数据各变量的相关系数矩阵

3.分析方法及评价标准

本文的数据分析思路为:根据实际研究所获数据模拟出100个完整数据集,在此基础上,分别根据完整数据中第二次和第三次腰椎骨密度T值的数据缺失率(分别为22.34%和28.37%)生成100个有数据缺失的数据集,然后再用各种缺失数据填补方法对缺失数据集进行填补,最后根据评价指标来评价各填补方法的优劣。

数据分析软件为SAS 9.1,模拟数据集采用IML模块和SAS宏程序,缺失数据的处理和分析主要采用了PROC MI和PROC MIANALYZE过程。由于REG方法、PMM方法和PS方法只能对单调缺失模式的数据进行填补,所以在用如上三种方法进行缺失数据填补时,本文首先对第二次腰椎骨密度T值填补N(N=3、5、10、15、20)次,使数据变成单调缺失后,再用相应的填补方法对第三次腰椎骨密度T值填补1次。

针对缺失数据填补效果优劣的评价指标本文采用准确度和稳定度〔10〕。对于变量Y,100个完整数据集有100个均数Y1,Y2,…,Y100,这 100 个均数的平均值为Ymean,缺失数据经过处理后也会有100个均数,…,均数的平均值为,则准确度指标定义为:BIASmeanmean

BIASmean指标的绝对值越小说明估计均数时偏差越小,准确度越高。

MSEmean指标越大说明估计均数时稳定度越好〔11〕。

同理可以计算100个标准误的BIASstderr和MSEstderr。

结 果

用不同填补方法对模拟的缺失数据集进行填补,第二次和第三次腰椎骨密度T值填补效果较好的前五位的评价指标结果分别如表3和表4所示:

表3 不同填补方法对第二次腰椎骨密度T值填补效果

从表3中可以看出对于第二次腰椎骨密度T值均数准确性的评价指标BIASmean绝对值最小的前五位为:0.0005、0.0006、0.0009、0.0009、0.0012、0.0012 分别为Ad Hoc方法、MCMC方法填补10次、MCMC方法填补5次、PS方法填补3次、MCMC方法填补3次、PMM方法填补15次。对于第二次腰椎骨密度T值均数稳定性的评价指标MSEmean最大的前五位为:2.4732、1.9634、1.9466、1.9107、1.9023 分别为 Ad Hoc方法、PS方法填补15次、PS方法填补10次、PS方法填补20次、PS方法填补3次。

对于第二次腰椎骨密度T值标准误准确性的评价指标BIASstderr绝对值最小的前五位为:0.0001、0.0007、0.0008、0.0009、0.0012 分别为 LOCF 方法、PMM方法填补20次、PMM方法填补15次、PMM方法填补10次、PMM方法填补3次。对于第二次腰椎骨密度T值标准误稳定性的评价指标MSEstderr最大的前五位为:0.0362、0.0280、0.0136、0.0118、0.0112 分别为PS方法填补3次、PS方法填补5次、PS方法填补10次、Ad Hoc方法、PS方法填补15次。

表4 不同填补方法对第三次腰椎骨密度T值填补效果

从表4中可以看出对于第三次腰椎骨密度T值均数准确性的评价指标BIASmean绝对值最小的前五位为:0.0014、0.0020、0.0030、0.0032、0.0039 分别为 PS方法填补3次、REG方法填补3次、PS方法填补15次、PS方法填补5次、REG方法填补5次。对于第三次腰椎骨密度T值均数稳定性的评价指标MSEmean最大的 前 五 位 为:2.0351、1.8190、1.8099、1.7976、1.7753分别为Ad Hoc方法、PS方法填补5次、PS方法填补10次、PS方法填补3次、PS方法填补15次。

从如上的结果综合来看,PS方法填补3次在本文模拟的数据中填补效果最佳,而MCMC方法除在第二次腰椎骨密度T值的BIASmean指标上表现较好外,在其他指标中都没有进入填补效果最好的前五位。

讨 论

在多重填补的四种方法里,PS方法在第二次和第三次腰椎骨密度T值的MSEmean指标和MSEstderr指标上都有很好的效果,REG方法在第三次腰椎骨密度T值的BIASstderr指标上有很好的效果,PMM方法在第二次腰椎骨密度T值的BIASstderr指标上有很好的效果,而MCMC方法只在第二次腰椎骨密度T值的BIASmean指标上有较好的效果。填补次数越多填补效果不一定越好。

因此从本文可以看出,对于任意缺失模式的缺失数据集,多重填补的MCMC并不是唯一的多重填补方法,采用单调缺失模式下的多重填补方法把任意缺失数据填补成单调缺失,在此基础上再进行一次该方法的填补,在某些条件下比MCMC填补的效果好。对于填补的次数并不是越多越好,而是要根据实际情况,进行数据模拟,从而找出最佳的填补次数。

1.Amold AM,Kronmal RA.Multiple imputation of baseline data in the cardiovascular health study.American Journal of Epidemiology,2003,157(1):74-84.

2.Abraham,Todd W,Russell,et al.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.

3.James M,Robins,Wang N.Inference for imputation estimators.Biometrika,2000,87(1):113-124.

4.Little RJ,Rubin DB.Statistical Analysis with Missing Data.New York:John Wiley&Sons,1987.

5.Little RJ,Rubin DB.Statistical Analysis with Missing Data.2nd ed.Hoboken,NJ:John Wiley&Sons,2002.

6.曹阳,谢万军,张罗漫.多重填补的方法及其统计推断原理.中国医院统计,2003,10(2):77-81.

7.李新华,夏结来.多重填补处理有缺失数据的2×2交叉设计资料的应用.2004中国卫生统计学术会议论文集,2004:181-187.

8.张熙,林燧恒.多重填补在随机干预实验研究中的应用.中国卫生统计,2011,28(5):537-539.

9.茅群霞.缺失值处理统计方法的模拟比较研究及应用.四川大学硕士毕业论文,2005.

10.Collins LM,Schafer JL,Kam CM.A comparison of inclusive and restrictive strategies in modern missing data procedures.Psychol Methods,2001,6(4):330-351.

11.李宁.钙干预试验骨密度缺失值的填补研究.哈尔滨医科大学硕士毕业论文,2010.

A Simulated Comparison between Different Imputation Meth-ods in Arbitrary Missing Data

Zhang Qiao,Li Ning,Zhang Qiuju,et al.Department of Health Statistics,Harbin Medical University(150086),Harbin

ObjectiveTo evaluate the imputation effect of different imputation methods in arbitrary missing data.MethodsFirst of all,we use the IML model in SAS software to simulate arbitrary missing data,which is about the calcium requirements and dietary evaluation of postmenopausal women in the north of china.Imputing the missing data through the MI and MIANALYZE processes.Accuracy and stability were used for the evaluation indices to compare the imputation effect of different methods.ResultsThe effect of PS method when imputing 3 times is the best in this data,while the effect of MCMC method is not ideal.Conclusion The MCMC is not the unique multiple imputation method when imput arbitrary missing data.The PS,PMM,REG methods could turn the arbitrary missingness pattern into monotone missingness pattern,then we use the same method to imput once again.It is also an alternative imputation method.

Missing data;Arbitrary missingness pattern;Multiple imputation;Data simulation

国家科技支撑计划(2011BAI09B02)

(责任编辑:郭海强)

猜你喜欢
均数单调骨密度
预防骨质疏松,运动提高骨密度
单调任意恒成立,论参离参定最值
天天喝牛奶,为什么骨密度还偏低
数列的单调性
数列的单调性
对数函数单调性的应用知多少
不要轻易给儿童做骨密度检查
OSTEOSPACE型超声骨密度仪故障案例解析
关于均数与偏差
关于均数与偏差