二项选择敏感问题两阶段抽样调查样本量的估计*

2014-03-10 02:42濮翔科高歌阮玉华
中国卫生统计 2014年2期
关键词:西蒙斯样本量区县

濮翔科高 歌阮玉华

二项选择敏感问题两阶段抽样调查样本量的估计*

濮翔科1,2高 歌1△阮玉华3

目的研究二项选择敏感问题RRT模型下两阶段抽样调查样本量的估计公式,探讨敏感问题复杂抽样调查设计的统计方法。方法使用二项选择敏感问题西蒙斯模型,根据概率论和数理统计学的理论方法,在给出二项选择敏感问题两阶段抽样样本比例及其方差计算公式的基础上;使用哥西不等式、求条件极小值点等方法,从数学上推导二项选择敏感问题西蒙斯模型下两阶段抽样调查各阶段抽样的最优样本量的计算公式;通过对北京MSM人群预调查获取相关统计量的数值,进而估计北京MSM人群敏感问题RRT模型下两阶段抽样调查各阶段的最优样本量。结果当限定抽样误差而使调查费用最小时需要抽取13个区县,当限定调查费用而使抽样误差最小时需要抽取9个区县;从每个被抽中的区县中需要抽取的MSM人数平均为51人。结论本文研究的二项选择敏感问题RRT模型下两阶段抽样调查样本量的估计公式及相关统计方法具有创新理论意义和很好的实际应用价值。

敏感问题 随机应答技术 两阶段抽样 样本量 男男性行为者

调查研究中经常需要调查一些敏感问题,例如艾滋病高危行为卖淫、吸毒、男男性行为等。这些敏感问题都涉及到个人隐私,不便于公开陈述或表态,以至于调查者难以获取有关敏感问题的真实信息。但实际上,调查者关注的并非某个特定调查对象的敏感问题情况,而是被调查的整个群体中具有敏感问题的数量特征。为解决这一矛盾,Warner提出了随机应答技术(randomized response technique,RRT)应用于敏感问题调查〔1〕,能有效保护调查对象的隐私并获取较准确的调查资料。此后,Simmons加以改进,设计了二项选择敏感问题调查的西蒙斯模型〔2〕,由于其简单有效,至今仍被广泛应用于二项选择敏感问题的调查研究。目前,对二项选择敏感问题复杂抽样的调查方法已有一些研究,例如对二项选择敏感问题分层随机抽样下总体比例与总体方差等参数的估计等研究。科学地确定样本量是调查设计的重要环节。本文对二项选择敏感问题西蒙斯模型的两阶段抽样调查,在给出样本比例及其方差计算公式的基础上,当限定抽样误差的大小而使调查费用最小及当限定调查费用的大小而使抽样误差最小两种情况下,推导出各阶段最优样本量的计算公式,并在北京市男男性行为人群(men who have sex w ith men,MSM)的现场调查中取得了成功的实际应用效果。

西蒙斯模型两阶段抽样调查设计的统计方法

1.二项选择敏感问题的西蒙斯模型

针对一个二项选择敏感性问题,例如:“你是同性恋吗?”;选择一个与该敏感性问题无关的非敏感问题,例如:“你的出生月份是奇数吗?”。西蒙斯模型〔2〕需设计一个随机化装置,例如:在桌上放一个一元的硬币。每名调查对象独立地抛掷该硬币,事先约定:出现“1元”朝上(概率为P)回答自己是否是“同性恋”?出现“国徽”朝上,回答自己的出生月份是否是奇数?除本人以外的任何人均不知道被调查者究竟回答的是哪一个问题。在抛掷硬币及回答过程中,调查对象的隐私受到保护,可以消除顾虑,给出自己的真实答案。

2.两阶段抽样方法

假定总体共划分成M个群,第i个群包含Mi个观察对象,i=1,2,…,M,平均每个群内包含个调查对象。又假设第一阶段从总体中随机抽取了m个群,第二阶段从第i个被抽取的群中随机抽取了mi个调查对象,i=1,2,…,m,平均从每个抽中的群内抽取了i个调查对象。对每个被抽中的调查对象,采用西蒙斯模型进行调查。

3.总体比例的估计量及其方差

假定随机化装置中要回答的敏感问题所占比例为P。Pi表示第i个群内具有敏感问题特征的个体比例为其样本估计量;ri表示第i个抽中群内具有无关非敏感问题特征的个体所占的比例,ri一般是已知或可以通过专门调查获得的。Bi表示第i个群内调查对象回答“是”的比例,根据全概率公式〔3〕有Bi=PiP为Bi的样本估计量,假设第i个被抽取的群内有hi个人回答“是”,则由此可得:

根据文献〔4〕给出的结果,得到敏感特征总体比例的估计量p为:

其方差为:

4.样本量的估计

实际抽样调查所需的费用一般可以用如下函数形式表示〔5〕:

其中C表示抽样调查的总费用,C0表示整个调查所需的基本费用,C1表示每调查一个群所需的基本费用,C2表示每一个调查对象所需的直接调查费用。

由公式(3)经过变形得:

解得(在抽样误差限定时使得调查费用达到最小和调查费用限定时使得抽样误差达到最小):

当方差V(p)的值限定为V时,由(7)式解得(抽样误差限定而使调查费用达到最小):

当调查费用限定为C时,由(6)式解得(调查费用限定而使抽样误差达到最小):

预调查

1.调查方法

调查对象来自于北京市15~49岁男男性行为人群,调查时间为2010年8月至10月。根据王丽艳、刘鹏等〔6-7〕的估算方法,结合2010年第六次全国人口普查数据〔8〕估计得北京市出入MSM活动场所的男男性行为者人数为67750人,即此次调查的研究总体。

采用两阶段抽样方法,以北京市的16个区县作为群,M=16;以北京市男男性行为者作为调查对象,平均每个区县MSM人数=4234人。第一阶段从北京的区县中随机抽取13个区县(m=13);第二阶段在被抽中的区县共随机抽取1523名MSM调查对象,平均从每个抽中区县抽取约117人=117)。对抽取的1523名MSM调查对象,采用二项选择敏感问题的西蒙斯模型作调查,调查指标为:最近一次肛交时全程使用安全套的比例、最近一年男男商业性性行为的发生比例、最近一年HIV检测结果为阳性的比例、最近一年到正规医疗机构进行性病检查结果为有性病的比例等。

2.预调查结果。

使用excel 2003和SAS 9.13软件完成调查数据的管理与计算。以肛交时是否全程使用安全套的调查为例:按公式(1)和(2),计算得北京市MSM人群最近一次肛交全程使用安全套的样本比例为0.7763;由公式(4)和(5)计算得的样本估计量分别为由公式(3)计算得肛交中全程使用安全套样本比例的估计方差为0.00033,总体比例的95%CI为:0.7408~0.8118。

北京市MSM人群敏感问题特征的调查样本量估计

此次调查拟采用两阶段抽样,以北京市的区县为群、以MSM者为调查对象。根据预调查的实际情况预算如下:整个调查的基本费用C0=10万元(含项目合作单位合作费、差旅费、培训费、印刷费等),平均每调查一个区县的基本费用C1=10万元(含调查协作单位协作费、MSM活动场所协作费、同伴志愿者报酬、交通费等),平均每调查一个MSM对象的直接费用C2=3元(调查员劳务费)。此次调查采用的RRT模型为西蒙斯模型,先针对每一个调查指标分别计算所需样本量,然后取它们中的最大值。现以肛交时全程使用安全套比例的调查为例,介绍样本量计算:

根据已计算出的北京市MSM人群男男性行为肛交时全程使用安全套比例的估计方差相关统计量和由公式(8)计算出从每个抽中的区县平均需要抽取的男男性行为者的人数为:

当抽样误差V(p)的值限定为V=0.00033(按预调查资料的估计结果)而使调查费用最小时,由公式(9)计算出从北京市16个区县中需要抽取的区县个数为:

当调查费用值限定为C=100万元而使抽样误差最小时,由公式(10)计算出从北京市16个区县中需要抽取的区县个数为:

在第i个被抽中的区县内需抽取的男男性行为者的个数可由公式(11)计算。例如某个被抽中的区县共有男男性行为者5738人,则应从该区县随机抽取的男男性行为者人数为:

讨 论

敏感问题调查的随机应答技术自诞生以来,由于该技术能较好地保护被调查者的个人隐私和提高真实应答率,因此很多学者进行了研究并加以改进完善。西蒙斯模型也是较早提出的二项选择敏感问题调查模型,因其较为简单实用,至今应用仍较广泛〔9〕。西蒙斯模型的简单随机抽样应用较多,但在复杂抽样下应用研究较少,而且对敏感问题调查样本量的估计也较少研究。本文对二项选择敏感问题西蒙斯模型两阶段抽样调查设计方法进行了研究,科学推导出敏感问题西蒙斯模型两阶段抽样调查样本量的计算公式,国内外至今未见文献报道。

自从改革开放以来,吸毒、艾滋病、同性恋等敏感问题正在我国受到越来越多的关注。如今我国艾滋病正从高危人群向一般人群传播,形势非常严峻。艾滋病的传播途径以性传播为主,尤其是近几年新发现的感染者中男男性行为者的比例逐年增高〔10-12〕,这意味着男男性行为人群是艾滋病传播的高危人群,其高危性行为应受到重视和干预。

1.Warner SL.Randomized response:a survey technique for eliminating evasive answer bias.Journal of the American Statistical Association,1965,60(309):63-69.

2.Horvitz DG,Shah BV,Simmons WR.The unrelated question randomized responsemodel.Proceedings of the Social Statistics Section,American Statistical Association,1967:65-72.

3.苏良军.高等数理统计.北京:北京大学出版社,2007:3.

4.Wang J,Gao G,Fan Y,et al.The estimation of sample size in multistage sampling and its application in medical survey.Applied Mathematics and Computation,2006,178(2):239-249.

5.Cochran WG著.抽样技术.张尧庭,吴辉译.北京:中国统计出版社,1985,87.

6.王丽艳,夏冬艳,吴玉华,等.乘数法估计北京、哈尔滨两市男性同性恋人群规模的研究.华南预防医学,2006,32(3):9-11.

7.刘鹏,高歌,贺志龙,等.数量特征敏感问题加法模型二阶段抽样的统计方法及其应用.苏州大学学报(医学版),2011,31(3):384-387.

8.北京市统计局,国家统计局北京调查总队.北京统计年鉴-2011.2011.

9.高歌,范玉波.敏感问题Simmons模型的(分层)整群抽样研究.中国卫生统计,2008,25(6):562-565,569.

10.Fan S,Lu H,Ma X,etal.Behavioral and Serologic Survey of Men Who Have Sex w ith Men in Beijing,China:Implication for HIV Intervention.AIDS Patient Care and STDs,2012,26(3):148-155.

11.Li Q,Liu Y,Zhou Z,et al.Online Sex-Seeking Behaviors Among Men Who have Sex w ith Men:Implications for Investigation and Intervention.AIDS and Behavior,2012,16(6):1690-1698.

12.中华人民共和国卫生部,联合国艾滋病规划署和世界卫生组织. 2011年中国艾滋病疫情估计.2011,2-6.

(责任编辑:郭海强)

Sam ple Size Determ ination of Dichotomous Sensitive Question Survey under Twostage Sam pling

Pu Xiangke,Gao Ge,Ruan Yuhua(School of Public Health,Medical College of Soochow University(215123),Suzhou)

ObjectiveTo investigate the two-stage sampling method and determ ine the sample size for dichotomous sensitive question survey.MethodsBy using statistical theories and methods,the population proportion of dichotomous sensitive question under Simmonsmodel and its variance were estimated;Cauchy-Schwarz inequality and them inimum method were used to deduce the sample size determ ination formulae for two-stage sampling survey of dichotomous sensitive questions;the survey method and relevant formulae were applied to the two-stage sampling survey of condom use in sex behavior among MSM(men who have sex w ithmen)in Beijing.ResultsBased on the pre-survey data of MSM in Beijing,51 MSM should be extracted in each selected county.If the sampling error is to be limited,13 counties should be extracted tomake the survey costm inimum in the first stage of sampling.On the contrary,9 counties should be extracted to m inim ize the sampling error in the first stage of sampling if the survey cost is to be lim ited.ConclusionThe surveymethod and sample size determination formulae are useful in the two-stage sampling survey of dichotomous sensitive questions.An optimum sample size can be calculated by using the deduced formulae to reduce the cost and the sampling error of the survey.

Sensitive question;RRT;Two-stage sampling;Sample size;MSM

国家自然科学基金资助项目(81273188);江苏省预防医学科研课题立项项目(Y2012072);常州市应用基础研究计划项目(CJ20112013)

1.苏州大学医学部公共卫生学院(215123)

2.常州市第三人民医院肝病研究所

3.中国疾病预防控制中心性病艾滋病预防控制中心

△通信作者:高歌

猜你喜欢
西蒙斯样本量区县
医学研究中样本量的选择
泉州市各区县关工委亮点工作分布图
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十一)
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十)
本·西蒙斯最佳新秀
托起西蒙斯的梦想
本·西蒙斯 黄金猎犬
北京:上游水质不合格 下游区县将收补偿金
天津市2013上半年各区县节能目标完成情况
立足区县抓创建 着力创新促提高