复杂抽样情形下样本量的确定

2019-07-02 10:16张帼奋
数学学习与研究 2019年10期
关键词:抽样调查样本量

张帼奋

【摘要】本文讨论了如何在一个抽样调查项目中设计抽样方案,确定样本量,以及估计目标指标的精度的问题,并将教科书中相关问题进行总结,提出一些想法.

【关键词】抽样调查;样本量;PPS抽样

一、引 言

《抽样调查》课程的基本内容是介绍简单随机抽样、分层抽样、整群抽样、多阶段抽样、不等概率抽样、系统抽样,以及基于这些抽样方式下样本量的确定问题.但在实际问题中,一个抽样调查方案往往会将几种抽样方式综合起来使用,成为一个复杂抽样方案.如何设计抽样方案?样本量取多少?如何估计目标指标的精度等问题随之产生.本文针对这些问题将教科书[1]中的已有结论进行综合,并提出自己的一些想法.

二、如何抽样

根据是否依据随机原则抽样可以将抽样方式分为概率抽样与非概率抽样.

非概率抽样包括方便抽样、自愿样本、配额抽样等.例如,为了解杭州市民消费情况,选择若干大超市购物中心发放问卷进行调查;为了解杭州市民对“看病难”问题的看法,选择若干家医院,对病人及医护人员进行拦截式问卷调查;为了解大学生对网上某种现象的看法,在网上发起调查等等.这些调查都是非概率抽样调查,其特点是能够方便快捷获得样本数据,这对调查一些突发的,需要及时了解民众态度的调查项目来说是很有必要的,从这些调查中能够及时发现问题,从而提出应对措施.但非概率抽样效果的好坏很大程度上依赖抽样者主观判断能力和经验,它不能计算抽样误差,不能从概率意义上控制误差并以此来保证推断的准确性[1].

为了保证抽样的准确性,控制抽样误差,就需要采用概率抽样.基本的概率抽样方法就是前面提到的简单随机抽样、分层抽样、整群抽样、多阶段抽样、不等概率抽样、系统抽样等.而具体在确定抽样方案时往往要将多种抽样方式组合使用.例如,要对杭州市高校学生进行抽样调查,可以采用三阶段PPS抽样:第一阶段列出在杭全部高校名册抽样框,及相应的在校学生人数,按照与在校学生人数成比例的概率抽取n个大学,第二阶段,对抽中的这n个大学,每个学校列出学院名册的抽样框及学院人数,按照与学院人数成比例的概率抽取m个学院(每个学校抽取的学院个数相同),第三阶段,在抽中的学院中列出学院全部学生名册抽样框,并随机抽取l名学生(每个学院抽取的学生数相同),这样共抽取样本量为lmn的学生数据.而这种抽样设计是自加权的,其优点是在不考虑非抽样误差的情况下,可以认为自加权样本完全代表了总体,此时可以用标准的统计方法来进行点估计,否则的话,在大规模调查中,样本量很大,而每个单位的权数不等,计算权数的工作量很大,对参数进行估计都要加权会使得数据处理相当复杂[1].如果将高校分为本科院校与专科院校,則可以采用分层三阶段PPS抽样;如果每个年级的学生都要抽到,则可以再按年级分层;如果每个学校按宿舍楼抽样,就要有宿舍楼的抽样框等等.由此可见,同样是抽取高校学生进行调查,如果根据方便选中几个高校,然后在高校的图书馆、教室、食堂等地进行调查,就是非概率抽样,无法计算抽样误差,如果按照多阶段PPS抽样(例如,按学院或者按宿舍楼),则需要每个阶段的抽样框,按一定的概率抽取样本,此时可以计算抽样误差,以及根据误差限度确定样本量.

三、样本量的确定

通常情况下,复杂抽样样本量的确定需要根据置信度1-α 以及绝对误差限度d(或相对误差限度r)先计算在简单随机抽样情况下的样本量,再估计设计效应及样本的有效率综合而成.

如何计算简单随机抽样的样本量?我们知道,在进行抽样调查时,调查问卷上的问题少则二三十个,多则上百个,甚至数百个,每个问题取值的离散程度是不一样的,如果要使所有指标都达到一定的精度要求,则在考虑抽样方案时,必须根据离散程度最大的指标来设计[2].这将导致很大的样本量,也是不切实际的,所以通常的做法应该是以调查的一两个主要问题为目标指标进行抽样设计.

例如,某项调查主要目标是关注满意度这个指标,而在问卷中将该项指标设计为:1.非常不满意,2.不满意,3.一般,4.满意,5.非常满意.情形一,如果将问题转化为考虑满意的比例P,也就是选4和5的比例,Q=1-P,则利用公式

就可以计算样本量n.其中N是总体数,当N很大时,n≈t2PQd2.关于t,d,P的取值,t是置信度为1-α的标准正态分布上α2分位数,通常取置信度为95%,此时t=1.96,绝对误差限度d常取为0.05,而P在调查前未知,一种办法是保守计算,当P=0.5时PQ达到最大值0.25;另一种办法是进行预调查,得到P的估计值,比如,估计值P=0.8,则PQ=0.16.

情形二,如果该项指标按得分计算,根据置信度1-α以及绝对误差限度d,则计算样本容量的公式为

当N很大时,n≈t2S2d2;根据置信度1-α与相对误差限度r,则计算样本容量的公式由

确定.在公式(2)中需要估计总体方差S2,在公式(3)中需要估计总体变异系数c=SY.一般估计总体方差和总体变异系数需要进行预调查,根据预调查数据进行计算,或者是采用以往的文献资料数据估计;绝对误差限度d在估计比例P时常取不超过0.05,如果是1~5的计分问题可以适当放宽,比如,取0.1,0.2等,相对误差限度r可以取10%~20%左右.

在获得简单随机抽样情况的样本量以后,考虑复杂样本与简单随机样本之间的设计效应deff,deff定义为任意抽样方式下的抽样方差除以简单随机抽样方式下的抽样方差的商.一般地,简单随机抽样的deff=1,分层随机抽样的deff<1,整群随机抽样的deff>1,系统随机抽样的deff≈1[1].如前面提到的分层多阶段PPS抽样,估计设计效应在2~3左右,再将有效问卷的比例a考虑进去,最后的样本容量为n′=n×deffa.如果将n′分解为前面例子高校学生抽样方案中的lmn,再将样本量分配到各阶段就可以完成抽样.

猜你喜欢
抽样调查样本量
医学研究中样本量的选择
配对设计中缺乏差值标准差情况下的样本量估计策略*
航空装备测试性试验样本量确定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
对整群抽样与分层抽样结合使用的探究
计算机辅助的抽样调查应用框架探讨
《抽样调查》实验教学创新性研究
中小企业融资问题研究及对策
城市居民住户调查抽样框存在的缺陷及优化策略分析
简述抽样调查在“大数据”时代下的意义