基于Excel或WPS软件的函数功能快速实现单纯随机抽样的方法设计

2022-04-27 02:21颜玉炳陈小平
中国医院统计 2022年1期
关键词:样本量总体表格

颜玉炳 徐 航 陈小平

1 厦门大学附属中山医院,361004 福建 厦门;2 厦门市海沧医院,361026 福建 厦门

单纯随机抽样是按等概率原则直接从含有N个观察单位的总体中抽取n个观察单位组成样本[1]。利用专业的统计软件,如SPSS软件中“数据(date)”菜单下的“选择个案(select cases…)”模块及SAS软件的suveyselect过程均可实现单纯随机抽样[2]。但这类专业软件需要购买,且需要专业人士来完成,导致普及率较低;因此大多数卫生人员还是沿用抽签、随机数字表等传统方法进行单纯随机抽样。Excel或WPS软件是一款基础应用软件,普及率高。本研究利用Excel或WPS软件函数编制了单纯随机抽样工具,为各层级研究人员提供了一种操作简单,易学易用的方法。

1 Excel软件自带加载项的抽样方法

Excel软件自带抽样方法是在“数据分析工具”模块下,需要安装“分析工具库”加载项才能实现。加载项安装后,在“数据”选项卡中会显示出添加的“数据分析”功能,单击“数据分析”按钮,选择“抽样”分析工具使用即可应用。因该抽样功能是在“数据分析”模块下,所以只适用于单变量数值型数据的抽样,抽样结果也无法显示与该变量相关的其他信息,适用范围较为狭窄。

2 基于Excel或WPS软件函数的单纯随机抽样方法

2.1 基于Excel或WPS软件函数的单纯随机抽样方法制作原理

首先设计一张“研究总体”的表格。表格包含:利用rand()函数给研究总体每条记录赋给的随机数字(A列),利用rank()函数对随机数进行排序并生成相应的序号(B列),研究总体的基本信息(B列后)。见图1。

图1 研究总体的随机数字和基本情况表

其次设计一张“研究样本”的表格。表格包含从1到n的样本编号(A列),利用vlookup()函数得到的样本基本信息和拟抽取的样本量(A列后)。见图2。

图2 研究总体的随机抽样结果

2.2 基于Excel或WPS软件函数的单纯随机抽样方法制作过程

本文模拟100个样本,4个变量来设计抽样工具。

第一步:在“研究总体”表格的A2内输入=IF(C2<>"",RAND(),""),并通过复制粘贴的方法在A3至A101内输入公式,完成每个样本的随机数赋值;在B2输入=IF(C2<>"",RANK(A2,A:A,1),""),并通过复制粘贴的方法在B3至B101内输入公式,完成每个样本的随机数排序赋值;C列至F列为研究总体的基本信息,研究者可直接将相关信息粘贴。

第二步:在“研究样本”表格的A1和B1预留样本量大小输入格子;在A3至A102内输入1~100的数字;在B2输入=IFERROR(IF($B$1

研究者只需修改拟抽取样本数,即可得到随机样本。如:拟抽取的样本数改为13,结果如图3。

图3 样本量为13的抽样结果

3 小结

单纯随机抽样是概率抽样最基本的抽样方法,也是其他抽样方法的基础[1],在卫生研究领域和实际工作中运用广泛,如传染病漏报调查、疫苗接种率调查、病案质量抽查、处方点评等。本研究通过Excel或WPS软件函数设计的单纯随机抽样工具,不仅可以实现样本的抽取,还可将样本信息全部列出,操作简单、易学易用,特别适用于没有SPSS、SAS等专业统计软件的研究人员使用,值得推广。

Excel软件“数据分析工具”模块下的抽样功能只能用于定量数据的抽样,而本文介绍的抽样方法适用于所有数据类型的抽样。Excel或WPS软件表格可容纳1 048 576行和16 384列的数据量,理论上将文中制作过程中所提到的函数公式粘贴到表格的所有行和列中,即可实现百万级的数据抽样,但这会影响抽样的效率。研究者在根据本文介绍的方法设计抽样工具时,可先大致评估自己所能涉及的研究总体的数据量大小,再把公式填充到对应表格中。经测试,采用该抽样工具从10万个总体数据中抽取1 000个样本,需要70 s,从1万的总体数据中抽取1 000个样本,需要10 s左右;同样的抽样工具,采用WPS软件打开,2个抽样过程均在2 s以内完成,抽样结果可以通过按F9键刷新进行再次抽样。

本研究介绍的抽样方法较张建斌[3]、桂嘉伟[4]、李献玉等[5]的方法更为简便,但也存在抽样结果不可重现的缺点。对于 Excel或WPS软件操作不够熟练的人员,为了避免将工具中包含的公式和函数删除,导致抽样失败,可将带有公式和函数的“研究总体”表中的A列和B列隐藏或锁定。

猜你喜欢
样本量总体表格
一种基于进化算法的概化理论最佳样本量估计新方法:兼与三种传统方法比较*
样本量与东方蜜蜂微卫星DNA遗传多样性参数稳定性的关系
网络Meta分析研究进展系列(二十):网络Meta分析的样本量计算及精确性评估
《现代临床医学》来稿表格要求
医学研究中样本量的选择
用样本估计总体复习点拨
2020年秋粮收购总体进度快于上年
统计表格的要求
外汇市场运行有望延续总体平稳发展趋势
履历表格这样填