箱式图在结核病防控工作中的应用

2017-04-27 07:48黄飞张慧
中国防痨杂志 2017年4期
关键词:箱式探索性位数

黄飞 张慧



·流行病学与统计学方法·

箱式图在结核病防控工作中的应用

黄飞 张慧

箱式图(Boxplot)是通过描述数据的5个常用统计数值(中位数、最大值、最小值、上四分位数和下四分位数)而展现数据分布的一种图形。其作为一种图形表示工具,可以直观地显示出数据分布的状态,迅速地剔除异常值,并能够比较多组数据之间的分布。作为探索性分析工具的箱式图,能提高数据处理的严谨性、准确性及可靠性,应在日常工作中加以推广应用。

数据说明,统计; 结核; 箱式图

中国是结核病高负担国家,据世界卫生组织估算,2015年新发患者数为91.8万例,位居全球第三,仅次于印度和印度尼西亚[1]。因此,了解不同地区结核病疫情水平,及早发现高疫情的地区,以便制定有针对性的防控措施是十分必要的。目前,我国常规结核病疫情数据主要来自全国传染病网络报告系统[2]和结核病信息管理系统[3],主要内容包括传染病报告卡及肺结核患者诊断、治疗和管理等相关信息,如何准确、客观和科学地分析监测数据,是结核病防治工作人员的主要工作之一。

箱式图(boxplot,或box and whisker plot[4]),也有翻译成箱须图、箱图、箱子图、箱线图,是通过描述数据的5个常用统计数值(中位数、最大值、最小值、上四分位数和下四分位数)而展现数据分布的一种图形,是现代统计中应用比较广泛的探索性数据分析工具之一。

一、 箱式图简介

IQR为四分位距(interquartile range)图1 箱式图示例1

图1中各指标解释如下:

1.异常值(outlier):因各种原因造成的偏离总体数据的数值,会对数据的统计结果(如均数)造成不可靠的影响。

2.IQR:为上、下四分位数之差,主要用以测量数据的离散程度,因其包括了中间50%的数据,因此小于极差并受异常值影响较小。因此,在抵抗数据异常值干扰方面,箱式图优于以平均值代表中心值,以标准差代表离散程度的传统方法[5]。

3.上、下四分位数(upper/lower quartile,Q3/Q1):即分别是第75%位数和第25%位数,两者之差即为IQR。

4.内上限和内下限(upper/lower fence):分别是Q3+1.5×IQR、Q1-1.5×IQR。在内上限与内下限之外的值均被认为是异常值。虽然这种判断方法缺少统计学的验证及推理,但经验表明,其在识别异常数据方面仍有一定的优越性[6]。

二、 箱式图的作用

因箱式图可以直观地反映出常用的5个统计数值,因此,它在实际工作中的作用主要有以下几个方面:

1.描述数据的分布状态:通过观察箱式图的形状可以知道数据的分布状态。如果其中位数与均数距离很近,最大值与最小值对称分布于内上限和内下限之内,说明数据基本成正态分布;反之,则说明数据呈偏态分布。

2.识别并剔除异常值:箱式图中位于内上限和内下限的数值被自动认为是异常值,在对数据进行分析处理时通过找出产生这些数值的真正原因,才能对数据进行正确的分析处理。

在对两组或多组数据做并列箱式图后,如果这几组箱式图中内陷部分不重叠,则可以有95%的把握认为这几组数据的中位数差异有统计学意义[4]。

图2 箱式图示例2

三、箱式图的应用举例

现已知某市各个县区2013—2015年活动性肺结核患者登记率(表1),现对其患者发现工作进行评价。

(一)方法一

对表1数据做柱形图(图3),可以看出该市各县登记率水平各不相同,且差别较大,2013年和2014年C县活动性肺结核患者登记率最高,2015年F县登记率最高。

表1 某市2013—2015年活动性肺结核患者登记率(/10万)

图4 某市2013—2015年活动性肺结核患者登记情况

(二)方法二

将表1的数据录入SPSS统计学软件,然后做箱式图(图4),可以看出以下三点:(1)2013—2015年3年的活动性肺结核患者登记率的中位数基本处于同一水平,相互之间差异无统计学意义。(2)2013年和2014的Q3和Q1间距较2015年短,表明2013年和2014年全市各县区的登记水平较2015年更为集中。(3)2015年活动性肺结核患者登记率极差值较2013和2014年小,但存在异常值,即J县登记水平明显异于该市其他县区,应进一步对J县的数据进行深入分析。

四、箱式图的应用

探索性数据分析是指对现有数据在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。因此,探索性数据分析与验证性数据分析经常交叉进行[7]。

箱式图作为探索性数据分析工具之一,目前很多软件可以进行箱式图的绘制,如SAS、SPSS、R-project、S-plus等。箱式图用IQR来测量数据的离散程度,因其包括了中间50%的数据,受异常值

影响较小。因此,箱式图对数据的耐抗性优于以平均值代表中心值、以标准差代表离散程度的传统方法。所以,箱式图更适用于大型数据或者多组数据间的比较使用,而且较直方图、线图等能够传递更多的信息,可以快速地反映大型数据中的异常值,并可以进行不同时期间的比较。如比较某个省在不同时间各个县区的肺结核患者登记率、痰菌阴转率、治疗成功率等时,可以使用箱式图快速地得到结果,并可以就出现的异常值进行深入分析。

[1] World Health Organization. Global tuberculosis report, 2016. Geneva: World Health Organization, 2016.

[2] 金水高, 姜韬, 马家奇. 中国传染病监测报告信息系统简介. 中国数字医学, 2006, 1(1):20-22.

[3] 黄飞, 杜昕, 陈伟, 等. 中国结核病信息管理系统介绍. 中国数字医学, 2011, 6(10):97-100.

[4] Mcgill R, Tukey JW, Larsen WA. Variations of box plots. Am Stat, 1978, 32(1):12-16.

[5] 俞钟行. 同类过程控制图的一个实例. 工业工程与管理, 1999, (1):45-48.

[6] 庄作钦. BOXPLOT——描述统计的一个简便工具. 统计教育, 2003, (1):34-35.

[7] 朱钰, 张颖. 谈探索性数据分析. 统计教育, 1997, (3):18-19.

(本文编辑:李敬文)

Application of boxplot in tuberculosis control and prevention

HUANGFei,ZHANGHui.

NationalCenterforTuberculosisControlandPrevention,ChineseCenterforDiseaseControlandPrevention,Beijing102206,China

ZHANGHui,Email:zhanghui@chinatb.org

Boxplot is a graph that shows the distribution of data by describing five commonly used statistics (median, maximum, minimum, upper quartiles, and lower quartiles) of the data. As a graphical representation tool, it could visually display the state of data distribution, quickly remove the outliers, and is able to compare the distribution of multiple sets of data. As a exploratory analysis tool, boxplot could improve the rigor of data proces-sing, accuracy and reliability, and it should be generalized in daily work.

Data interpretation, statistical; Tuberculosis; Boxplot

10.3969/j.issn.1000-6621.2017.04.003

中国国家卫生和计划生育委员会-比尔及梅琳达·盖茨基金会结核病防治合作项目(51914)

102206 北京,中国疾病预防控制中心结核病预防控制中心

张慧,Email:zhanghui@chinatb.org

2017-02-14)

猜你喜欢
箱式探索性位数
箱式叠压供水设备水泵电机散热仿真分析
心有所“属”,一“探”究竟——立体几何探索性问题的解法梳理
智能箱式变电站的应用探讨
连续自然数及其乘积的位数分析
立体几何中探索性问题的“创新”
10kV箱式变电站的运行管理
解决圆锥曲线中存在、探索性问题的途径
比大小有窍门
探索数列中不定方程的解
遥感卫星CCD相机量化位数的选择