高血压合并多种并发症的广义估计方程统计分析

2013-09-07 09:02刘彦才杨永丽董彩琴

中国卫生统计 2013年5期

张敏刘彦才杨永丽孟永董彩琴

张敏1△刘彦才2杨永丽1孟永3董彩琴2

目的高血压有多种并发症，一个病人可能没有并发症，也可能同时伴发一种或多种并发症，这类数据称作多重应答数据。本文以高血压的并发症为例，详细阐述应变量是多重应答数据时如何用广义估计方程进行统计分析，以期为临床工作者在处理类似数据时提供参考。方法用作者本人的一项高血压研究为案例，以高血压并发症为应变量，各种可能的危险因素为自变量，通过Stata10.0统计软件包构建广义估计方程，筛出易患并发症的危险因素。结果以高血压的四类并发症拟合四个常数项，构建广义估计方程。通过该方程可以计算出在基线水平上各并发症的发生概率，还可计算某自变量对某种并发症的影响。结论多重应答数据是医学研究中常见的数据形式，用广义估计方程处理这类数据，可以提高科研效率，节约科研资源。

高血压并发症多重应答数据广义估计方程

1.昆明医科大学第一附属医院心内科(650032)

2.云南省大理州宾川县医院(671600)

3.昆明医科大学第二附属医院心内科(650101)

△通信作者:张敏

原发性高血压可导致多种并发症，如脑卒中、冠心病、充血性心衰、肾功能不全等。一个高血压患者，可能目前没有并发症，也可能同时伴发一种或多种并发症。这种类型的数据，相当于问卷调查中的多选题，同一个问题有多个候选答案，回答问题的人可以选择其中若干个，也可以全选或不选，属于多重应答的资料。在临床研究中，多重应答数据是很常见的。例如，某种疾病有多种治疗方法，病人可以选择不接受治疗，也可以选择接受其中一种或多种治疗方法;某种疾病有多种病因，病人可能因为一种病因而致病，也可能因为多种病因的共同作用而致病等等。如果把这种多重应答资料作为应变量，以各种危险因素作为自变量，分析这些自变量与多重应答的应变量之间的关系，研究者一般的做法，是简单地把多重应答资料当做二分类变量处理:以高血压的并发症为例，设有并发症为1，无并发症为0，用构建logistic模型等的统计方法来处理数据。这种处理方法虽然简单，但却丢失了大量有用信息，用来分析多重应答资料是不恰当的。关于多重应答资料的统计方法，目前国内外对此的报道不多。张文彤〔1〕、洪荣涛〔2〕等提出可采用广义估计方程来处理这类数据，但迄今为止尚未见到临床医务工作者使用广义估计方程对多重应答资料进行分析的实际案例。本文从临床医生的角度出发，用构建广义估计方程的方法分析易导致高血压各种并发症的危险因素，并具体阐述构建模型的步骤，以期为广大临床工作者在处理类似数据时提供有价值的参考。

资料与方法

1.案例来源

本案例来源于作者本人2011年发表于BMC Public Health的一项研究〔3〕:对云南省宾川县4个自然村25岁以上的村民进行整群抽样，得到5110名受试者，对其测量血压和问卷调查，筛查出高血压患者1340名。在这些高血压患者中进行心电图、血生化、尿常规检查，以及进一步的问卷调查，从中筛出有并发症的患者，统计分析哪些危险因素易导致高血压并发症。

2.变量赋值说明

本案例中设定的自变量有12个，其中年龄、体质量指数、受教育年限和经济能力这4个变量为连续变量，单位分别是岁、千克/米2、年和元，其余变量为分类变量。应变量为高血压的并发症，如前所述，该数据属于多重应答数据，本案例中定义的高血压并发症有4类，分别为脑损害、心脏损害、肾损害和其他。各变量的赋值情况见表1。

3.数据录入

本案例使用Stata 10.0软件包做统计分析，原始数据录入格式见表2。

4.建立模型

在本例中，自变量包括连续变量(如年龄、体质量指数等)，二分类变量(如性别、是否接受降压治疗等)，以及多分类变量(吸烟、饮酒)。吸烟和饮酒是两个有序多分类变量，但由于无法准确衡量各类别之间的差距，故将这两个原始的多分类变量转化为数个哑变量，再进行进一步分析。转化为哑变量的Stata命令如下:

这两个命令分别将吸烟和饮酒转化为S1～S6，及D1～D6各6个哑变量，各哑变量的赋值如下:

吸烟:

S1:不吸烟为1，否则为0;

S2:每天10支以内为1，否则为0;

表1 变量赋值情况

表2 原始数据录入格式

S3:每天10～20支为1，否则为0;

S4:每天21～30支为1，否则为0;

S5:每天31～40支为1，否则为0;

S6:每天40支以上为1，否则为0。

饮酒:

D1:不饮酒为1，否则为0;

D2:每天白酒50ml以内为1，否则为0;

D3:每天50～100ml为1，否则为0;

D4:每天100～150ml为1，否则为0;

D5:每天150～200ml为1，否则为0;

D6:每天200ml以上为1，否则为0。

建模之前，首先要用reshape命令把原始数据的宽型格式转换为长型格式，命令如下:

reshape long compli，i(No)j(Obs)

转换后的长型数据格式见表3。No表示病人编号，Obs是新生成的变量，表示应变量四个选项的编号。

在拟合方程前，还需把Obs转化为哑变量:

tab Obs，gen(z)

该命令将Obs转化为z1～z4四个哑变量，赋值如下:

z1:有脑损害为1，否则为0;

z2:有心脏损害为1，否则为0;

z3:有肾损害为1，否则为0;

z4:有其他损害为1，否则为0。

表3 长型数据格式

本例中四类不同的并发症，可以看成是对一个问题的四次重复测量，四个选项分别拟合四个常数项，构建广义估计方程模型如下:

构建广义估计方程的命令是xtgee，具体如下:

xtgee compli z1－z4 gender age bmi insurance school capacity aware risk treat control S2 S3 S4 S5 S6 D2 D3 D4 D5 D6，i(No)t(Obs)nocons family(binomial)corr(uns)

结果

广义估计方程的分析结果见表4。

z1～z4四个常数项的参数值分别表示在基线水平下四类并发症的发生概率比数的自然对数值，1～4分别对应“脑损害”、“心脏损害”、“肾损害”和“其他”。例如，假设所有自变量都保持在基线水平的前提下，发生脑损害的概率为0.69‰，即:

同理，在基线水平下，发生心脏损害、肾损害和其他并发症的概率分别为0.13‰，0.26‰，和0.02‰。

根据构建的模型显示，易导致高血压并发症的危险因素分别为:女性、高龄、受教育年限短、经济能力差、知晓已患高血压、不知道高血压的危险性、降压不达标、以及吸烟。各危险因素的详细解释见作者已发表的文献〔3〕，这里将对危险性大小及并发症发生概率高低做详细报道。以吸烟为例，每天吸烟10支以内者，发生高血压并发症的风险是不吸烟者的2倍(OR=e0.6989392=2.0);而每天吸烟40支以上者，发生并发症的风险是不吸烟者的226.7倍(OR=e5.423671=226.7)。根据这个模型，还可以进一步分析某一自变量对某种具体的并发症的影响，例如，在其他自变量保持在基线水平的前提下，降压达标者发生脑损害的概率是0.13‰ (P=e－7.27491－1.67305/(1 +e－7.27491－1.67305)=0.0000129985)，与基础的0.69‰相比下降了81%。

表4 广义估计方程分析结果

讨论

多重应答数据属于分类数据，但与一般的分类数据不同的是，各个选项之间存在关联，且选项之间一般不能互换，因此将各选项看成数个独立的单选题来分析是不恰当的。本文通过一个实际的案例，具体阐述了如何构建广义估计方程模型来处理应变量是多重应答数据的临床问题。建模时，可以只拟合一个常数项，也可以n个选项拟合n个常数项，本文采用的是后者。从上述结果中可看出，拟合了四个常数项，不但可以分析哪些危险因素会导致高血压的并发症，还能进一步分析哪个危险因素对哪一种并发症发生概率的影响情况，从而获得更多有价值的结果。

多重应答数据是医学研究中十分常见的数据形式，本案例列举的是高血压的并发症，除高血压外，很多心脑血管疾病也会产生多种并发症;另外在疾病的起因、预防和治疗方面也可能会收集到很多多重应答数据。而令人遗憾的是，目前关于如何分析多重应答数据的报道十分少见，而且在临床研究中对这类数据的处理多是不当的。当应变量是多重应答数据时，构建广义估计方程是一种比较合理，且不浪费信息资源的统计方法。对广义估计方程的应用，以往的文献中存在很多复杂的数学术语或编程命令〔1，2，4〕，可能会令广大临床工作者望而却步。本文从临床医生的角度出发，尽量简化数学术语，详尽阐述建模步骤，并对医生感兴趣的统计结果进行详细分析，希望能为临床工作者提供一种看得懂、用得上的统计方法，以提高效率、节约信息资源。

1．张文彤，田晓燕．基于广义估计方程的多重应答资料统计分析方法．中国卫生统计，2004，21(3):139-141．

2．洪荣涛，曹卫华，欧剑鸣，等．多重应答资料统计分析及其SAS软件实现过程．中国卫生统计，2009，26(6):595-598．

3．Zhang M，Meng Y，Yang Y，et al．Major inducing factors of hypertensive complications and the interventions required to reduce their prevalence:an epidemiological study of hypertension in a rural population in China．BMC Public Health，2011，11:301．

4．朱玉，王静，何倩．广义估计方程在SPSS统计软件中的实现．中国卫生统计，2011，28(2):199-201．

Statistical Analysis for Hypertensive Complications Using Gen-eralized Estimating Equations

Zhang Min，Liu Yancai，Yang Yongli，et al．Department of Cardiology，the 1st Affiliated Hospital of Kunming Medical University(650032)，Kunming

ObjectiveHypertension is a chronic disease with diverse complications．One hypertensive patient could experience one or more complications simultaneously．This type of data is multiple response data．The aim of this paper is to take hypertensive complications for an example，illustrate how to analyze multiple response data using generalized estimating equations，when multiple response data is adopted as the dependent variable.MethodsAn actual case from a hypertension study was used to illustrate how to develop generalized estimating equations．Diverse hypertensive complications were adopted as dependent variable，and potential risk factors were as independent variables．Statistical analyses were undertaken by Stata 10．0 statistical package.ResultsThe generalized estimating equations model was fitted containing four constants based on four categories of hypertensive complications．These four constants reflect the natural logarithm of the odds ratio of the prevalence of four hypertension complications on the baseline．Adjusted by other independent variables，the prevalence of certain complication due to the changing of certain independent variable can also be calculated.ConclusionMultiple response data is a common data in the field of medical research．Developing generalized estimating equations model is suitable to process multiple response data，which can improve research efficiency and save research resource．

Hypertensive complications;Multiple response data;Generalized estimating equations

(责任编辑:郭海强)

高血压合并多种并发症的广义估计方程统计分析

资料与方法

1.案例来源

2.变量赋值说明

3.数据录入

4.建立模型

结 果

讨 论

结果

讨论