两水平logistic回归模型在高血压患病影响因素分析中的应用*

2013-09-07 09:02兰州大学公共卫生学院730000刘小宁秦林元杨冬华晁丽丽李娟生

中国卫生统计 2013年5期

兰州大学公共卫生学院(730000) 刘小宁秦林元杨冬华晁丽丽李娟生

兰州大学公共卫生学院(730000) 刘小宁秦林元杨冬华晁丽丽李娟生△

目的应用两水平logistic回归模型分析人群高血压的患病因素。方法通过多阶段随机抽样，抽取兰州市某区3个农业乡镇6个村的18岁以上人群为调查对象，采用两水平logistic回归模型分析高血压患病影响因素，并与传统logistic回归模型比较模型拟合效果。结果调查人群年龄、BMI、一级亲属高血压病史及疾病史与高血压患病呈正相关;而家庭经济收入、锻炼和水果摄入与高血压患病呈负相关。人群高血压患病率在村级水平上呈现聚集性，各调查村间高血压患病率有差异。与传统logistic回归模型比较，两水平logistic回归模型拟合效果较好，对数似然值最小。结论两水平logistic回归模型可以有效地处理具有层次结构数据，并可分解出调查村间患病率的变异。

两水平logistic回归高血压

△通信作者:李娟生，E-mail:lijsh@lzu.edu.cn

医学流行病学横断面调查人群调查中，通常用多阶段抽样设计。例如样本按照地区和个人，或者地区、观察纵队和个人进行整群或分层随机抽取，这样的数据具有地区、个人两个层次结构或者是地区、观察纵队和个人三个层次。此类数据的主要特征是反应变量的分布在个体间不具备独立性，存在地理距离内、某行政区内或特定空间范围内的聚集性〔1－2〕。在以慢性病的相关影响因素为调查目的的横断面研究中，由于慢性病与个体的生活行为习惯、居住地区文化背景及地理环境密切相关，相同地区的经济文化背景和人群的长期生活习惯可能导致影响疾病发生的相关因素相似，这使得某些变量特征在某一地区或空间范围内呈现聚集性。

传统回归分析要求个体独立，对分层数据，由于层次之间存在比较明显的差异性或异质性，传统的最小二乘估计往往不能有效地进行统计建模或精确估计，多水平模型正是基于此发展起来的，是一种适宜于处理层次结构数据的方法。此方法充分考虑了数据的层次结构性，把传统的线性模型不仅分解成固定部分和随机部分，而且把随机部分分解到数据的不同层次上，从而能得到每个层次上的解释信息，使得分析更完善和更准确〔1〕。近年来，多水平回归分析在医学及流行病学断面研究中有了较多的应用〔3－7〕。本研究以兰州市农村地区人群高血压流行病学调查数据为基础，探讨两水平logistic回归模型在二分类变量中的应用。

对象与方法

1.调查对象

以兰州市某区随机选择3个农业乡镇，每个乡镇随机选取2个村，每个村随机抽取18岁以上常驻居民为调查对象。调查时间为2012年3月。

2.调查方法

采用自行设计的调查问卷，搜集调查对象社会人口学特征信息、生活行为信息、疾病史、高血压健康知识、高血压疾病史及用药情况等。

3.血压及身高体重测量

采用标准汞柱血压计，被调查者安静状态至少5分钟以上，取坐位，手臂置于桌面，与心脏水平位一致。每位调查者测量两次血压。按照(《中国高血压防治指南》，2005年修订版)的诊断标准，收缩压≥140mm Hg和(或)舒张压≥90mm Hg或者近两周内服用降压药及医生已诊断为高血压的居民列为高血压患者。调查者着薄衣，脱鞋，站姿进行身高体重测量。

4.调查质量控制

调查人员由兰州大学公共卫生学院卫生统计学专业教师、硕士研究生及本科生组成。调查前进行统一的调查培训，统一对问卷调查项目的认识。调查现场由教师负责调查表的回收，对每份调查问卷进行完整性核查和逻辑核查，核对问卷填写是否完整无缺，对问卷中的漏项进行现场补填。

5.统计分析方法和原理

本次调查数据具有“乡镇－村－个体”的层次结构。在同一乡镇、村的调查居民在经济水平、生活方式、饮食习惯上可能存在在某种相似性或聚集性，即个体数据并不独立，不满足传统方法假定的误差独立分布。多水平模型的应用将不同层次的变异分解出来，使得参数估计更趋于保守，减少Ⅰ类错误。本研究的结果变量为二分类，故选择多水平logistic回归模型进行分析。以最基本的两水平logistic回归模型为例，其基本形式如下:

在该模型中，研究对象总的变异分解为两个水平的变异，即水平2的变异和1水平的变异。通过对2水平及1水平残差的估计，可以检验出各水平有无差异，从而推断该水平引入模型是否有意义。通过对水平2残差及其95%可信区间的估计，可以分析2水平间研究变量是否有差异，在本研究中，即各调查村中高血压患病率是否有差异。分析用软件为Stata 9.2。

结果

1.调查人群一般情况

本次共调查3个乡镇6个行政村的18岁以上居民723人，调查人群社会人口学特征如表1。

表1 调查人群社会人口学特征

2.两水平logistic回归模型的建立

考虑到数据的层次结构，首先拟合“乡镇－村－个体”三水平logistic回归零模型，结果显示，乡镇水平的残差估计值无统计学意义(P=0.065)，而村级水平的残差估计有统计学意义(P=0.012)，提示数据在村级水平间有聚集性，计算村级水平方差成分系数VPC为7.07%，由调查村之间的差异占总变异的7.07%。因此选择“村－个体”两水平logistic回归模型分析高血压患病影响因素。

在模型中引入个体水平变量，拟合两水平logistic回归模型，结果显示，村级水平有统计学意义(P=0.0313，VPC=8.48%);个体水平因素如调查人群年龄、BMI、一级亲属高血压病史及疾病史与高血压患病呈正相关;而家庭经济收入、锻炼和水果摄入与高血压患病呈负相关。与零模型相比较，似然比统计量(－2LL)较小，模型拟合好。与传统的logistic回归模型比较，两水平logistic回归模型的－2LL值更小，模型优于传统模型。见表2。

表2 高血压患病影响因素分析的不同模型参数估计比较

3.调查村高血压患病率差异分析

通过两水平模型中对2水平残差及其95%可信区间的估计，残差值提供了每一个该水平下的单个估计值，当残差值95%可信区间包含了残差为0的直线时，说明这个估计值在平均范围内。在本研究的6个调查村中，有4个村的高血压患病率包含了0直线，表明这4个村的高血压患病率无差异;1个调查村在0直线以下，表明该调查村高血压患病率低于平均水平;1个调查村在0直线之上，表明该调查村高血压患病率高于平均水平。见图1。

图1 各调查村高血压患病率的残差估计值及其95%可信区间

讨论

本研究数据呈现层次结构，研究结果显示，调查人群的高血压患病率在调查村间存在聚集性，即同一调查村内调查人群的高血压患病率接近，不同调查村间的人群患病率有差异。由此提示了高血压患病影响因素受到居住环境、人群文化背景及生活行为习惯的影响。因此，在高血压患病影响因素的分析中，应用多水平分析模型将地区因素的变异分离，模型参数的估计更加准确，在慢性病流行病学调查在更具有现实意义和科学性。而个体水平的影响因素分析，与传统回归模型比较，相关因素对患病的影响没有太大的差异。通过对村级水平的残差估计，对于高血压患病率最高的调查村还可以进一步的定性分析，探讨该村高血压患病的相关因素，为人群高血压的防治提供有效的信息。

本研究存在的缺陷是:高水平单位即调查村的数量较少，总样本量可能偏小。模型假定在2水平下的个体的患病率是相同的，模型的截距项是随机的，而斜率是固定的，拟合模型为方差成分模型。在2水平中，未引入调查村的特征变量，这可能使得对调查村的变异估计偏小。

1．Harvey Goldstein．Multilevel statistical model．3rd ed．Oxford University Press Inc，2003．

2．杨珉，李晓松．医学和公共卫生研究常用多水平统计模型．北京:北京大学医学出版社，2007．

3．高俊岭，傅华．多水平发展模型在社区干预性研究中的应用．中国卫生统计，2009，26(5):459-461．

4．衡明莉，王泓午，马茂林，等．多水平模型在分层抽样研究中的优越性．首都医科大学学报，2010，31(3):373-376

5．高俊岭，傅华．上海市社区老年高血压患者血压水平影响因素的多水平分析．中华流行病学杂志，2009，30(4):318-321

6．Hoang Van Minh，Peter Byass，Stig Wall．Multilevel analysis of effects of individual characteristics and household factors on self-rated health among older adults in rural Vietnam．GeriatrGerontolInt，2010，10:209-215．

7．Liu XN，Zhou XY，Yan H，et al．Use of maternal healthcare services in 10 provinces of rural western China．International Journal of Gynecology and Obstetrics，114(2011):260-264．

Application of Two-level Logistic Regression Model on Factors Associated with Hypertension

Liu Xiaoning，Qin Linyuan，Yang Donghua，et al．School of public health，Lanzhou university(730000)，Lanzhou

ObjectiveTo apply the two-level logistic regression model on factors associated with hypertension.MethodsA multistage sampling method was used to collect a sample aged 18 years older individuals from 6 villages of 3 rural townships of Lanzhou city．A two-level logistic regression model was used to examine the data and the results were compared to the logistic regression model.ResultsAge，BMI，first-degree relative of hypertension and history of diseases had a positive relation to hypertension，and income，excises and ate fruits had a negative relation to hypertension．The prevalence differences of hypertension among villages，and the data clustered within villages．Compared to logistic regression model，the two-level logistic regression model was better and the-2LL was smaller.ConclusionTwo-level logistic regression model can examine the structured data effectively and the variation of villages was distinguished from the whole variation．

Two-level logistic regression model;hypertension

中央高校基本业务科研业务专项资金自由探索项目(编号:lzujbky－2011－90)

(责任编辑:郭海强)

两水平logistic回归模型在高血压患病影响因素分析中的应用*

对象与方法

1.调查对象

2.调查方法

3.血压及身高体重测量

4.调查质量控制

5.统计分析方法和原理

结 果

1.调查人群一般情况

2.两水平logistic回归模型的建立

3.调查村高血压患病率差异分析

讨 论

结果

讨论