具有灵敏度参数的多个中介变量的中介效应估计

2020-03-16 07:30胡宝山赵前进周跃进

阜阳师范大学学报(自然科学版) 2020年1期

胡宝山，赵前进，周跃进

(安徽理工大学数学与大数据学院，安徽淮南232001）

在统计学中，因果中介分析模型是自变量通过中介变量对因变量的影响，以揭示其因果机制。因果中介分析在心理学，行为学，生物医学以及社会科学方面有着广泛应用。最近，关于药物对健康的研究已经从简单的给出总效应到更加复杂的多种效应，特别是医学研究越来越关注于确定药物可能对健康产生影响的机制，研究自变量如何通过中介变量对因变量产生因果效应。自变量直接对因变量产生的效应是直接效应，自变量通过中介变量对因变量产生的效应是间接效应。中介分析的效应值可以进行分解，总效应分解为直接效应与间接效应。

1988 年Baron 等首先对简单中介分析模型基于线性回归分析的方法提出了直接和间接效应的估计和假设检验[1-2]。近年来，特别是，Robins 等和Albert 基于反事实框架下提出了因果中介效应定义后，中介分析研究有很大的发展[3-4]。2009 年，Vander 等提出了具有交互作用的中介分析模型，给出了在自变量和中介变量交互作用下的中介效应公式，并估计直接效应和间接效应[5-7]。Imai 等.在反事实框架下对因果中介效应的可识别性做出了必要的假设，并且考虑了对自变量、中介变量和因变量有影响的混杂因素。Pearl 考虑了利用线性和非线性回归方法估计直接效应和间接效应[8-10]。另外，Albert 等[11-12]和Wang 等提供了因果中介分析的一般方法，该方法适用于线性和非线性、参数和非参数、连续或离散介体以及各种类型的中介模型[13-15]。Albert 等在研究中介分析中，提出了具有不同灵敏度参数的灵敏度分析方法[16]。Lange[17]等提出了基于边际结构模型对样本进行加权，并用极大似然估计获得直接和间接效应估计，此方法可以应用于任意类型的变量组合，这减少了中介分析的工作量[18-19]。

到目前为止，包括上面的研究成果主要针对一个中介变量的情形。然而，实际上对因变量有影响的中介变量可能有多个。因此，本文针对带有灵敏度参数的多个中介变量的二变量中介分析模型进行研究。

1 因果推断中的直接和间接效应

因果中介分析是研究自变量通过中介变量对因变量的影响，并将总效应分解为直接效应和间接效应，对于中介分析的研究，已经由简单的中介模型到更加复杂的多中介变量模型了。图1 是由自变量A、中介变量M、因变量Y组成的单个中介变量的中介模型。图2 是由自变量A、多个中介变量M=(M1,M2,M3…MK)、混杂变量C和因变量Y组成的多个中介变量的中介模型。

图1 单个中介变量的中介模型

为了准确地表达直接效应和间接效应的概念，令Y(a)表示自变量A=a时因变量的值；中介变量M是由多个中介变量组成的向量，即M=(M1,M2,M3…Mk)，M(a)表示自变量A=a时，由多个中介组成的中介变量的值，即M(a)=(M1(a),M2(a),…MK(a))；M(a*)表示自变量A=a*时，由多个中介组成的中介变量的值，即M(a*)=(M1(a*),M2(a*),…MK(a*))；Y(a,m)表示自变量A=a时且中介变量M为m 时因变量的值；Y(a,M(a))表示当自变量A=a时且中介变量M在A=a时因变量的值。Y(a,M(a*)) 表示当自变量A=a时且中介变量M在A=a*时因变量的值。

图2 多个中介变量的中介模型

为了更好地表达直接效应和间接效应的定义，我们使用了Imai 等人提出的假设，在连续可忽略性假设下，直接效应和间接效应可以用观察到的数据进行非参数识别，假设

假设指出，在给定混杂变量C条件下，自变量A独立于中介变量M和因变量Y(a,m)；同样，在给定自变量A和混杂变量C的条件下，中介变量M和因变量Y(a,m)也是相互独立的。

可定义多个中介变量的直接效应、间接效应和总效应如下：

2 估计直接效应和间接效应

在评估中介效应时，Baron 等提出的单个中介连续型变量中介模型型如下：

他们提出通过估计θ1来评估直接效应，并通过估计β1θ2来评估间接效应。

Wang 等[20]提出了一种混合因果中介模型，这种中介模型提供了新的灵敏度参数，用来表示由于因果效应引起的关联效应的比例。模型如下；

其中：θ1表示A对Y的关联效应；φ表示由于自变量的因果效应引起的关联效应中不可识别比例，(1-φ)表示由于自变量的因果效应引起的关联效应的比例。如果φ=0，则表示因变量Y(a,m)的期望不依赖于观察到自变量a*。混合因果中介模型可简化为Baron 等提出的单中介变量模型。

在本文中，我们将采用上一节中的因果推论中的直接效应和间接效应的概念，采用Baron 等和Wang 等提出的中介模型，将它推广到具有多个中介变量的二变量中介模型中，建立新的多中介变量模型。

由中介模型（3）和（5），建立新的多中介变量模型。模型如下：

其中

由中介变量模型（6）和（7），我们可以建立新的多中介变量公式，用来估计直接效应和间接效应。新的多中介变量公式如下：

3 模拟研究

对直接效应和自然间接效应进行了模拟研究，我们先对参数β和θ进行设定，然后估计出参数β和θ，最后，计算出直接效应和间接效应的偏差、误差和均方误差，用来评价模拟效果。模拟中生成1 000 个模拟数据集，样本总量分别采用了n=50、200、500。自变量a和a*服从二项分布B(h,p) ，令h=1,p=0.5，即a(1,0.5) ，a*(1,0.5) 混杂变C 量服从正态分布N(μ,δ2)，令μ=0,δ2=0.1、1.0、4.0，即C服从N(0,0.1)、N(0,1)、N(0,4)三种正态分布，分别对这三种分布进行模拟，同样也对灵敏度参数也设置了三种情况，让灵敏度参数φ分别服从均匀分布U(-0.1,0) ，U(-0.05,0.05) ，U(0,0.1)。模拟结果如下表1～3。

从表1 中观测到，自变量a和a*服从二项分布，混杂变量服从正态分布，灵敏度参数φ服从均匀分布U(-0.1,0)，直接效应和间接效应估计的偏差，误差和均方误差都非常小，非常接近真实值，随着样本量的增加，直接效应和间接效应估计的偏差，误差和均方误差也在逐渐变小。这说明对直接效应和间接效应的估计很合理。

表1 自变量a 和a*服从二项分布，混杂变量服从正态分布，灵敏度参数φ 服从均匀分布U(-0.1,0)

从表2 可知，变量a和a*服从二项分布，混杂变量c服从正态分布，灵敏度参数φ服从均匀分布U(-0.05,0.05)，直接效应和间接效应估计的偏差、误差和均方误差较小，波动较大些，但也非常接近真实值。随着样本量的增加，直接效应和间接效应估计的偏差，误差和均方误差也在逐渐变小。这说明对直接和间接效应的估计很合理。

从表3 中观测到，自变量a和a*服从二项分布，混杂变量c服从正态分布，灵敏度参数φ服从均匀分布U(0,0.1)，直接效应和间接效应估计的偏差，误差和均方误差都非常小，非常接近真实值，随着样本量的增加，直接效应和间接效应估计的偏差，误差和均方误差也在逐渐变小。说明对直接效应和间接效应的估计很合理。

表2 自变量a 和a*服从二项分布，混杂变量c 服从正态分布，灵敏度参数φ 服从均匀分布U(-0.05,0.05)

表3 自变量a 和a*服从二项分布，混杂变量c 服从正态分布，灵敏度参数φ 服从均匀分布U(0,0.1)

4 小结

本文介绍了因果推论到直接效应和间接效应的相关概念，对于有多个中介的问题，引用了Baron 等与Wang 等提出的具有灵敏度参数的中介模型，建立新的具有灵敏度的多中介变量模型，利用新建立的具有灵敏度的多中介变量模型，对直接效应和间接效应进行模拟研究，模拟结果表明本文提出的估计效果良好。