空间计量经济模型的经验似然研究进展

2022-10-19 05:06秦永松雷庆祝
关键词:数据模型面板经验

秦永松, 雷庆祝

(广西师范大学 数学与统计学院, 广西 桂林 541006)

截面数据线性回归模型刻画了变量之间的数量关系,通过这种关系可以了解一个变量的变化如何影响另一个变量的变化,同时还可以对未来进行预测;在时间序列数据中,由一定时间间隔产生的数据可能存在某种相依模式,即将来的数据通常以某种随机方式依赖于已有观测数据,而这种相依性使得利用过去预测未来成为可能。然而,在一个空间系统里,地理单元之间存在着交互效应(称为空间相依性),即空间单元里的一个量和其附近单元的相应量有关系,且距离近的比距离远的关系更强(这里说的距离概念是广义的距离——地理意义或经济意义上的距离,比如地理坐标产生的距离或高铁和城际车辆缩短了空间距离,又比如人际关系的远近也可看成一种距离),这种依赖关系导致空间效应溢出;另一方面,在同一个地理空间里,不同地理单元之间存在差异(空间异质性),如每个空间单元对应的线性回归方程中的回归系数是随机变化的;除此以外,如同时间序列一样,过去的空间单元对现在的空间单元也存在影响,产生动态效应。空间相依性、异质性和动态效应推动了空间计量经济模型(简称空间模型)的建立。空间计量经济模型最早由Cliff等[1]引入,它的演化过程分为3代:第1代是基于截面数据构建的模型,其重要贡献者之一Anselin[2]详细回顾了这一部分工作;第2代是基于空间面板数据构建的非动态模型,这部分工作将截面数据和时间序列混合在一起,最常见的是带有特定空间(或特定时间)效应(固定效应或随机效应)的模型;第3代是动态空间面板数据模型,这部分工作不仅考虑被解释变量和解释变量在空间上的滞后,还考虑它们在时间上的滞后,以及序列误差的自相关性。模型的主要估计方法有最大似然估计或拟似然估计、基于工具变量或广义矩的估计、贝叶斯估计及MCMC方法,可分别参看文献[1-5],这些文献多为空间截面数据模型下的研究情况,其中的方法在空间面板数据模型下同样适用,空间面板数据模型下使用最多的是拟似然估计方法。空间面板数据模型的理论研究始于2000年,研究成果丰富,文献[2,6-7]对这些方法有详细描述。文献[8-21]以及这些文献所引文献也给出了具体的模型参数的估计和检验。空间计量经济模型的其他研究进展如下:广义空间计量经济模型的研究见Mozharovsky等[22];空间计量经济模型变量选择的研究见王晓瑞[23]、Zhu等[24]以及Wu等[25];空间分位数回归模型的研究见戴晓文等[26]、空间计量经济模型缺失数据的填补方法研究见李序颖[27]。

空间计量经济模型分别或同时从时、空方面定量刻画空间单元之间的关系或随时间变化的关系,广泛应用于区域经济、环境污染、交通运输、疾病控制、房地产价值评估等方面,应用学科遍及金融、经济地理、城市与区域、旅游、流行病学、环境科学、生态学等。总之,空间数据几乎在社会各个领域出现,并有广泛的应用前景,因此其统计推断(含模型参数的估计和检验)的研究显得尤其重要。

本文从数理统计角度介绍空间数据的空间计量经济模型及空间计量经济模型的经验似然研究进展,结构如下:第1章介绍几种常见的空间计量经济模型,并简要介绍空间模型除经验似然方法外的研究进展;第2章和第3章分别通过实例介绍空间截面模型和空间面板数据模型的经验似然方法;第4章介绍经验似然的背景及空间计量经济模型的经验似然研究进展。

1 空间计量经济模型

实际数据多以时空2个维度呈现,如某时某地的GDP、房价、网络销售额、病毒感染人数(如新冠肺炎数据)、生物种群数量等。在不同时间(按照先后次序)和空间得到的数据组成时空数据集合,称为空间面板数据(又称时空数据),T个时间点和n个空间位置的数据结构如下:

(1)

其中,对于固定的t、s,1≤t≤T,1≤s≤n,dts可为一维或者多维数据。如果把上述数据的空间(地点)固定在一个位置(即选定式(1)中的某列),就得到熟知的时间序列数据;类似地,如果把时间固定在一个时间点(即选定式(1)中的某行),就得到空间数据(或空间截面数据)。把拟合这3类数据的模型分别称为空间面板数据模型(非动态或动态,又称时空数据模型)、时间序列模型和空间截面数据模型,后2类模型都可以看成是第1类的特殊情形(见文献[1])。这些模型统称为空间计量经济模型,或空间模型。

1.1 空间权重矩阵与空间自相关性检验

要量化空间单元的相依性,首先要确定空间系统里哪些单元对某个特定单元有影响,这一点可以用邻居或近邻的概念来表达,并由此得到一个空间权重矩阵。假设一个空间系统有n个单位,这个空间系统的权重矩阵为一个n×n矩阵:W=(Wij),其中Wij表达空间单元i与空间单元j之间的近邻关系(或者说”距离”,距离越远取值越小)。

一种最基本而且简单的方式是利用空间地理位置关系定义的二值邻接矩阵:如果空间单元i与空间单元j为邻居,即“邻接”(contiguity),则取Wij=1,否则取为0。邻接关系可以分为:2个空间单元有公共边、有公共点无公共边、有公共边或公共点,该3种情况依次称为Rook邻接(rook contiguity)、Bishop邻接(bishop contiguity)及Queen邻接(queen contiguity)。比如:设有3(n=3)个区域,区域2在中间,区域1和3在区域2的两边与区域2相邻,但1和3不相邻,按Queen邻接关系可取Wn如下

权重矩阵的其他定义方法可参见文献[2]。在实际中,为了保证模型的可识别性,通常将权重矩阵进行行标准化(行随机化):将权重矩阵中每一个元素除以所在行的行和。

在建立空间计量经济学模型之前,通常要进行空间的相依性(又称空间自相关性)检验。空间自相关检验方法主要有Moran指数检验、Wald检验、Lagrange Multiplier检验和Likelihood Ratio检验等(见文献[2])。下面介绍Moran指数检验。

莫兰指数(Moran’sI)是皮尔森积矩相关系数的推广,由Moran[28]提出,文献[1]在研究空间自相关性问题时,给出了莫兰指数的渐近正态性。假设yi,i=1,2,…,n为来自n个区域的空间数据,其莫兰指数定义为

另外,在空间相依性分析中有一个被认可的事实:整个空间上的结构稳定性(同质性)假设不太现实,尤其是有大量空间数据的情形,于是出现很多针对这种空间结构不稳定性的建模方法研究。全局莫兰指数可以给出数据的空间相依程度,但它忽略了数据潜在的不稳定性。一些研究者建议关注局部相依模式并允许全局空间相依中存在局部的不稳定。Anselin[29]对一些空间相依的局部指标(LISA)进行总结,并展示了利用局部莫兰指数探索空间的聚集性和不稳定性的方法。

1.2 空间截面(数据)模型

一个地域空间单元上的某种经济指标或属性值与邻近区间单元上同一指标或属性值相关,如:邻近城市的住房价格存在相关性、区域生物物种的数量也受到邻近区域物种数量的影响,为方便起见,先考察n个区域上的指标值(如房价){yi}满足如下最简单的(截面数据)空间(自)回归模型(或空间滞后模型)

(2)

式中:Wn=(Wij)n×n为(已知)对角线元素为0的空间权重(邻接)矩阵;ρ为(未知的空间数据)回归系数;{εi}为独立的均值为0的随机误差序列。

在式(2)中加入解释变量(如收入等)xi∈Rk,得到下述空间滞后(混合回归)模型(SAR)

(3)

式中:β为解释变量的回归系数向量;其他记号的意义同式(2)。

基于空间异质性产生了空间误差模型(SEM)

(4)

空间回归模型的另一种形式是含空间自回归误差的空间自回归模型(SARSAR)

(5)

式中:Wn=(Wij)n×n和Mn=(Mij)n×n均为(已知)对角线元素为0的(邻接)空间权重矩阵;ρ1和ρ2均为(未知的空间数据)回归系数;{ui}为(不可观测的)空间模型随机扰动序列;其他记号的意义同式(3)。模型(3)和模型(4)是模型(5)的特殊情形。模型(5)可以加入非线性项,变成

(6)

式中:g为未知函数;{ti}为区别于{xi}的解释变量;其他记号的意义同式(5),称此模型为空间部分线性自回归模型。上述模型均称为空间截面数据模型。如果同一个区域有不同时间点的观察值,可以将模型(6)推广到下文介绍的空间面板(纵向)数据模型。

结合解释变量的空间效应便可得到空间杜宾模型(SDM)

当λ=0时,SDM模型退化为SAR模型;当λ=-ρβ时,SDM模型退化为SEM模型。

1.3 空间面板 (数据)模型

空间面板数据模型形式较多,较难一一列举,为了后文讨论方便,在此介绍几种常见的空间面板数据模型。

模型1含空间自回归误差的空间自回归(SARSAR)面板数据模型。

Ytn=ρtWnYtn+Xtnβt+Vtn,Vtn=λtMnVtn+Etn,1≤t≤T,

(7)

式中,

βt为(t时刻的)未知(协变量)回归系数,ρt和λt为(t时刻的)未知空间自回归系数,Vtn为(t时刻的)不可观测的扰动项,Etn为(t时刻的)不可观测的模型误差,Wn=(Wij)n×n和Mn=(Mij)n×n为(已知的)空间(邻接)权重矩阵。

在模型(7)中,如果λt≡0,模型称为空间自回归面板数据模型;如果ρt≡0,模型称为含空间误差的面板数据模型。模型(7)还有多种推广,如加入不可观察的空间效应μ=(μ1,μ2,…,μn)T,可得如下含空间效应和空间自回归误差的空间自回归面板数据模型

Ytn=ρtWnYtn+Xtnβt+μ+Vtn,Vtn=λtMnVtn+Etn,1≤t≤T。

含空间效应的面板数据模型的背景介绍可参看文献[30]。

模型2动态含空间自回归误差的空间自回归(DSARSAR)面板数据模型。

数据同模型1,常见的动态空间面板数据模型为如下动态含空间自回归误差的空间自回归面板数据模型

Ytn=ρt1WnYtn+γtYt-1,n+ρt2WnYt-1,n+Xtnβt+Vtn,Vtn=λtMnVtn+Etn,1≤t≤T,

(8)

式中:Ytn、Xtn、βt、λt、Wn、Mn、Vtn以及Etn同模型1;ρt1和ρt2为(t时刻的)未知空间自回归系数;γt为(t时刻的)未知自回归系数。在模型(8)中,如果λt≡0,模型称为动态空间自回归面板数据模型;如果ρt1≡ρt2≡0,模型称为动态含空间误差的面板数据模型。模型(8)也有多种推广,如加入不可观察的空间效应μ=(μ1,μ2,…,μn)T,可得如下动态含空间效应和空间自回归误差的空间自回归面板数据模型

Ytn=ρt1WnYtn+γtYt-1,n+ρt2WnYt-1,n+Xtnβt+μ+Vtn,Vtn=λtMnVtn+Etn,1≤t≤T。

动态含空间效应的面板数据模型的背景介绍可参看文献[30],这里说的动态是指模型中含有不同时间点的情况,此模型还可以推广到高阶动态含空间自回归误差的空间自回归面板数据模型。

模型3含自回归误差的空间部分线性面板数据模型。

Ytn=ρtWnYtn+Xtnβt+g(Ztn)+Vtn,Vtn=λtMnVtn+Etn,1≤t≤T,

(9)

式中:Ytn、Xtn、βt、λt、Wn、Mn、Vtn以及Etn同模型1;Ztn=(zt1,zt2,…,ztn)T:g(Ztn)=(g(zt1),g(zt2),…,g(ztn))T,g为未知函数。在模型(9)中,如果λt≡0,模型称为空间部分线性面板数据模型;如果ρt≡0,模型称为含空间误差的部分线性面板数据模型。模型(9)亦有多种推广,如加入不可观察的空间效应μ=(μ1,μ2,…,μn)T,可得如下含空间效应和空间自回归误差的空间部分线性面板数据模型:

Ytn=ρtWnYtn+Xtnβt+g(Ztn)+μ+Vtn,Vtn=λtMnVtn+Etn,1≤t≤T。

文献[31-32]研究了某些特殊情形的含自回归误差的空间部分线性面板数据模型的统计推断。

自文献[1]提出空间模型以来,各种空间模型如雨后春笋般出现,空间模型主要分为上文所述的3大类:截面数据模型、面板数据模型和动态面板数据模型。每一大类模型又分成如下3类:线性(参数)模型、非参数模型和部分线性模型。每一大类模型中又依据是否含空间误差可分为3类:(纯)空间误差模型、不含空间误差的空间模型和含空间误差的空间模型。另一个扩展模型的方向是利用空间权重矩阵指数(函数)来反映空间相关性,比如模型(3)在此情形的形式如下

eρWn(y1,y2,…,yn)T=(x1,x2,…,xn)Tβ+(1,2,…,n)T,

模型(7)在此情形的形式如下

eρWnYtn=Xtnβt+Vtn,eλWnVtn=Etn,1≤t≤T。

其他模型的相应形式可类似得出。此类模型称为矩阵指数空间规范(matrix exponential spatial specification)模型,简称MESS模型。此类模型由Lesage等[33]提出,并被证明在理论和应用上有较好的优良性。

2 含空间误差的空间自回归截面模型的经验似然

本章介绍一类空间截面模型的经验似然研究在方法上的进展,详细给出经验似然比统计量的导出过程,并给出主要结果。本章研究如下含空间自回归误差的空间自回归模型(SARSAR模型),即上文提到的模型(5):

Yn=ρ1WnYn+Xnβ+u(n),u(n)=ρ2Mnu(n)+(n),

(10)

E(n)=0,Var((n))=σ2In。

下面通过求拟似然函数、似然方程和得分函数等3 步导出经验似然比统计量。

2.1 拟似然函数

令An(ρ1)=In-ρ1Wn,Bn(ρ2)=In-ρ2Mn,且假定An(ρ1)及Bn(ρ2)均非奇异,则式(10)可改写为

Yn=An(ρ1)-1Xnβ+An(ρ1)-1Bn(ρ2)-1(n)。

2.2 似然方程

令上述导数为0,得到如下似然方程

(Bn(ρ2)WnAn(ρ1)-1Xnβ)T

(11)

(12)

2.3 得分函数

假定0包含在{ωi(θ),1≤i≤n}的凸包内,基于上述得分函数定义经验似然统计量为

式中{pi}满足

式中λ(θ)∈Rk+3为如下方程的根

Qin[34]证明了如下结果: 在一定正则条件下,当n→∞时,有

{θ:n(θ)≤zα(k+3)}。

为了得到θ的部分分量的经验似然置信域,可以采用Qin等[35]中推论5的方法处理。

3 含空间误差的面板数据模型的经验似然

本章介绍一类空间面板数据模型——含空间误差的面板数据模型的经验似然研究在方法上的进展,详细给出经验似然比统计量的导出过程,并给出主要结果,总体框架与第2章相似,不同之处是面板数据模型得分函数的维数会相应变大。本章讨论的模型是模型(7)的特殊情形。为了表述方便,本章对记号进行调整,记号自成体系。考虑如下面板数据模型

yt=Xtβt+t,t=λtWnt+μt,t=1,2,…,T,

式中:yt为响应变量在n个单元上的观察值;Xt为n×k解释变量的观察值;βt为k维回归系数;t为n维误差向量;Wn为n×n常数空间权重矩阵;μt=(μt1,…,μtn)T为n维列向量,且假定{μti}独立、期望为0且每个的方差均为σ2。

将上述模型写成矩阵形式如下

上述模型可进一步写成

Y=Xβ+,

(13)

B=μ,

(14)

此处,Bt=(In-λtWn),t=1,2,…,T,B=[InT-(Λ⊗Wn)],Λ=diag(λ1,λ2,…,λT)为T×T对角矩阵,⊗为矩阵克罗内克积,

求导数可得:

∂L(θ)/∂β=σ-2XTBTμ,

其中Ett为T×T矩阵,它的元素除(t,t)位置的元素为1外,其余元素为0。令上述导数为0,得到如下似然方程

XTBTμ=0,

-nTσ2+μTμ=0。

构造经验似然的得分函数如下

其中ei为μ=B(Y-Xβ)的第i个分量,于是θ∈R(k+1)T+1的经验似然统计量如下

其中{pi}满足

假定0包含在{ωi(θ),1≤i≤n}的凸包内,易知,

式中λ(θ)∈R(k+1)T+1为如下方程的根

Li等[36]证明了如下结果: 在一定的正则条件下,当T固定,n→∞时,有

由此结果可类似于第2章方法构造θ的经验似然置信域。

4 空间模型的经验似然研究进展

本章先简要介绍经验似然方法产生的背景、经验似然的优良性及其在非空间数据情形回归模型中的研究进展,然后介绍经验似然方法在空间模型方面的研究进展。

对问题的背景所知甚少,仅知道部分信息(如总体分布的一阶矩、二阶矩等),自然希望寻找一定的途径构造和使用某种类似于参数似然函数的形式,以便有效加工这些部分信息,从而进行统计推断,经验似然正是在这样背景下产生的。Thomas等[37]利用经验似然思想建立截尾数据下生存概率的区间估计,Owen[38-39]首先系统地提出经验似然方法,并用来处理非参数统计问题。

经验似然有类似于Bootstrap的抽样特性,与经典或现代非参数统计方法比较有很多突出的优点,如:用经验似然方法构造置信区间,除有域保持性、变换不变性及置信域的形状由数据自行决定等诸多优点外,还有Bartlett纠偏性及无需构造枢轴统计量等优点(见Hall[40]及Hall等[41])。正因为如此,这一方法引起了许多统计学者的兴趣,将这一方法应用到各种统计模型和领域,如Owen[42]将其应用到线性回归模型的统计推断;文献[35]将经验似然引入广义估计方程模型,推广了文献[38-39]的结果;Kolaczyk[43]把经验似然应用于广义线性模型的统计推断;Chen等[44]发展了非参数回归模型的经验似然;文献[45-47]研究部分线性模型的经验似然;Cui等[48]研究变量含误差的线性模型的经验似然;Xue等[49]研究变系数回归模型的经验似然;在缺失数据情形,Xue[50]给出逆概率权填补下非参数回归函数模型均值的经验似然置信区间;Tang等[51]利用逆概率权填补法填补缺失数据,证明由估计方程定义的参数的经验似然估计的有效性;Chen等[52]综述了回归模型的经验似然方面的研究进展。经验似然方面的研究成果还有很多,不一一列举。

4.1 空间截面数据的经验似然

上述结果都是在非空间数据情形经验似然的部分研究概况,经验似然方法在空间数据模型的应用方面已有成果较少,主要成果集中在空间截面数据(即将时间固定在一个特定时间点所得到的数据)模型的研究方面,早期成果有:Nordman[53]、Nordman等[54]及Bandyopadhyay等[55],将处理相依数据的分组经验似然方法应用到空间计量经济模型的研究,得到一些有重要意义的结果,但这些结果不够理想,主要问题是没有提出一个较好的选择分组数的方法,主要原因是文献[53-55]没有较好地利用由拟似然(QML)方法得到的估计方程的特性。经过研究发现,对于某些空间计量经济模型,由QML方法得到的估计方程为模型误差序列的线性-二次型的形式,这样可以构造一个鞅差序列,把二次型转化为鞅差序列的线性形式,不需要对数据进行分组,可以直接利用经验似然方法。此转化方法由文献[34]和[56]独立发现,并成功应用到含空间自回归误差的空间自回归截面数据模型的经验似然推断。另外,对于部分空间模型,基于广义矩方法(GMM)得到的估计方程也为模型误差序列的线性-二次型的形式,上述鞅差参换方法(详见本文第2、3章)也可以使用。在基于GMM方法得到估计方程的基础上,Qin等[57]及Qin[58]分别研究不含空间误差的空间自回归截面数据模型及含空间自回归误差的空间自回归截面数据模型的经验似然推断。Li等[59]研究含空间自回归误差的非参数回归截面数据模型的经验似然推断。

4.2 空间面板数据的经验似然

空间面板数据模型经验似然推断的研究成果较少,已有结果主要集中在不含效应(效应的数学表述见第1章)的空间面板数据模型。文献[36]研究含空间自回归误差的面板数据模型的经验似然推断;Rong等[60]研究含空间自回归误差的空间自回归面板数据模型的经验似然推断;曾庆樊等[61]研究时变系数空间面板数据模型的经验似然推断,这些论文均利用QML方法得到估计方程,再利用鞅差变换方法得到经验似然的得分函数。鞅差变换方法使用的前提是估计方程为模型误差序列的线性-二次型的形式,这种条件在含效应的空间面板数据模型(见第1章)中往往不成立,此时需要采用调整的经验似然方法处理。另外,动态空间面板数据模型的经验似然推断也是值得研究的一个课题,同时,空间面板数据模型中对于空间和时间单元数(n和T)以及自变量的维数(k)是否趋于无穷大的各种假定下的经验似然推断也值得研究。

猜你喜欢
数据模型面板经验
2021年第20期“最值得推广的经验”评选
石材家具台面板划分方法
MasterCAM在面板类零件造型及加工中的应用
经验
2018年第20期“最值得推广的经验”评选
面板数据模型截面相关检验方法综述
Photoshop CC图库面板的正确打开方法
财政支出效率与产业结构:要素积累与流动——基于DEA 和省级面板数据模型的实证研究
当你遇见了“零经验”的他
基于分位数回归的电力负荷特性预测面板数据模型