房价影响因素分析:分位数回归方法

2011-10-18 10:32罗玉波
统计与决策 2011年6期
关键词:因变量位数回归系数

罗玉波

(1.北京工商大学经济学院,北京100048;2.对外经济贸易大学中小企业研究中心博士后流动站,北京100029)

房价影响因素分析:分位数回归方法

罗玉波1,2

(1.北京工商大学经济学院,北京100048;2.对外经济贸易大学中小企业研究中心博士后流动站,北京100029)

文章利用分位数回归方法研究了各种房屋属性对于其售价的影响,结果表明不同属性对于房屋售价的影响随着所考察的分位数不同而变化,得到不同属性对于房屋销售价格影响更全面的描述。

房屋价格;房屋属性;分位数回归

1 问题的提出

影响房屋价格的因素分为以下三方面。第一,房屋所处的地段等级是影响房屋价格的重要因素,另外还包括小区内部以及周边环境、管理和各种配套设施情况,交通条件等客观外部因素。第二,房屋的自身属性,主要包括房屋年限、楼层、朝向、户型格局、房屋装修、燃气状况、物业类型、通风采光、景观等。经验认为,楼层对房屋价格有较大的影响。例如,多层住宅以二、五层为标准,顶层较差,一、三、四层较好。高层住宅则是楼层越高(顶层除外),价格也越高。朝向对房屋的价格也有较大的影响,我国大部分地区以有朝南向的房屋为好,只朝西向或北向的房屋为差。房屋内部装修程度以及其他因素对于价格的影响虽然不太明显。三是市场大环境和消费者心理因素。主要包括经济状况、房地产市场行情及市场供求状况等。

可以看出,房屋本身的属性对房价的影响也是复杂的。为了更准确的描述房屋属性对于其售价的影响,受到国外一些研究的启发,例如Zietz and Zietz等,我们利用分位数回归方法对房屋价格数据进行建模分析,并与通常采用的普通最小二乘线性回归模型进行了比较。定量分析的结果在一定程度上印证了经验的定性分析,并发现了房屋属性对售价影响的一些具体特征,每种属性对于价格的影响可随着所考察的分位数不同而变化。

2 分位数回归方法

通常的线性回归模型用于描述自变量对因变量均值(条件均值)的影响。但是在许多时候,仅仅描述自变量对均值的影响是不够的。更一般的理想模型应该能够描述给定自变量下,因变量的条件分布。因为有了条件分布,我们就能够对因变量对自变量的依赖关系有全面的了解。另外,注意到条件分布和条件分位数的对应关系,可以通过描述条件分位数,进而了解条件分布。正是基于这一思想,Koenker and Bassett[6]引入了分位数回归方法(quantile regression),该方法被认为是统计研究领域一个重要的突破。假设因变量为Y,p个解释变量为X1,X2,Xp…,Xp,满足如下线性分位数回归模型:

其中误差项ε的条件τ分位数等于0,也即P(ε<0,X1,X2,…,Xp)=τ,0<τ<1;参数β0(τ),β1(τ)…+βp(τ)依赖于参数τ,表示参数可以随着考察的分位数不同而变化。若记X=(X1,…,XP)',β(τ)=β0(τ),β1(τ)…+βp(τ),样本为(Yi,Xi),i=1,2,…,n。那么模型(1)中的参数可以通过下面的式子得到,

其中函数ρτz=z(τ-I(z<0))。注意到,当τ=1/2时,(2)式等价于最小一乘回归方法(LAD),因此也可以认为分位数回归也是最小一乘回归的推广。

从线性分位数回归模型的定义可以看出,因变量Y的条件τ分位数就是X'β,通过变化τ,就能够了解自变量对因变量不同分位数的影响,因此更全面的刻画因变量对自变量的依赖关系。例如,本文研究的房价数据,虽然房屋都有着一些共同的基本特征,但这些特征对价格较高的房价与对较低房价的影响应该是不同的。要描述数据的这一特征,通常的条件均值模型是不够的。另外,分位数回归也具有最小一乘回归的稳健性质,不易受到异常点的影响。由于分位数回归模型的这些优点,并且随着计算机能力的提升,阻碍分位数回归模型运用的计算难题已经消除,现今围绕分位数模型的研究和应用仍然是统计领域的热点之一,更多关于分位数回归的内容请参看Koenker。

3 数据选择和模型估计结果

因为研究条件的限制,因变量房屋销售价格选择房屋的挂牌价格,另外相关13个房屋属性变量见表1。其中装修程度根据经验分为5个等级,房屋的朝向也按照经验从较差的朝向到最好的朝向分为6个等级。另外,房屋距离地铁距离是根据北京市地图获取,数据单位是厘米,1厘米约对应770米。由于北京有多个商业中心,并且多数商业中心都有地铁经过,因此我们的数据中没有将房屋距离商业中心的距离纳入模型之中,距离地铁的远近能够在一定程度上反映房屋的这一特性。我们总共随机收集2010年4月期间,北京五环路附近及以内,共120处二手房产的数据资料,二手房数据相对更容易获得具体的房屋属性。

表1 变量说明

最后我们建立如下分位数回归模型,

由于论文篇幅所限,取三个有代表性的分位点,即τ= 0.2,0.5,0.8,分别反映房屋属性对低价格、中间价格和高价格的影响。最后的估计结果见表2,本文中所有的计算都是借助于R软件中由Koenker开发的分位数回归软件包quantreg完成。为了便于比较,表2中同时给出了普通最小二乘(OLS)的估计结果。分析表2,我们能够发现许多有趣的特征。

表2 普通最小二乘和分位数回归系数估计结果(括号中的为相应P值)

从表2中可以看出,普通最小二乘的拟合优度值R方为0.792。除截距项外,最小二乘回归中在水平0.05以上显著的回归系数只有房屋面积、是否有电梯,以及距离地铁距离三个自变量的回归系数,房屋已建成年限接近显著(其P值为0.06)。统计显著的最小二乘回归系数的符号,基本与经验的理解相符,房屋面积和是否有电梯系数为正,表示对房屋价格有正的影响,而房屋已建成年限和房屋距离地铁距离的系数都是负数,表示两者对房屋价格有负的影响。房屋所在楼层和房屋总楼层系数为负,房屋朝向的回归系数为正,都与经验的判断相符,但是回归系数统计上不显著。

与最小二乘相比较,分位数回归更揭示了前者不能发现的特征。首先,房屋各属性对房价是否有显著影响随着分位数的不同而变化。在普通最小二乘回归中卧室数影响不显著,但分位数回归中,对高分位数,τ=0.8,卧室数对房价有着正的影响;所在楼层属性,对τ=0.5是显著的,对房价有负的影响;总楼层对τ=0.5也是显著的,对房价有负的影响;装修程度只在τ=0.5时,对房价有接近显著的正影响;房屋年限在τ=0.5时,对房价表现出负的影响,但对低位房价和高位房价都没有显著影响;具有电梯对房价也有正的影响,但回归系数显著的只有对τ=0.2;距地铁距离几乎对各分位数都有显著的影响,与经验判断吻合,距离越远房价越低。其次,不同分位数情况下,各个自变量的回归系数有着比较明显的变化,从表2中可以较为明显的看出这种变化特征,表明房屋属性对于不同价位的房屋有着不同的影响,并且影响的方向也可能不同。其次,即使影响都是显著的,但随着分位数的不同,同一属性的影响大小也发生了变化。例如,至地铁距离变量,对三个分位点的回归系数分别为-0.01546、-0.03690和-0.02895,这意味着,到地铁距离增加一个单位(约770米),低中高价位的房屋价格大约分别下降1.5%,3.7%和2.9%。可以解释为中价位的房屋对地铁距离因素是较为敏感的,而地价位房屋则敏感度要低。分析的结果中,房屋的朝向并没有统计显著的影响,与经验的分析略有不同,这可能是因为数据量还不够,在以后的研究中需更多的数据支撑。

4 结论

本文从微观角度,研究了房屋属性对房屋价格的影响。通过分位数回归模型,我们发现了许多普通线性回归模型不能解释的房屋属性影响特征,得到了与房屋中介人员经验判断较为一致的定量分析结果,揭示了房屋属性对房价影响较为复杂的特点。另外,由于资源的限制,本文所采用的房屋属性数据还不够全面,进一步的研究可以通过收集更多的数据得到更全面的结果。最后,本文采用了简单线性分位数回归模型,并且出于对分析的考虑,没有进一步进行模型选择,使得我们的分析较为容易,改用更合理恰当的模型也是值得进一步研究的课题。

[1]漆渝航.商品房价格的影响因素分析-以广东省为例[J].社会发展, 2010,(01).

[2]崔春艳.我国房价上涨影响因素分析[J].中北大学学报(社会科学版),2008,(5).

[3]吕品.我国住房生产成本对房价的影响分析[J].价格理论与实践, 2009,(04).

[4]柴强.影响房价的几个理论问题[J].城市开发,2005,(05).

[5]Zietz,J.,Zietz,E.Determinants of House Prices:a Quantile Regression[J].Journal of Real Estate Financial Economics,2008,(2).

[6]Koenker R.,Bassett,G.Regression Quantiles[J].Econometrica,1978,(1).

[7]Koenker,R.Quantile Regression[Z].New York:Cambridge University Press,2005.

(责任编辑/浩天)

F293.35

A

1002-6487(2011)06-0158-02

罗玉波(1979-),男,四川大竹人,博士,讲师,研究方向:应用统计。

猜你喜欢
因变量位数回归系数
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
五次完全幂的少位数三进制展开
连续自然数及其乘积的位数分析
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
多元线性回归的估值漂移及其判定方法
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
偏最小二乘回归方法
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
遥感卫星CCD相机量化位数的选择
城镇居民收入差距主要因素回归分析