基于TS2SLS法的居民家庭代际收入流动性分析

2020-04-23 02:02刘润芳
广西质量监督导报 2020年3期
关键词:父代偏误子代

饶 璐 刘润芳

(西安财经大学 陕西 西安 710100)

代际收入流动性是收入流动性的一种,主要描述父代和子代之间经济地位的变化,也就是子代收入在多大程度上受到父代的影响。改革开放至今,我国的经济发展迅速,科技不断进步,居民收入不断提高,一部分人已经先富起来,形成明显的贫富差距,这种差距是身份地位差距以及阶层的分化形成的主要原因。“拼爹”、“二代”等词汇早已成为一个热门话题,可见父代与子代之间的影响已经引起了居民的热切关注。对代际收入流动性的测度,一般有两种方法,一种是通过代际收入流动方向的测度,清楚地看到代际收入流动性的流动方向,但这种方法无法得到影响代际收入流动性的因素;另一种方法是测度代际收入弹性,这种方法可以克服前者的缺点,但很难得到父辈和子辈的永久收入,因而该方法得到的代际收入弹性存在一定的偏误。基于此,本文使用目前比较主流的双样本两阶段最小二乘法(TS2SLS)结合CHIP1988-2013年的调查数据以及CHNS1991-2015年的调查数据测度我国城乡居民代际收入弹性,以得到更加精确的结果,并结合收入转移矩阵法进一步探讨不同收入阶层代际收入流动的方向和大小。

一、研究方法以及数据说明

(一)双样本两阶段最小二乘法

目前,对于代际收入流动性的测度主要从两个方面进行研究,一是测度代际收入弹性,而是研究不同阶层代际收入的流动方向及大小。由于目前的数据库很难得到父代和子代持久收入的样本数据,只能使用当期收入代替永久收入,从而导致使用普通最小二乘法得到的代际收入弹性测度存在很大的偏误,其偏误主要包括内生性偏误、暂时性冲击、生命周期偏误以及样本选择性偏误[1]。

为缓解以上误差,本文主要使用双样本两阶段最小二乘法测度代际收入弹性的值。双样本两阶段最小二乘法(TS2SLS)是将普通最小二乘法和工具变量法进行优化以后的模型,主要用来降低内生性以及解决因共同居住而产生的样本选择性偏误问题。虽然与之相似的还有两阶段最小二乘法(TSIV),但研究表明,TS2SLS比TSIV的估计结果更加渐进有效,并且对样本抽样方式更稳健[1]。

TS2SLS法基本思路:已知主样本中子代的收入和父代的特征变量(如:受教育年限、职业等),但父代收入的数据缺失严重,为了尽可能大的保留样本数量,并且改善OLS方法的误差,就需要使用源于同一总体的辅样本来估计主样本的父代收入。首先,需要建立父代收入方程,即TS2SLS第一阶段的模型,该模型主要作用于辅样本数据,因此辅样本中需包含父代收入和父代的特征变量,通过第一阶段模型的估计得到父代收入模型的系数。然后将辅样本得到的收入方程系数代入到主样本中,得到主样本“潜在父代”[2]的收入,再将 “潜在父代”[2]收入代入到代际收入弹性测度模型(即TS2SLS第二阶段的模型),得到代际收入弹性的值。具体理论如下:

根据双样本两阶段最小二乘法思想,本文将第一阶段的父母收入模型设定为:

(3-3)

第二阶段代际收入弹性模型设定为:

(3-4)

从以上理论模型可以看出,使用双样本两阶段最小二乘法具备以下优势:第一,该方法没有直接使用父代当期收入代替永久性收入估计代际收入弹性,而是通过大量样本对父代的永久收入进行估计,从而避免了内生性偏误和暂时性冲击偏误。第二,该方法由于使用了两个数据库,因而最终使用的父代和子代样本并不是现实意义上的一个家庭中的父代与子代样本,从而避免了样本选择性偏误的问题。第三,该方法解决了调查数据中父代收入缺失值严重的问题,增大样本容量,使得模型的拟合度更高,估计值更可靠。

(二)数据来源

本文使用中国健康与营养调查数据(CHNS)作为主样本,共包括1991年、1993年、1997年、2000年、2004年、2006年、2009年、2011年以及2013年共10次调查数据(由于1989年所需变量数据的缺失值比较严重,且用于配对父代和子代的变量IDind_f和IDind_m均缺失,故删除)。以中国家庭收入调查数据(CHIP)作为辅样本,共包括1988年、1995年、2002年、2007年、2008年和2013年共六年的数据。

先利用辅样本CHIP数据通过模型(3-3)分别得到父母收入方程的系数;然后将主样本CHNS的特征变量数据(如:受教育程度、职业等)代入到已知系数的模型(3-3),得到CHNS中“潜在父代”的收入;最后将子代的收入、“潜在父代”的收入以及相关变量代入到模型(3-4),得到TS2SLS代际收入弹性的估计值。

对于主样本的处理:首先将CHNS中父代与子代匹配,本文通过变量IDind_f和IDind_m进行父子、母子的匹配;然后删除父代的年龄不在36-65岁范围内的样本以及子代的年龄不在18-45岁范围内的样本,删除所需变量有缺失值的样本;最后将多年数据纵向合并,剔除异常样本。最终得到父子配对样本4079对。对于辅样本CHIP的处理:根据主样本CHNS划定的年龄范围,删除不在该年龄范围内的样本,删除所需变量有缺失值的样本,并将多年数据纵向合并。通过数据整理,得到辅样本中父亲样本37890个。

本文收入均使用个人总收入数据,考虑到本文使用的数据年代跨度较大,故将所有个人总收入数据基于1988年CPI进行消除通货膨胀处理。

(三)描述性统计

本文使用的TS2SLS方法需要知道CHNS中父代的特征变量和子代的收入,不需要知道父代的收入和子代的特征变量,因此本文样本数据中父代与子代匹配样本量不同。

表1 全国居民家庭父亲与子代匹配样本描述性统计表

从表1变量描述性统计结果可知,本文父代与子代匹配成功的4079个样本中,父代收入均值整体大于子代,根据生命周期理论,人在40岁左右的收入会达到顶峰,因此子代收入还具有很大的上升空间。本文样本数据中父亲的年龄均值为51.47,子代为23.81,比较符合生命周期理论。子代的受教育程度均值为10.21,其值虽小于高中毕业年限,却大于初中毕业受教育年限,而父代受教育程度均值仅8.48,未达到初中毕业水平。从职业评分来看,父代的职业评分均值普遍大于子代。从户籍的均值可以看出,一部分父代为农村户籍的家庭子代户籍变成城镇,这与近年来不少农村家庭将户口迁往城镇有很大的关系。

二、实证结果分析

(一)代际收入弹性测度

根据TS2SLS方法,首先使用CHIP辅样本数据对父代收入方程进行估计,得到其系数,然后将父亲收入方程代入到CHNS主样本中,得到“潜在父代”的收入,使用“潜在父代”的收入与主样本中匹配的子代进行回归,即可得到代际收入弹性值。两阶段的回归结果见表2所示。

表2 TS2SLS法估计结果

从表1基于TS2SLS方法的第一阶段回归结果来看,第一阶段父代收入模型的拟合优度达到0.4689,F值也非常大,可见模型整体的估计结果比较好。父亲收入方程的系数均显著,这说明我国父亲的年龄、户籍、区域、职业以及出生年代等都对其收入有着显著的影响。具体来看,对于36-65岁的居民来说,随着年龄的增加,收入也会逐渐增加,然而年龄的平方项显著,且为负值,说明年龄(减40以后的年龄)对收入存在非线性关系,且为倒“U”型曲线。不同的户籍会对居民个人收入产生较大的影响,从地区虚拟变量来看,东部地区居民收入水平最高,中部地区次之,西部地区最低,中、西部地区居民收入与东部地区相差甚远,地区差异对父亲收入的影响非常显著。教育和职业对父亲收入的影响系数分别为0.0399和0.0463。出生年代的不同对居民收入的影响也非常重要,出生于20年代和30年代的居民收入水平最低,随着年代增加,收入水平也在不断增加。

TS2SLS第二阶段模型的拟合优度和F值均表明第二阶段全国整体、城镇、农村模型的回归结果都比较好。从估计结果来看,我国整体代际收入弹性达到0.5514,城镇代际收入弹性值为0.3402,远小于农村(0.6365)。可见农村居民代际收入流动性比较低,子女想要摆脱父代的低收入阶层比较困难。其主要原因可能在于:第一,我国城镇经济发展一直遥遥领先于农村,因此农村大部分父代收入都比较低,他们对于子代人力资本方面的投资受到其能力的限制。第二,农村居民的受教育程度整体没有城镇高,他们对子代人力资本投资的重要意义以及这种投资对其子代成年以后的深远影响的认识不够深刻。第三,农村居民大多从事体力劳动,社会地位较低,在子代求职以及工作过程中,很难给予其帮助,而城镇居民在这方面却具备很大的优势。无论城镇还是农村,子代年龄(减40以后的年龄)对子代收入均存在非线性关系,且呈现倒“U”型。此外,子代的出生年代对代际收入的影响也非常显著。

(二)不同收入阶层代际收入流动性分析

代际收入弹性可以测度我国父代收入对子代收入的影响有多大,但对于不同群体不同收入阶层的家庭代际收入流动的具体情况却很难描述。基于此,本文将进一步使用转移矩阵法探讨我国城乡不同阶层的代际收入流动情况。

首先将父代收入和子代收入根据其高低分别划分为五个阶层,如下矩阵所示。矩阵Ptotal表示全国居民代际收入流动矩阵,每一行表示父代收入的不同阶层,每一列表示子代收入的不同阶层。

从矩阵Ptotal可以看出,父代低收入家庭子代也处于低收入的概率达到0.44,父代高收入家庭子代高收入的概率高达0.6,对角线上的值普遍较大,说明我国代际收入传递情况非常严重,尤其是处于收入阶层两端的家庭,代际收入流动的概率非常小。根据惯性率的计算公式求得全国居民代际收入流动矩阵的惯性率为0.36,惯性率越接近于0.2,说明代际收入流动越高,可见我国整体代际收入流动性较低。

矩阵Purban和矩阵Prural表示分别城镇和农村的代际收入流动矩阵,从矩阵对角线上的概率值来看,农村对角线元素普遍大于城镇,说明农村代际收入传递更高。这一点,通过对其惯性率的计算,也得到了进一步的证明。城镇的惯性率为0.39,而农村仅0.34,同样说明农村代际收入流动大于城镇。具体来看,城镇父代低收入家庭子代收入也为低收入的概率高达0.4,而农村仅0.35,城镇高收入家庭代际收入传递的概率为0.56,低于农村(0.61)。无论城镇还是农村,处于父代收入阶层两端的家庭子代收入向上或向下流动两个阶层及以上的概率非常小,并且位于对角线上的概率值均比较大,说明代际收入传递比较严重。

三、结论与建议

本文首先使用TS2SLS法研究我国整体以及城乡代际收入弹性,并进一步分析城乡差异,接着使用转移矩阵法分析了我国整体以及城乡之间不同收入阶层的代际收入流动情况。结果发现,我国整体代际收入流动性不大,其弹性值为0.5514,城镇(0.3402)家庭代际收入流动性远远高于农村(0.6365)。我国整体代际收入流动性不大,并且低收入和高收入阶层的家庭代际收入传递现象非常严重。

为了缩小贫富差距,实现机会平等,必须制定相关政策加大我国居民家庭代际收入流动。城乡代际收入流动的差异性非常显著,政府在制定政策时应充分考虑城乡之间的差异性,制定具有针对性的政策。制定相关政策,尽可能使得农村和城镇在教育、就业等方面实现均等,以此影响子代收入,从而进一步提高代际收入流动性。

猜你喜欢
父代偏误子代
中国高等教育的代际传递及其内在机制:“学二代”现象存在吗?
延迟退休决策对居民家庭代际收入流动性的影响分析
——基于人力资本传递机制
新冠疫情期间增加了父代体育人口吗?
——基于反向社会化理论的实证研究
“一……就……”句式偏误研究
男孩偏好激励父代挣取更多收入了吗?
——基于子女数量基本确定的情形
火力楠优树子代测定与早期选择
24年生马尾松种子园自由授粉子代测定及家系选择
火力楠子代遗传变异分析及优良家系选择
关于《突厥语大词典》汉字译写偏误研究
“ü”偏误调查与“v”替代的拼音策略