中国省域人口总数修订

2016-08-04 05:42杨贵军
统计与信息论坛 2016年7期
关键词:固定效应模型

杨贵军,孟 杰,李 楠

(1.天津财经大学 中国经济统计研究中心,天津 300222;2. 潍坊银行,山东 潍坊 261041)



中国省域人口总数修订

杨贵军1,孟杰1,李楠2

(1.天津财经大学 中国经济统计研究中心,天津 300222;2. 潍坊银行,山东 潍坊 261041)

摘要:人口统计数据是制定宏观经济政策和规划人口发展的基础。中国非普查年度人口总数常常与普查年度人口总数差异较大,而关于中国非普查年度人口统计数据修订的研究较少。建立省域人口增长率的固定效应模型,描述中国各省域人口总数的变化趋势,基于拟合模型和普查数据,提出中国省域人口总数修订方法,并对2001年至2009年中国省域人口总数进行修订,结果表明:2001年至2009年中国人口总数修订值与《中国统计年鉴》公布的人口总数之间存在差异,差异率低于0.5%;省域人口总数修订值变化相对平稳,在年度之间的变化幅度相对小,能够更合理反映各省域人口总数的发展趋势。

关键词:人口数据修订;人口数据准确性;人口增长率;固定效应模型

一、引言

巨大的人口规模使中国人口统计工作异常复杂。《中国统计年鉴》和国家公报的人口统计数据主要通过每十年一次的人口普查数据、每五年一次的1%人口抽样调查数据、每年一次的1‰人口抽样调查数据推算得到。调查数据准确性受调查成本、样本分配和无回答等问题的影响较大[1]。为了保证人口统计数据的准确性,欧盟统计局和美国普查局在每次人口普查结束后会评估普查数据的准确性,依据普查数据修订非普查年度的人口调查数据*美国普查局网站,http://www.census.gov/popclock/embed.php?component=counter&popclk。*欧盟统计局网站,http://ec.europa.eu/eurostat。;联合国人口统计司也会定期修订全球人口统计数据*联合国人口统计司网站,http://esa.un.org/unpd/wpp/sources/country.pdf. 2013。;许多国家和国际组织都对发布的GDP、CPI等重要的社会经济统计数据进行修订*世界银行官方网站, http://bolgs.worldbank.org/prospects/prospects-daily-us-gdp-growth-for-q2-revised。,以提高数据准确性[2]11-32。人口统计数据修订是人口统计工作的重要内容,对历史人口统计数据修订有利于更好把握人口老龄化和人口生育水平等当前重要问题的发展趋势。

人口普查投入了大量的物力和财力、经验丰富的调查员和更先进的调查设备以及设计更严谨的调查方案,使人口普查数据的准确性往往要优于非普查年度的抽样调查数据。例如依据事后计数调查评估法,中国五普人口总数的普查净误差率为1.81%*2000年第五次全国人口普查主要数据公报(第一号),http://www.stats.gov.cn/thsj/ndsj/renkoupucha/2000pucHa/htmal/append21.htm。,六普人口总数的普查净误差率为0.12%*2010年第六次全国人口普查主要数据公报(第一号),http://www.gov.cn/test/2012-04/20/content_2118413.htm。。中国人口普查每十年才组织一次,普查年度也会与非普查年度的全国人口总数或各省域人口总数的差异较大[3]。在人口普查数据公布之后,有必要对两次普查间的非普查年度人口总数进行修订,准确度更高的人口普查数据可以作为修订方法的重要信息。

当前,有关中国人口统计数据修订和修订方法的研究较少,而现有的研究文献主要集中于评估人口普查数据的准确性[4-6]。人口统计分析方法不仅可以评估人口数据的准确性,也可以用于人口数据的修订或给出有价值的修订参考[7],但该方法依赖于出生人口、死亡人口、迁移人口等人口行政记录数据[8-9]。根据中国当前的人口行政记录统计能力,无法保证人口统计分析方法估计结果的可靠性,在进行数据修订时存在一定的局限性。相对比,统计方法可以从更合理的角度对人口数据修订,并给出有参考价值的选择。

中国人口总数变化趋势依赖于省域人口总数的变动,而省域人口总数的变化趋势又与省域经济有关并相互影响,且省域人口总数变化趋势在不同省域、不同时期并不完全相同。人口流动是省域人口变动的重要原因之一,流动人口更倾向于流向经济发展水平高的省域,并可能在流入地长期居留,促使流入省域的人口增量相对大,人口增长率相对高。修订省域人口总数应考虑省域人口发展趋势以及省域间和年度间的差异性。

中国各省域人口总数与人口增长率密切相关,人口增长率能够避免各省域人口规模差异大的影响。这里,人口增长率是狭义增长率,即人口净增长率,指本年度新增人口数与上年度人口总数的比值。在经济增长理论中,人口平稳增长更受关注。新古典经济增长理论将人口增长率作为影响经济增长的重要外生变量,在内生经济增长理论中,人口增长率是经济增长平稳均衡的重要条件,人口增长率也是宏观经济政策研究的重要数据[10]49-66。

为此,本文将针对中国各省域人口增长率,建立固定效应模型,用人口增长率的省域效应和年度效应描述各省域人口增长率的省域间差异和年度变化,分析中国各省域人口变化趋势。利用2000年第五次人口普查和第六次人口普查数据,对2001年至2009年非普查年度各省域人口数据进行修订,为中国人口统计数据的修订提供理论方法。

二、中国省域人口增长趋势分析

中国省域人口增长率的统计模型要考虑人口增长率的平稳性、人口增长的省域差异性和年度变化趋势。在没有大规模战争等社会环境下,省域人口增长率不会出现大幅度波动,而省域间的社会习俗和经济发展水平等差异往往导致省域人口增长率并不完全一致。随着社会经济发展和人口发展周期等因素影响,省域人口增长率也会存在年度差异。

人口统计数据显示,近十多年来中国省域人口增长率基本保持平稳*新中国60周年系列报告之五:人口总量适度增长结构明显改善. http://www.stats.gov.cn/ztjc/ztfx/qzxzgc160zn/200909/t20090911_68637.html。。省域人口总数变化受省域的社会、经济、资源和环境等因素制约。近30年来,中国并未发生过大规模的战争和疫情,人口规模不会大幅度减少,省域人口死亡率基本平稳[11]。中国实施的计划生育政策也已有效抑制了人口总数的过快增长,省域人口出生率有缓慢下降趋势,并稳定在较低水平上。当前,人口增长率已处于5‰左右的低水平。

同时,经济发展水平和社会资源配置决定了人口增长率存在省域差异。各省域流动人口与各省域经济发展水平相互影响,流动人口往往会流向经济发展水平高的省域,倾向于在流入地长期居留,促使流入省域的人口增量相对较大,人口增长率相对较高[12]。

随着社会环境和经济环境的逐年变化,人口增长率在年度间也存在差异。受人口发展周期的影响,1982—1990年期间与1990—1998年期间的各省域人口增长率存在显著差异[13]。近年来,各省域城市化水平在不断提高,社会经济环境也逐年改善,省域人口增长率呈现出了年度差异。

三、中国省域人口增长率的统计模型

本文分析1998—2013年中国31个省域的人口总数。数据来源于《中国统计年鉴》的年末人口数*1997年至2014年《中国人口统计年鉴》,http://www.stats.gov.cn/tjsj/ndsj/。,其中2000年和2010年为人口普查推算数据,2005年为1%人口抽样调查推算数据,其余年度数据为1‰人口调查推算数据。依次记1998—2013年为i=1,2,…,16;记31个省域为j=1,2,…,31;省域与序号的对应关系见表1。第i年第j个省域的人口总数记为yij,人口增长率记为rij,省域人口总数和人口增长率的关系近似为rij≈ln(yij)-ln(y(i-1)j)。为了描述省域人口增长率的年度差异和省域差异,建立的固定效应模型为:

rij=μ+θi+ηj+εij

(1)

为了保证模型参数估计的唯一性,选择基准约束θ1=η1=0,其中θi代表第i年度人口增长率与基准年度人口增长率的差值,称为人口增长率的年度效应,描述第i年度人口增长率的增量;ηj代表第j省域人口增长率与基准省域人口增长率的差值,称为人口增长率的省域效应,这里省域效应ηj和年度效应θi都为固定效应,用于比较人口增长率的年度差异和省域差异;εij为残差,相互独立,且εij~N(0,σ2)[14]。

近年来,省域经济发展水平差异使省域间人口流动规模大,省域人口增长率的变动相对更大。为了提高模型的拟合精度,将31个省域划分为两组,使分组后拟合固定效应模型的残差平方和最小,分组结果见表1。两组省域相比较,第二组省域人口增长率的波动幅度小于第一组省域。

表1  按照人口增长率的省域分组表

(一)第一组省域人口增长率的拟合模型

对于模型(1),基准省域和基准年度的选择并不影响模型拟合结果,模型估计结果如表2所示。第一组省域人口增长率的拟合模型选择北京市1998年度人口增长率为基准,拟合模型的决定系数为0.887 0,标准误为0.007 7,多数的省域效应和年度效应都通过了显著性检验,模型拟合效果较好。为了简化模型,将省域效应估计值相近的省域归为一类,将年度效应估计值相近的年度归为一类,T检验的P值较大的省域效应和年度效应设定为0,并剔除异常值。第一组省域人口增长率模型的参数估计见表2的第1至3列,其中上海与北京的省域效应估计结果相同,也就是说北京和上海的人口增长率的差异为0。对于系数约束的拟合模型,决定系数为0.840 5,标准误为0.007 7,模型拟合效果好。

从省域角度看,北京、上海的人口增长率高于广东,人口增长率差异显著。从年度效应看,1999年至2013年的人口增长率都高于基准1998年人口增长率。自1998年之后,这些省域人口逐年增长,其中2006年至2010年的省域人口增长更快。对第一组省域而言,这些省域为经济较发达地区,流入人口多,人口增长率大,基本符合省域人口变化的实际,拟合模型具有较好实际意义。

表2 两组省域人口增长率模型的参数估计

(二)第二组省域人口增长率的拟合模型

第二组省域人口增长率模型选择天津市1998年度人口增长率为基准,模型估计结果如表2的第4至9列。拟合模型的决定系数为0.899 1,标准误为0.002 0,模型拟合效果较好。为了简化模型,将省域效应估计值相近的省域归为一类,将年度效应估计值相近的年度归为一类,T检验的P值较大的省域效应和年度效应设定为0,并剔除异常值。对于第二组省域人口增长率的拟合模型,决定系数为0.890 7,标准误为0.002 0,模型拟合效果好。

从省域角度看,27个省域的人口增长率都低于天津市人口增长率,差异显著。从年度角度看,除了2000年人口增长率高于基准1998年人口增长率,其他年度的人口增长率都小于基准1998年人口增长率。2000年之后,省域人口增长率缓慢下降,基本符合近年来省域人口变化的实际,拟合模型具有较好实际意义。

四、中国省域人口增长率的异常值分析

第一组省域人口增长率拟合模型的残差基本对称,与正态分布没有显著差异。第二组省域人口增长率拟合模型也有同样的结论。拟合模型的残差基本符合正态分布,选择εij=rij-μ-θi-ηj~N(0,σ2) (i=1,2,…,16;j=1,2,…,31),令:

(2)

表3 省域人口增长率异常值

对于2000年至2010年间非普查年度省域人口总数修订,依据表3所得到的判断如下:对于1998年和1999年的人口增长率的异常值,浙江和天津高估了实际人口;对于2001年至2004年的省域人口增长率的异常值,重庆和四川的人口增长率异常值基本为负值,这些省域低估实际人口。天津、安徽、浙江、西藏的人口增长率异常值为正值,高估了实际人口;对于2005年至2009年的人口增长率的异常值,湖南、广西、四川、贵州和河南的人口增长率异常值基本为负值,表明这些省域低估实际人口。天津、新疆、辽宁的人口增长率异常值基本为正值,这些省域高估实际人口;对于2011年至2013年的人口增长率的异常值,贵州的人口增长率异常值基本为负值,低估其实际人口。浙江和重庆的人口增长率异常值基本为正值,高估了实际人口。

五、中国省域人口总数修订

本节利用2000年和2010年普查年度人口数据对2001年至2009年非普查年度省域人口总数进行修订。修订2001年至2009年省域人口总数,有助于更准确地把握各省域人口总数的变动趋势,为制定宏观经济政策和规划人口发展提供数据依据及决策支持。修订过程如下:基于人口增长率的省域效应和年度效应的估计结果,分别将2000年和2010年普查人口数据作为基准,先推算各年度省域人口总数。

选择2000年普查数据的人口总数为基准,根据省域人口增长率的估计值,推算2001年至2009年的人口总数,计算公式为:

(3)

选择2010年普查年度数据的人口总数为基准,根据省域人口增长率的估计值,反向推算2001年至2009年的人口总数,计算公式为:

(4)

(5)

表4给出了2001年至2009年省域人口总数的修订值。表5给出了中国人口总数的修订值和相对差异率,中国人口总数的修订值是31个省域人口总数修订值之和。表4和表5显示:2001年至2009年中国人口总数修订值与《中国统计年鉴》公布的人口总数之间存在差异,两者差异较小,差异率都低于0.5%;修订值在年度之间的变化幅度相对更小,人口总数增长相对平稳。

表4 2001—2009年省域人口总数修订值表 单位:万人

具体来看,2001年,中国人口总数的修订值为126 586万,统计公布人口总数是126 579万,差异率为0.01%,修订值比公布值略高;修订值比公布值低的主要省域是广西、安徽、四川、贵州等,最大差异率为-4.95%;修订值比公布值高的省域有山西、湖南、天津、河北等,最大差异率为3.19%。

2002年,中国人口总数的修订值为127 183万,统计公布人口总数是127 319万,差异率为-0.11%,修订值比公布值略低;修订值比公布值低的主要省域是广西、贵州、安徽、四川、上海市等,最大差异率为-3.72%;修订值比公布值高的主要省域是天津、湖南、山西、河北、北京等,最大差异率为2.89%。

2003年,中国人口总数的修订值为127 788万,统计公布人口总数是128 190万,差异率为-0.31%,修订值比公布值略低;修订值比公布值低的主要省域是贵州、广西、安徽、四川、上海等,最大差异率为-3.08%;修订值比公布值高的主要省域是天津、北京、湖南、山西、河北等,最大差异率为5.82%。

2004年,中国人口总数的修订值为128 399万,统计公布人口总数是129 022万,差异率为-0.49%,修订值比公布值略低;修订值比公布值低的主要省域是贵州、四川、安徽等,最大差异率为-4.33%;修订值比公布值高的主要省域是天津、北京、湖南、山西、河北等,最大差异率为6.4%。

2005年,中国人口总数的修订值为129 018万,统计公布人口总数是128 604万,差异率为0.32%,修订值比公布值略高;修订值比公布值低的主要省域是贵州、四川、安徽等,最大差异率为-4.3%;修订值比公布值高的主要省域是天津、北京、湖南、广东、山西、辽宁、河北等,最大差异率为7.09%。

2006年,中国人口总数的修订值为129 645万,统计公布人口总数是129 523万,差异率为0.09%,修订值比公布值略高;修订值比公布值低的主要省域是贵州、广西、安徽、河南、湖南等,最大差异率为-8%;修订值比公布值高的主要省域是天津、北京、重庆、山西、广东、辽宁、河北等,最大差异率为6.68%。

表4(续) 2001—2009年度省域人口总数修订值表 单位:万人

表5 2001—2009年中国人口总数修订值和统计公布值表 单位:万人

2007年,中国人口总数修订值为130 547万,统计公布人口总数是130 393万,差异率为0.12%,修订值比公布值略高;修订值比公布值低的主要省域是贵州、广西、河南、安徽、湖南等,最大差异率为-5.97%;修订值比公布值高的主要省域是天津、北京、广东、重庆等,最大差异率为5.73%。

2008年,中国人口总数修订值为131 192万,统计公布人口总数是131 434万,差异率为-0.18%,修订值比公布值略低;修订值比公布值低的主要省域是贵州、广西、河南、安徽等,最大差异率为-4.05%;修订值比公布值高的主要省域是天津、北京、四川等,最大差异率为3.93%。

2009年,中国人口总数的修订值为132 117万,统计公布人口总数是132 443万,差异率为-0.25%,修订值比公布值略低;修订值比公布值低的主要省域是贵州、广西等,最大差异率为-2.05%;修订值比公布值高的主要省域是天津、北京、四川等,最大差异率为1.99%。

六、小结

人口问题是中国经济发展改革中最大的问题。准确的中国人口统计数据已成为经济新常态下宏观政策制定和社会发展规划的重要依据。把握人口老龄化和人口生育水平等当前重要问题的发展趋势,不仅需要当前的人口统计数据,还需要准确的历史人口统计数据。非普查年度人口总数修订应是政府统计工作的重要内容。本文以中国各省域人口总数修订作为研究目标,提出了基于固定效应模型的非普查年度数据修订方法。该修订方法综合利用普查年度人口数据和非普查年度人口数据变化趋势,能够较好反映各省域人口总数的发展规律,并为中国人口统计数据的修订提供一定的理论依据。

参考文献:

[1]冯乃林.人口统计漫谈[J].统计教育,2010(2).

[2]Eurostats. Revision of the European Standard Population[M].Luxembourg: Publications Office of the European Union,2013.

[3]郭志刚.六普结果表明以往人口估计和预测严重失误[J].中国人口科学,2011(6).

[4]Hogan H. The Accuracy and Coverage Evaluation: Theory and Design[J].Survey Methodology,2003,29(2).

[5]Griffin R. Potential Users of Administrative Records for Triple System Modeling for Estimation of Census Coverage Error in 2000[J].Journal of Official Statistics,2014,30(2).

[6]胡桂华.人口普查覆盖误差估计方法综述[J].统计与信息论坛,2013(9).

[7]胡桂华,刘维娜.人口普查数据:修正还是不修正[J].中国统计,2011(3).

[8]Lchapelle R, Kerr D. Census Coverage Error: A Demographic Evaluation[J]. Survey Methodology,2000,26(1).

[9]Himes C, Clogg C. An Overview of Demographic Analysis As a Method For Evaluating Census Coverage in The United States[J].Office of Population Research,1992,58(4).

[10]Dornbusch R, Fischer S, Startz R. Macroeconomics(11th Revised edition)[M]. New York:McGraw Hill Higher Education,1992.

[11]赵明,王晓军.基于分位自回归的中国人口死亡率动态预测[J].统计与信息论坛, 2015(10).

[12]段成荣,吕利丹,邹湘江.当前我国流动人口面临的主要问题和对策——基于2010年第六次全国人口普查数据的分析[J]. 人口研究,2013,37(2).

[13]吕安民,李成名,林宗坚,等.中国省级人口增长率及空间关联分析[J].地理学报,2002,57(2).

[14]杨贵军,赵仲丽,雷媛.我国财险公司赔付率的统计分布与最低偿付能力额度分析[J].统计与精算,2013(1).

(责任编辑:郭诗梦)

收稿日期:2015-08-24;修复日期:2016-05-10

基金项目:国家自然科学基金项目《劣者淘汰两阶段自适应临床试验的设计和分析》(11471239);国家社会科学基金重大项目《国家统计数据质量管理研究》(09&ZD040);天津财经大学研究生科研基金资助项目(2014TCB02)

作者简介:杨贵军,男,黑龙江哈尔滨人,理学博士,教授,研究方向:应用统计;

中图分类号:C921.2

文献标志码:A

文章编号:1007-3116(2016)07-0035-07

Revision of China's Provincial Population Data

YANG Gui-jun1,MENG Jie1,LI Nan2

(1. China Center of Economics and Statistics Research, Tianjin University of Finance and Economics,Tianjin 300222, China;2.Bank of Weifang, Weifang 261041, China)

Abstract:Demographic data is the foundation of establishing macroeconomic policy and planning population development. There was difference of the total population between non-census years and census years. However, there are few researches about the revision of non-census year population data. For the growth rate of provincial population, this article establishes fixed effect model to fit the trend of gross provincial population. Based on the fitted model and census year population data, a method to revise the gross provincial population is provided that is used to revise the gross provincial population from 2001 to 2009 year. The results obtained shows that there is difference between the revision of China's provincial population and the population of Chinese statistical yearbook. The relative difference of them is less than 0.5%. The change of the provincial population revision is relatively stable, and the variation in these years is relatively small. And these population revisions will be more reasonable to reflect the changing trend of the provincial population.

Key words:population data revision; population data accuracy; growth rate of population; fixed effect model

孟杰,男,北京人,应用经济学博士,讲师,研究方向:应用统计;

李楠,女,山东青岛人,硕士,研究方向:应用统计。

【统计应用研究】

猜你喜欢
固定效应模型
社交网络特征对微博营销效果的影响
我国上市公司资本结构动态调整的初步研究
区域性系统性金融风险影响因素研究
区域性系统性金融风险影响因素研究
中国地区环境公平影响因素实证分析
创造与替代:对外投资与本地就业关系研究
我国商业健康险保费收入影响因素实证分析
健康变化对中国老年人自评生活质量的影响