中国外出农民工历史的测算与未来的趋势

2015-11-23 07:49顾乐民
浙江农业科学 2015年1期
关键词:曲线拟合乘法农民工

顾乐民

(同济大学,上海 200092)

中国外出农民工历史的测算与未来的趋势

顾乐民

(同济大学,上海 200092)

由于缺乏成熟的农民工统计制度,对于改革开放30多年来,每年我国外出农民工的数量,约40%年份的数据是缺失的。最小一乘解,是在全部数据中依据准则选取特征数据来实现的。将农民工数量中3个权威数据作为最小一乘法特征数据,按照最小一乘准则,绘制出我国改革开放以来外出农民工数量的变化曲线。结果表明,30多年来我国外出农民工数量的增长可以用Richards生长模型和一种新的指数+幂指数混合生长模型来共同描述;增长过程是一个没有峰或谷的连续递增,在1995-1998年间出现一个变化的拐点,使加速的增长转变为减速的增长;2014年外出农民工数量将达到1.71亿,按1.6倍率相乘,农民工总数为2.73亿;按目前发展趋势2021年外出农民工数量将出现高点1.88亿,折算成农民工总数为3.0亿,之后将呈现缓慢下降趋势。

外出农民工;最小一乘法;曲线拟合;预测

文献著录格式:顾乐民.中国外出农民工历史的测算与未来的趋势[J].浙江农业科学,2015,56(1):130-136.

DOI 10.16178/j.issn.0528⁃9017.20150142

农民工是中国工业化、城市化与农村人口在非农化没有同步发展的历史条件下产生的一个独特的社会群体[1]。于20世纪80年代出现的农民工,是改革开放进程中出现并迅速成长起来的一支新型劳动大军,是现代产业工人的主体,是中国现代化建设的重要力量。农民工队伍的产生和不断壮大,对改变农村面貌做出了特殊的重要贡献,成为推动中国经济发展和社会结构变革的巨大力量[2-3]。但是由于没有成熟的农民工统计制度,对于30多年来我国农民工的数量,约40%年份的数据是缺失的,存留的数据中也有不少是矛盾的,误差在15%的居多,有的甚至达近30%。

关于农民工历年数量变化的资料虽然能找到或估算出[4-5],但总体是不全的。农民工数量数据的缺失会造成一些分析难以或无法进行,统计数据之间的矛盾也会使各种分析变得有争议。因此补全缺失的数据,纠正矛盾的数据,可以更好地为分析农民工其他问题服务,具有一定的理论和实用价值。

数据是不能凭空构造的,农民工数量的变化规律也是客观存在的,将这种规律用数据形式表达是可能的。如果在存有的数据中隐含若干重要数据,即统计过程中具有很高置信度、被公认的、已被广泛接受的权威数据,发现并找出它们,以这些数据为主线,就能勾勒出一条能较准确反映农民工发展过程的曲线。它不仅能成为农民工数量变化规律的一个很好的近似,还可以用数学上的内插法,补全缺失的相关数据,纠正有矛盾的数据,并延伸到其他农民工的各种分析服务上。

最小一乘准则是关于误差绝对值之和极小化的准则,源于18世纪天文学子午线长问题的古典研究,从历史上看比最小二乘准则还早了40多年。但如何在该准则基础上建立并实现回归算法是个难题,成为困扰数理界200多年未解的难题,也形成了延续至今的对最小一乘准则的各种研究,并逐渐形成了以该准则为基础的最小一乘法。近年来,由于最小一乘解的实现问题有了大的突破,使得最小一乘法在各领域中迅速得以应用,成为继最小二乘法之后一个既古典又新颖的方法[6]。最小一乘解的实现过程与最小二乘解有很大区别,最小二乘法是全部数据都必须参与的捆绑式的处理方法,而最小一乘法则是通过全部数据选出若干个特征数据的代表式的数据处理方法。最小一乘法的这种数据处理方式,为农民工数量问题的解决提供了一个极为相近的思路与方法,将最小一乘法需要的特征数据与统计学中的重要数据联系起来,就有可能绘出一条最小一乘准则下的农民工数量的变化曲线。

广义最小一乘法是最小一乘法的一个推广[7],是合理运用最小一乘法基于的零误差原理,并加以推广至关键数据位,使关键点位数据成为最小一乘特征数据的一种方法。所谓关键点就是特别关心的重要数据点,是不希望出现误差或误差尽可能小的点。例如力峰值点、机床加工特殊点、目标到达点、预测的未知点等。如果将农民工数量统计中的重要数据点视为关键点,那么关于农民工数量变化曲线的建立不仅有了理论依据,也成为可能。

Richards模型是1955年Richards在von Bertalanffy生长模型的基础上经一般化处理后提出的一个著名的生长模型[8],也常用于人口增长的描述。通过参数变化可演变为Mitscherlich、Gompertz、Logistic这3个生长模型,使之成为Richards模型的3个特例。Richards曲线是一个具有渐近线功能的S形曲线,能推算出当时间→∞条件下增长的极限量。数据处理表明由于含有4个参数,使得Richards模型比另外3个模型具有更小的曲线拟合误差,在本研究中将Richards模型作为主要的数学模型之一。

此外,在本研究中还将介绍一个新的生长模型,幂指数+指数混合型生长模型,一种既有幂指数功能又有指数功能,既有渐近线功能也有极值功能的新生长模型,用于克服Richards模型中不具有极值的局限。在广义的增长、发展、生长过程中,时间→∞条件下的极限增长往往不一定都存在,当增长趋于停滞往往预示着外部条件或内在因素无法再起作用,此时只有2种可能,一种是趋于消亡,例如植物的生长;另一种继续维持生存,则必然朝着新的循环寻找出路,通过表观下跌找到新的平衡。新模型中这2种趋势都有可能出现,依赖于给定的是什么类型的数据,所以具有很强的适应性和指示性。极大值和极限值的双重现象可能更符合客观世界的一般生长规律,也可能更符合农民工未来发展的趋势,在本研究中也将该新模型作为主要的数学模型之一,与Richards模型一起共同用于分析农民工的数量增长问题。

1 原理与方法

表1是国家4部门给出的1983-2007年间主要年份外出务工的农民工数量数据[3]。

表1 改革开放以来主要年份外出务工的农民工数量万人

1.1 最小一乘法

数据(xi,yi)i=1,2,…,m是隐函数y(x)在有定义的区间内给出的m个离散点组,为找到隐函数y(x),设拟合函数f(x)=f(x,a),其中参数a=(a1,a2,…,an),n≤m,而a1,a2,…,an为n个不全为0的实数。为使f(x)尽可能接近y(x),设误差函数r(x)=y(x)-f(x),而误差值(xi,ri)是误差函数r(x)上的具体数值:

ri=yi-ƒ(xi,,a)i=1,2,…,m。

曲线拟合的最小一乘法,是依据误差ri=yif(xi,a)的绝对值之和为极小的准则来选择参数a,即依据Q=Q(a)=min而构成的一种曲线拟合法。

1.2 平均绝对误差Mae、平均绝对百分误差Mape、曲线拟合误差

平均绝对误差Mae是最小一乘法一个重要的绝对量值指标:

平均绝对百分误差Mape是最小一乘法一个重要的相对量值指标:

在曲线拟合中,平均绝对百分误差常被称为曲线拟合误差,在后文中将应用该术语。

1.3 最小一乘解

如果最小一乘的解存在,即存在a=a∗使则至少存在n个零误差点x1,x2,…,xn使yj-f(xj,a∗)=0,j=1,2,…,n。

称参数a∗为最小一乘最佳拟合参数,上标用∗表示,称f(x,a∗)为最小一乘最佳拟合方程,它们构成了最小一乘法的一般解。

1.4 零误差以及最小一乘法、最小二乘法、广义最小一乘法在数据处理方式上的差异

所谓零误差就是没有误差,或误差为0。在实际计算过程中由于计算机的浮点运算功能是有限的,所以常将很小可以忽略不计的绝对值误差作为零误差处理。从1.3节可以看出,最小一乘法是通过n个零误差点处的零误差来获得最小一乘解的,这种求解方式是最小一乘法独有的。但不是任意n个数据都可以成为零误差数据,而是需要通过选优的方式,在m个都有可能成为零误差的数据中,择优选出能使误差绝对值之和极小的n个数据作为零误差数据。这个由全部m个数据都参与,选出n个数据作为全部数据的代表的数据处理过程可用一个通俗的语言代表式的数据处理方式来描述,而选中的n个数据就成了代表数据。

最小二乘法的数据处理过程要求全部数据都参与,得到的结果是集体贡献的组合性结果,是一种捆绑式的数据处理方式。如果在数据缺失情况下应用该法,得到的结果会产生一定的片面性。

广义最小一乘法具有相当大的灵活性,它吸收了最小一乘法的零误差原理,却不苛刻要求误差绝对值之和必须极小,以部分牺牲极小化结果的代价换取对应用条件的宽松。例如,最小一乘法规定的n个特征数据具有唯一性的特征,是不能任选的;但是广义最小一乘法可以根据实际需要,人为确定2个数据为特征数据,另外(n-2)个数据由最小一乘准则来选取。这种用抬高或牺牲误差绝对值之和极小的代价换取对关键数据的保护的最小一乘法就是广义最小一乘法,是最小一乘法的一个推广。

1.5 原始数据中的重点数据

在表1给出的1组原始数据中,可以确定以下3个数据为重点数据:1983年外出农民工数量200万,这是一个被公认的历史性数据,该数据之后的多个数据是缺失的;1996年外出农民工数量7 223万,该数据为第一次全国农业普查数据,具有很高的置信度和权威性,由于该数据之前的多个数据是缺失的,它定位的重要性就尤为突出;2006年外出农民工数量13 181万,该数据为第二次全国农业普查数据,也具有很高的置信度和权威性,该数据之前是多个矛盾数据,如果需要纠正矛盾数据,它的定位作用就十分重要。

这3个数据的一个共同特征是它们分别代表了相应的年代(80,90,00年代),使得重要数据在时间分布上比较均匀且合理。除这3个数据外,其他的数据均作为一般数据处理。2008-2013年的数据有6个在表1中并没有列出,这6个数据具有很高的置信度,但这6个数据集中在最近的6年,数据是连续的、不缺失的、无矛盾的,所以这6个数据属于权重相等的一般数据。

1.6 Richards生长模型

Richards生长模型是一个具有渐近线功能的S形模型,模型中的4个参数用a1,a2,a3,a4简化表达:

当时间x→∞,e-a3x→0,所以参数a1表示为极限量。

1.7 幂指数+指数混合型生长模型

幂指数+指数混合型生长模型是幂指数模型与指数模型简单组合而构成的一个混合型模型,用g(x)=g(x,b)表示,其中参数b=(b1,b2,b3,b4)。

g(x)=g(x,b)=b1xb2+b3eb3x。

g(x)的变化率即为1阶导函数g′(x),g(x)的2阶变化率即为2阶导函数g″(x):

式中都是超越方程,令g′(x)=0通过牛顿迭代法得到0点是g(x)的极大值点;令g″(x)=0通过牛顿迭代法得到的0点是g(x)的拐点,因篇幅关系不展开对该生长模型的扩展性讨论。

2 数据处理

表2中第1列是序号,共18个,第2列是年份,第3列是1983-2013年我国外出农民工数量实际数据,为母系列,其中2008-2013年的6组数据是国家统计局通过人民网财经频道公布的国家数据[9-10],缺失年份的数据有13个(1984,1985,1986,1987,1988,1990,1991,1992,1994,1997,1998,1999,2007年)。因最小一乘法解的实现是一个十分繁复的计算,文中略去所有的计算过程,只给出计算的结果。

依据上述的讨论,在最小一乘准则下得到的Richards方程为:

对数据处理的结果见表2第4列,表中第5列为绝对误差(万),第6列为相对误差(%)。位于i=1,5,12,18的误差是零误差点,相应的年份是1983,1996,2006,2013年。Richards方程获得了平均绝对误差Mae=386.8(万)和曲线拟合误差Mape=4.73%的条件极小化的结果。

在最小一乘准则下得到指数+幂指数混合模型方程为:

对数据处理的结果见表2,其中第7列为拟合值,第8列为绝对误差,第9列为相对误差。位于i=1,5,12,15的误差点是零误差点,相应的年份是1983,1996,2006,2010年。幂指数+指数混合模型获得了平均绝对误差Mae=351.3万和曲线拟合误差Mape=4.36%的条件极小化的结果。

由表2可以说明以下几点:

1)4个零误差点是31年间(1983-2013年)外出农民工数量变化的4个重要数据点,分别在80,90,00,10年代出现,比较均衡。假设这4个重要数据是全部31个数据(含缺失的13个数据)的代表数据,那么最小一乘法依据这4个数据获得的解,即获得的曲线拟合方程就可以认为是31年来我国外出农民工数量变化的一个近似规律。

2)如果假设不成立,那么就必须从给定的数据中,另外选出4个代表数据,并获得相应的解。文中不展开重新选择数据的探讨,因为这种对比将涉及大量的计算和讨论,所以文中认定给出的假设是成立的。

3)2个生长模型的数据处理有相同点,都认为2000年和2001年的数据误差较大,它们的相对误差都超过了20%,所以需要修正。

4)根据国家统计局给出的我国外出农民工与农民工总数的比例,多年来一直在1∶1.6左右,由Richards方程给出的外出农民工的极限数量为28 282.892万,按1.6倍率推算,我国农民工总数的极限量为4.53亿,这个结果超出了实际可能的范围。根据《中国农村统计年鉴》数据,截至2010年,我国农村劳动力的资源为46 875万人[5],Richards模型给出的理论结果接近该值,但不可能都转化为农民工,所以事实不可能实现。从意义上说Richards模型给出的数据处理结果只能作为参考,同样对于Mitscherlich,Gompertz,Logistic等模型,给出的结果将产生大的偏差而不合实际情况,这里从略。

5)相比之下,幂指数+指数型混合模型比较符合实际的人口变化情况,且2个重要的曲线拟合指标Mae和Mape都要较Richards模型小些,所以在后文的分析中将主要运用该模型。

3 数据分析

3.1 预测的零误差经验法则

预测的零误差经验法则适用于数值逼近[11]。大量试验表明,在数值逼近中若将端点xm处的数据值(xm,ym)设定为零误差,即ym-f(xm)=0。则对于未知的数据(xm+1,ym+1)的预测具有较为准确的结果。

在数值逼近中,数据值的随机误差一般较小,函数方程越接近0点其误差绝对值就越小,如果端点前数据的误差rm-1=ym-1-f(xm-1)的绝对值误差很小,而端点处的误差为0,rm=ym-f(xm)=0,按照曲线延伸的惯性原理,则端点后数据(xm+1,ym+1)的误差也不会大,这为预测数据(xm+1,ym+1)引入的预测误差必定很小。如果再对预测进行一种误差补偿,将误差值rm-1简单叠加在预测值f(xm+1)上,即有ym+1=f(xm+1)±rm-1,则预测结果将更接近实际真值ym+1。

这个经验法则虽适用于数值逼近,但对于统计学数据而言,当数据的随机误差不是很大,依然可以简单套用,仅当随机误差很大,曲线失去了延伸的一般规律时,该法则就不宜使用。

3.2 预测性检验

对于未来的预测,重要的是预测结果是否准确,此时其他问题,例如规律性问题、曲线的形状问题等都要让位,即凡是干扰或影响预测所需要的条件的一般都要加以限制。预测的零误差经验法则设定端点数据为满足式ym-f(xm)=0的零误差数据,其他数据均视为一般数据以免干扰,以下给出实际预测结果。

表2 1983-2013年我国外出农民工数量的模型拟合

1)用幂指数+指数模型,预测2011年外出的农民工数量。

由表2,取1983-2010年的15组数据,设定2010年的数据为零误差数据,其余均为一般数据,依据最小一乘准则,获得的拟合方程:

g(xi)=457.293 83(xi-1 982)1.064617-250.231 44e0.027832(xi-1982)。

零误差在1983,1996,2004,2010年的4个数据位上出现,拟合结果为平均绝对误差Mae=381.2(万),曲线拟合误差5.07%,将x16=2011带入上式,得预测结果g(2011年)=15 924.1(万),与实际值15 863(万)的绝对误差为61.1(万),预测的相对误差为0.39%。

2)预测2012年外出的农民工数量。

同理,取1983-2011年的16组数据,设定2011年的数据为零误差数据,其余均为一般数据,依据最小一乘准则,获得的拟合方程:

g(xi)=445.083(xi-1 982)1.080664-232.495 93e0.05272423(xi-1982)。

该方程在1983,1996,2004,2011年的4个点位获得零误差,拟合结果为平均绝对误差Mae=357.9(万),曲线拟合误差4.74%,将x17=2012带入上式,得预测结果g(2012年)=164 36.9(万),与实际值16 336(万)的绝对误差为100.9(万),预测的相对误差为0.62%。

3)预测2013年外出的农民工数量。

取1983-2012年的17组数据,设定2012年的数据为零误差数据,其余同上,获得的拟合方程:

g(xi)=430.322 37(xi-1 982)1.096374-215.518 93e0.0664312(xi-1982)。

该方程在1983,1996,2004,2012年的4个点位获得零误差,拟合结果为平均绝对误差Mae=342.1(万),曲线拟合误差4.47%,将x18=2013带入上式,得预测结果g(2013)=16 883.2(万),与实际值16 610(万)的绝对误差为273.2(万),预测的相对误差为1.64%。

以上预测都具有一定的准确性,同时也看到,虽然只设定了端点数据为零误差数据,其余都按一般数据论处,但按照最小一乘准则的数据处理,1983年和1996年的数据都归入了零误差数据范畴,这与上述讨论中将1983,1996,2006年属于重点数据的设定十分相近,这一结果也说明了最小一乘法对于数据的选取具有与事实十分接近的优良功能。

3.3 预测2014年我国农民工数量

在以上分析基础上,对2014年外出农民工可能的数量进行预测。取1983-2013年的18组数据,设定2013年的数据为零误差数据,其余同上,获得的拟合方程:

g(xi)=403.336 53(xi-1 982)1.123753-186.985 37e0.083832(xi-1982)。

将x19=2014带入上式,得预测结果g(2014年)=17 084.7(万),按照1∶1.6的比率,农民工总量为2.73亿;该结果有待2015年验证。

3.4 Richards曲线分析

图1中Richards模型是表2数据及数据处理结果的曲线形式转化,图中横坐标为年份,纵坐标是人口数(万人)。

图1中曲线1是Richards曲线:

在定义区间[1983,2013年]内,Richards曲线是一条无极值(极小和极大)的单增曲线。

图1中ARichards模型曲线2是Richards曲线的变化率曲线,即f(x)的1阶导函数f′(x)曲线,因为只是定性说明问题,略去了该曲线的数值标定,即没有给出曲线2的纵坐标数值。曲线2表明Richards曲线的变化率曲线是一条含有一个极大值的驼峰状曲线,计算表明f′(x)曲线在x=1 994.8处获得极大值,相当于Richards曲线f(x)在1995年处出现一个变化的拐点。拐点的出现使Richards曲线由逐步加快的递增变为逐步减慢的递增。

图1 我国外出农民工数量的拟合曲线

3.5 幂指数+指数曲线分析

图1幂指数+指数混合模型中的曲线1是幂指数+指数曲线:

g(x)=338.2388(x-1 982)1.187315-124.48e0.104837(x-1982)。

g(x)曲线与Richards曲线不同之处在于,在定义区间[1983,2013年]内,g(x)曲线虽然也是一条无极值(极小和极大)的单增曲线,在它的延伸部分,在区间外的x=2 021.2,相当于2021年将出现一个极大值g(2 021.2)=18 777,预示外出农民工在2021年将达到最大值18 777万,之后将缓慢下降。图1幂指数+指数混合模型中曲线2是g(x)曲线的变化率曲线g′(x),这是一条含有一个极大值的驼峰状曲线,但峰值出现点位与Richards变化率曲线略有差异。计算表明g′(x)曲线在x=1 998.4处获得极大值,相当于g(x)曲线1998年处出现一个变化的拐点。拐点的出现使幂指数+指数曲线由逐步加快的递增变为逐步减慢的递增。

3.6 曲线分析的综合

Richards曲线和幂指数+指数曲线得出的结论略有不同,Richards曲线显示,当时间→∞,外出农民工数量为2.8亿,这既难以验证也超出现实的可能。农民工的出现具有历史局限性,必将伴随历史的前进而消失,所以该值不具有参考性,可以除去。综合2个生长模型给出的结论可归结为,1983-2013年的31年间,我国外出农民工数量的变化是一个不存在极值(极大或极小)的、连续递增的发展,在发展过程中的1995-1998年出现了变化的拐点,由逐步加快的递增变为逐步减慢的递增,这种增长率的变慢必将产生效应,外出农民工将在2021年左右出现最大值1.877 7亿,按1.6倍率推算,农民工总数为3.00亿,之后农民工数量将逐渐减少。

31年来外出农民工缺失的数据可用数学上的内插法加以补齐,表3是按照幂指数+指数混合增长模型,在最小一乘准则下计算的结果。数据获得的曲线拟合误差为0.5%,最大误差为1.98%,所以在实际应用中,若考虑到统计学的随机误差,带有∗号或∗∗的数据其误差允许在±0.5%范围内波动,其中个别数据波动的最大范围不得超过±1.98%。

表3 1983-2013年外出农民工数量变动情况

4 小结

最小一乘法解的实现过程,是一种代表式的选取方式,我国外出农民工数量变化数据虽然缺失但仍存有重要数据,将二者之间建立紧密的关联,使重要数据成为代表数据,弥补了数据缺失的不足。通过数据处理、数据分析、实践验证等多个环节,得出如下结论。

1983-2013年我国外出农民工的数据虽然只有18个,但因存有高置信度的权威数据,这使得缺失的数据、矛盾的数据可以通过最小一乘法得以补缺及纠正。

31年来农民工数量的变化规律可以用Richards生长模型和幂指数+指数混合生长模型来描述。31年来我国外出农民工的增长是一个不存在峰或谷的连续增长,在增长过程中,1995-1998年出现了变化的拐点,使原先逐步加快的增长变为逐步减慢的增长。

2014年我国外出农民工数量将达1.71亿,按照1∶1.6比率推算,农民工总数约为2.73亿;我国外出农民工数量将在2021年左右出现峰值1.88亿,按1.6倍率推算,农民工总数为3.00亿,之后农民工数量将逐渐趋于减少。

31年来外出农民工缺失的数据可用数学上的内插法加以补齐,在实际应用中,数据误差允许在一定范围内波动。

[1] 朱信凯.农民市民化的国际经验及对我国农民工问题的启示[J].中国软科学,2005(1):28-34.

[2] 国务院研究室课题组.中国农民工调研报告[M].北京:中国言实出版社,2006.

[3] 我国农民工工作“十二五”发展规划纲要研究课题组.中国农民工问题总体趋势:观测“十二五”[J].改革,2010(8):5-29.

[4] 王萍萍,张毅,彭丽荃,等.新生代农民工的数量,结构和特点[EB/OL].(2011⁃03⁃10)[2012⁃04⁃14].http://www.my 12340.cn/article.aspx.

[5] 陈书伟.外出农民工流动态势及潜在数量测算[J].广东技术师范学院学报,2013,34(2):99-102.

[6] 顾乐民.曲线拟合的最小一乘法[J].同济大学学报:自然科学版,2011,39(9):1377-1382.

[7] 顾乐民.曲线拟合的广义最小一乘法[J].数学的实践与认识,2011,41(19):107-113.

[8] 程毛林.Richards模型参数估计及其模型应用[J].数学的实践与认识,2010,40(12):139-143.

[9] 统计局.2012年全国农民工总量达26261万人[EB/OL].(2013⁃05⁃27).http://finance.people.com.cn/n/2013/0527/c1004-21624982.html.

[10] 国家统计局.2013年国民经济发展稳中向好[EB/OL].(2014⁃01⁃20).http://www.stats.gov.cn/tjsj/zxfb/201401/t20140120_502082.html.

[11] 顾乐民.预测型切比雪夫多项式[J].计算机工程与应用,2012,48(7):34-38.

(责任编辑:高 峻)

C 921

A

0528⁃9017(2015)01⁃0130⁃07

2014⁃08⁃28

顾乐民(1952-),男,江苏射阳人,研究方向为最佳逼近原理及其应用。E⁃mail:gulemin@tongji.edu.cn。

猜你喜欢
曲线拟合乘法农民工
算乘法
2021年就地过年农民工达8 700多万
我们一起来学习“乘法的初步认识”
“点对点”帮2万名农民工返岗
不同阶曲线拟合扰动场对下平流层重力波气候特征影响研究*
基于MATLAB 和1stOpt 的非线性曲线拟合比较
以农民工欠薪案“两清零”倒逼发案量下降
《整式的乘法与因式分解》巩固练习
浅谈Lingo 软件求解非线性曲线拟合
把加法变成乘法