中国制造业企业的空间集聚测度与动态演进研究

2019-05-05 06:30许妮娅

统计与决策 2019年7期

许妮娅，陈潜

（1.中南民族大学经济学院，武汉 430074；2.暨南大学经济学院，广州 510632）

0 引言

经济活动和产业分布并非是空间均匀的，探索合适的方法研究产业集聚一直是经济学家和地理学家关注的焦点之一。在理论研究方面，Marshall（1920）[1]将集聚产生的原因归纳为知识溢出、劳动力市场发育和投入共享三个方面；Ohlin（1935）[2]强调了自然资源禀赋的重要性；Krugman（1991）[3]则从规模经济角度解释了行业集聚现象。在实证研究方面，最近的研究更多的关注了产业集聚的经济效益[4-6]。然而一个更为基本的问题同样关键——如何更加精确地测度集聚？Combes和 Overman（2004）[7]认为行业集聚测度指标应该满足5个基本条件：（1）不同行业可比；（2）有效控制经济活动的总体集聚偏误；（3）有效控制行业的集中偏误；（4）不受空间尺度的干扰；（5）测量结果可以进行显著性检验。在这方面，目前广泛使用的测量指标大多无法同时满足这5个条件，这造成了一系列测量问题。例如只满足前3个条件的EG指数至少存在以下两个问题：首先，基于地理尺度（如市、省）的研究使得集聚的空间范围因为空间单元尺度的差异而不稳定，即存在可塑性面积单元问题（MAUP）；其次，由于人为的划分空间单元，经济活动的空间连续性遭到破坏，跨区域的集聚很难测量，这使得真实的集聚程度往往被低估。更为重要的是，随着企业的进入与退出，行业集聚是一个连续的变化过程，然而仅就相关文献看，很少有研究在动态视角下讨论制造业企业的行业演变规律，这使得中国制造业行业集聚的持续性与布局模式难以揭示。

为此，本文综合借鉴了Duranton和Overman（2005）[8]与Duranton和Overman（2008）[9]的互补性研究。一方面基于静态视角系统分析了中国制造业行业（四位数）的集聚态势与空间特征；另一方面基于动态视角考察了中国制造业行业集聚的动态变化与布局模式。本文的研究基于DO指数法，这一方法满足良好的集聚指标应该满足的全部5个条件且在国外研究中得到了较多的应用；在国内研究方面，袁海红等（2014）[10]分析了北京市的制造业（三位数行业）集聚情况。与之不同，本文的研究视野覆盖全国，除了增加动态演进研究与必要的跨国比较外，本文的静态研究层次与内容相对也更加丰富。

1 数据与方法

1.1 数据说明

本文的研究数据来源于中国工业企业数据库以及手工整理匹配的中国邮政编码区域经纬度坐标数据。2007年中国工业企业数据共收录了336738家企业的主要生产信息，覆盖了中国全部国有企业和年销售额500万元以上的非国有工业企业。其中制造业企业313021家（行业分类SIC13-43）①本文的行业分类标准沿用国民经济行业分类（GB/T4754-2002）。，本文使用的主要变量包括企业四位数行业代码、邮政编码、雇佣人数、成立时间、现营业状态、企业规模等。

邮政编码区域经纬度坐标数据，则通过专业的GIS工具获得，这套数据共收录了26388个不同的邮政编码区域的详细经纬度坐标。以安徽省安庆市怀宁县为例，高河镇的邮政编码为246121，与之对应，本文获取了高河镇精确至小数后6位的经纬度坐标，其中经度30.723558；纬度116.830137；而黄墩镇的邮编为246113，其对应的经纬度坐标分别为30.597388与116.753747。随后，以邮政编码为唯一标识符合并了两套数据。

1.2 DO指数测算方法

根据Duranton和Overman（2005）[8]，DO指数法在测度行业集聚时主要包括三个步骤：首先，给定任一行业，计算该行业内所有企业的双边距离，估计该距离的核密度分布；其次，通过对全体制造业企业的位置点进行无放回随机抽样构造模拟行业，以计算模拟行业的企业双边距离的核密度分布；最后，重复第二步模拟过程，设定显著性水平，构造行业集聚和分散阈值，判断行业是否显著集聚或分散。

（1）核密度函数。以行业A为例进行说明，首先通过企业所在位置的经纬度坐标计算其所有企业双边距离。随后，使用高斯核密度估计获得该行业的企业双边距离密度图。例如，对于行业A在任意距离d上的核密度估计函数，其形式表达如下：

其中，n是行业A的企业数量，h为通过最小化均方积分误差（MISE）获得的最优带宽[11]，f是高斯核函数。需要说明的是，对于行业A，其企业数量为n，则需要计算的企业双边距离数量将呈指数增长，达到。为减少计算量，本文遵循Ellison等（2007）[12]的简化建议，将企业数量超过2000家的行业随机抽样至2000家。

（2）构建反事实检验。为了获得集聚或分散指标的统计显著性，本文使用条件随机抽样的方法构建双边距离密度线的置信区间。使得随机模拟的密度线与真实得到的密度线可比，且两者差距可以反映出行业集聚或分散的程度，需要对随机抽样进行条件限制，这也是Combes和Overman（2004）[7]提出理想行业集聚测度指标所要满足的第2、3个条件。即构造的抽样总体中必须控制经济活动的总体集聚程度和行业集中程度。对此处理办法是只有某个邮政区域已经出现了至少一家企业，才会在模拟中将这个地区作为潜在的选址区域。假设整个制造业企业分布的抽样总体为点集S。对于存在n个企业的行业A，从S中随机无放回抽取n个点作为模拟行业，通过核密度估计函数得到模拟行业所有企业的双边距离核密度。对每个行业模拟1000次。

（3）甄别行业集聚和分散。通过将真实的企业双边距离核密度与模拟得到的核密度相比较，构建5%置信水平的集聚和分散检验。前者检验在某距离上该行业是否呈现出显著的集聚倾向，后者检验是否呈现出显著的分散倾向。如果某个行业在较短的距离上密度值较大，那么该行业很可能在该距离上形成集聚。反之，如果某个行业在特定距离上密度值很小，那么该行业更可能是分散型的。为开展统计检验，本文构建全局置信带，分别由不同距离上的集聚阈值和分散阈值组成，用来检验行业的集聚和分散的显著性。

(d)和通过以下方式确定。首先，在某一距离上，将得到的1000个随机分布密度值按升序排列。然后，选择某一特定分位数作为集聚阈值，以使得在全局距离上95%的随机分布密度值位于该分位数以下。如果，就认为在距离d上，该行业存在集聚。与Duranton和Overman（2005）[8]一致，只要存在某一d使得，就认为该行业是集聚的（本文涉及的集聚和分散，都指在全局5%置信度下甄别的结果）。的确定方法与之类似，只有确保全局距离上5%的模拟值位于该分位数以下，才将该分位点识别为分散阈值。由于在所有距离上任意行业的总和恒为1，那么该行业在一定距离上的集聚则意味着在另外距离下的分散。因此，当且仅当行业A至少在一个距离上出现且没有出现集聚，才认定该行业是分散的。进一步，为衡量距离上的集聚或分散程度，对于行业A，在距离d上构建集聚和分散指数：

集聚指数：

离散指数:

需要特别说明的是，由于DO指数是基于密度的方法，较短距离的高度集聚（分散）就代表长距离的分散（集聚），因此只需要考察短距离的密度分布。Duranton和Overman（2005）[8]在考察英国制造业集聚情况时将所有企业双边距离的中位数作为门槛值，但是对于地域辽阔的中国来说，本文选取企业双边距离的四分之一分位数作为门槛值。并且由于中国企业数量众多，其双边距离的计算量已严重超过大多数计算机的计算力，因此本文随机抽样计算了1250万个双边距离，取四分之一分位数，得到门槛值约为500km。

（4）解释与示例。为了形象的理解上述方法，图1给出丝制品制造业（SIC1754）和铁合金冶炼业（SIC3420）的企业双边距离密度以及局部和全局置信带。实线代表企业双边距离真实密度线，点式虚线代表局部置信带，短线式虚线代表全局置信带。如图1（a），丝制品制造业在0～300km上真实密度线位于上全局置信带以上，则在这个距离上，该行业是集聚的，且短距离集聚程度明显比远距离高。图1（b）则是行业分散的情形，在整个门槛值500km内，铁合金冶炼业的真实密度线均位于下全局置信带以下，所以根据分散的定义，它在整个考察范围内都是分散的。

2 集聚结果分析

2.1 集聚和分散的总体态势与空间特征

基于中国制造业行业的454个样本（将工业企业数据库与经纬度数据匹配完成后，共有480个行业，剔除企业数量低于10的行业（26个），剩余行业454个），本文发现324个行业在5%显著性水平下偏离DO指数构建的置信带。具体为：255个行业（56%）集聚，69个行业（15%）分散，130个行业（29%）既未表现出显著集聚也未表现出显著分散。这与英国[8]和日本[13]的发现非常类似。路江涌和陶志刚（2006）[14]基于EG指数法的研究发现2003年中国制造业的539个4位数行业都是集聚的，其中431个（79.96%）行业为低度集聚，74个行业（13.73%）为中度集聚，37个（6.31%）行业属于高度集聚。这与本文得出的发现差异较大。

图1 丝制品制造业（a）和铁合金冶炼业（b）的企业双边距离密度

图2 全局集聚和分散的行业数

图3 行业全局集聚程度和分散程度

为进一步细化考察行业的空间集聚尺度，图2给出了任意距离上集聚（分散）的行业数量，其中实线代表任一距离上集聚的行业数量。分析发现，在0～50Km的短距离上，约220个行业（占集聚行业数的86%）集聚。结合其明显的单调下降趋势，不难发现多数行业在短距离上集聚，而少数行业在远距离上集聚，且集聚的行业数量随着距离增加呈现线性递减趋势。这与路江涌和陶志刚（2007）[15]基于EG指数的考察结果同样存在差异。路江涌和陶志刚（2007）[15]认为以省为区域的EG指数大于以市为区域的EG指数，进一步大于以县为区域的EG指数。而对于虚线表示的分散的行业数量则在0～500Km上基本持平，约有40个行业保持分散。

此外，为进一步考察基于距离的行业集聚程度，定义每个距离上所有行业的集聚程度指标，该指标通过对任一距离上454个四位数行业的集聚指数加总获得。同理构建分散程度指标。图3的实线代表集聚程度随着距离增加的变化情况。具体表现为：在0～100Km的短距离内，行业集聚程度随距离呈现“倒U”型变化，且在53km处达到峰值，约为0.029。在100～300km的距离上，行业集聚程度以线性速度下降至0.011。在300～500Km的距离上，则缓慢下降至0.0036的低值。近似估计，短距离上的行业集聚程度三倍高于远距离上的行业集聚程度。这一发现同样支持了前文的研究结论：中国多数行业的集聚现象发生在短距离上，而非EG指数揭示的更广泛距离。

2.2 行业集聚特征分析

表1 集聚程度最高的10个四位数行业

另外一个有趣的发现是，在本文中前15个最集聚行业中，并不存在高技术产业（根据高技术产业（制造业）分类2013），相反多数为低技术行业。袁海红等（2014）对北京市的研究发现十大集聚行业（三位数）中9个行业是高新技术行业。造成这一差异的最主要原因可能是研究对象的差异，北京作为中国的政治、经济中心，其诸多的区位优势使其成为了我国最主要的高新技术行业集聚地，换言之，北京的特殊性使其很难成为全国样本的一个很好代表。这也从侧面佐证了上文的发现，至少在现阶段，劳动力因素可能是推动中国行业集聚的主要动力。

相对于高集聚行业，高分散行业的特征更加明显。从表2（分散度最高的前10个行业）可以发现：（1）水泥制造，瓶（罐）装饮用水制造，饲料加工三个行业需求量特别大，且产品基本无差异，行业准入门槛低、基本都是地方企业生产满足地方需求，外销的效益低、成本高，故表现为分散特征；（2）中药饮片加工（以及与之紧密相关的中成药制造行业）和液体乳及乳制品制造行业的产品质量依赖于新鲜的原材料，这使得这些行业的分布集中于其原材料生产地，避免高昂的运输成本；（3）锯材加工、铁合金冶炼和无机盐制造行业严重依赖于自然资源的分布，因此均表现出分散特征。这些发现印证了早期研究的理论预期，即高运输成本与高自然资源依赖的行业更容易分散。

表2 分散程度最高的10个四位数行业

3 行业集聚的动态变化

本文基于Duranton和Overman（2008）[8]的理论基础重点分析制造业集聚的动态变化与布局模式，进而考察随着时间发展，制造业是否变得更加集中或更加分散。这种集聚的动态变化从两个角度衡量。其一，新进入企业是否与整个行业有相同的空间分布模式；其二，如果存在相同模式，新进企业是否与原有企业就近集聚分布。

以行业A为例进行说明。首先，将2007年末正常营业且到2007年成立时间少于10年的企业定义为新进企业。以基准分析中的方法估计行业内双边企业距离的核密度函数。然后，采用下述方法构建置信区间。如果行业A中有n家新进企业和m家原有企业，则从m+n个点位上对n家新进企业随机分配选址，并重复模拟1000次，建立全局置信带。基于这一操作的研究发现：在164个三位数行业中，45个行业（27%）的新进企业与整体行业分布相比是集聚的，15个行业（9%）是分散的。剩余64%的行业新进企业的分布模式与整体行业相比无显著差异。即该行业不会因新企业的进入而在某些空间尺度上变得更加集聚或者更加分散，行业的空间分布格局保持稳定。

图4 新进企业集聚（左）和分散（右）行业数

图4（a）描绘了0～500km距离上新进企业集聚（分散）行业的数量。从图4（a）可以发现，集聚的行业数量较少，并且在全局距离上基本保持不变。从图4（b）则可以发现，新进企业分散的行业更多发生在短距离上，这意味着受企业进入的影响，这些行业的空间分布变得更加分散。

在新进企业集聚的10个最集聚行业中，有5个是基准分析中排名前10的集聚行业，其中3个是纺织和纺织相关行业，另外两个是文化用品制造和合成纤维制造行业。在新进企业集聚的45个行业中，有39个（87%）是在基准分析中集聚的行业。在控制原来已经相对集聚的空间分布模式下，新进企业依然集聚，这说明这些行业变得更加集聚。与之相反，分散行业并未表现出这一特征，在15个最分散的新进行业中，只有3个行业在基准分析中是分散的。

新进企业是否会与原企业就近集聚分布？采用核密度的方法，首先利用公式（4）计算新进企业到原有企业之间的距离的核密度函数，随后对于行业A，将所有企业在m+n个企业点位上随机分配，进行1000次模拟，估计核密度建立全局置信带。考察新进企业与原企业距离的实际密度是否比上下置信带的值更大或更小，以判断新进企业与原有企业发生共聚或远离原有企业发生互散。这类似于考察大中型企业和小型企业共聚或互散的方法。

结果表明：在164个三位数行业中，18个行业（11%）的新进企业与原有企业是共聚的；46个行业（28%）是互散的，这说明随着时间发展，部分行业的集聚区发生移动，这与英国制造业的结果类似。图5给出了新进企业与原有企业共聚或互散的行业数量随着距离的变化趋势。共聚的行业数虽然较少，但50%的共聚行业都发生在0～20km的短距离上。与之类似，多数互散行业也发生在短距离上。

图5 新进企业与原有企业共聚（a）和互散（b）行业数

进一步考察发现，共聚行业主要集中在农副食品加工业（CHINA SIC13）、皮革、毛皮、羽毛(绒)及其制品业（CHINA SIC19）、化学原料及化学制品制造业（CHINA SIC26）、有色金属冶炼及压延加工业（CHINA SIC33）、金属制品业（CHINA SIC34），这5个二位数行业共有10个共聚的下属三位数行业。从集聚经济学角度看，共聚现象发生在高技术行业可能更加有利，但这一预期并未得到证实。具体分析互散行业，发现其主要的两个来源是：（1）在整个制造业中表现为分散的行业，此类行业原本是分散属性的（属于最分散行业前十），新进企业大多也是同样的分布模式，例如铁合金冶炼（CHINA SIC324）、水泥及石膏制品制造（CHINA SIC312）等，这属于行业空间分布的延续性；（2）在整个制造业中表现为集聚的行业。其原本属性是集聚的（属于最集聚行业前十），但现在表现为互散，原因是这些行业的集聚区发生了变化，比如农林牧渔专用机械制造（CHINA SIC367）、丝绢纺织加工（CHINA SIC174）等。

总体而言，关于行业集聚的动态变化可以得出如下结论：（1）随着时间发展，约64%的行业空间分布模式保持稳定，不会变得更加集聚或更加分散；（2）少数行业的新进企业趋向于在原有企业周围集聚，部分行业的集聚区发生了变化；（3）共聚行业多为劳动力密集型行业，并非预期出现的知识密集型行业。

4 结论

利用详实的微观企业数据，本文综合借鉴了Duranton和 Overman（2005）[8]与 Duranton 和 Overman（2008）[9]的互补研究，在连续空间尺度上研究了中国制造业企业的产业集聚现象。一方面基于静态视角系统解析中国制造业行业（四位数）的集聚态势与空间特征；另一方面基于动态视角重点考察了中国制造业行业集聚的动态变化与布局模式。研究发现：56%的中国制造业行业在5%的显著性水平下表现为集聚，且超过80%的行业集聚发生在50km的短距离上；近半数的集聚行业集中在通用设备制造业、电气机械及器材制造业、纺织业，而分散行业多数集中在运输成本高或依赖自然资源的行业；城市规划的土地功能分区政策并没有对中国制造业的行业集聚造成较大影响；此外，相同二位数行业下的四位数行业空间分布模式类似；小型企业是大多数行业集聚的主体，约半数行业的企业分布模式是小企业围绕大企业集聚。在动态演进上，约67%的行业空间分布模式保持稳定，少数行业的新进企业趋向于在原有企业周围集聚，部分行业集聚区发生转移；最后，共聚行业多为劳动力密集型行业，而非预期出现的知识型密集型行业，这意味这着中国的产业空间分布还处在一个由劳动力市场需求和成本驱动的集聚状态。